- Published on
テキストを超えて画像・映像ソースをNotebookLMに組み込む技術
「NotebookLMはテキストしか対応していないのでは?」と思って、画像や映像資料をNotebookLMに活用することを諦めている方も多いのではないでしょうか。しかし、画像と映像をテキストに変換するさまざまな方法を活用すれば、マルチメディアコンテンツもNotebookLMの知識ベースに統合できます。この記事では、画像内のテキスト抽出、映像の字幕変換、そしてマルチモーダルAIとの連携方法を紹介します。
目次
- NotebookLMのマルチメディア対応状況
- 画像ソースをテキストに変換する
- 映像ソースをNotebookLMに統合する
- Geminiマルチモーダルとの連携方法
- 教育現場のマルチメディア分析シナリオ
NotebookLMのマルチメディア対応状況
現在公式対応しているソース
NotebookLMが直接処理できるソースは以下の通りです。
- PDF(テキストレイヤーを含む)
- Google Docs / Slides
- WebページのURL
- YouTubeの動画リンク(字幕ベース)
- テキストの直接入力
画像と映像の制限
純粋な画像ファイル(PNG、JPG)や字幕のない映像は直接ソースとしてアップロードできません。PDF内に画像のみがある場合もテキストを認識できません。この限界を回避することがこの記事の核心です。
回避戦略の基本原則
核心となるアイデアはシンプルです:画像と映像を先にテキストに変換してからNotebookLMにアップロードする。 この前処理には様々なツールが活用されます。
画像ソースをテキストに変換する
OCRでスキャン画像を処理する
授業資料や教科書をスキャンした画像PDFは、OCR(光学文字認識)でテキストを抽出する必要があります。
無料ツール:
- Adobe Acrobat Reader(無料版):PDFを開いて「テキスト認識」機能を使用
- iLovePDF(Webベース):PDF OCR機能を無料で提供
- Google Drive:画像ファイルやスキャンPDFをGoogle Driveにアップロードした後、Google Docsで開くと自動OCR処理
段階別の方法(Google Drive活用):
- Google DriveにスキャンPDFをアップロード
- ファイルを右クリック → 「アプリで開く」→「Google Docs」で開く
- Docsでテキストが抽出されたら確認して保存
- 該当するGoogle DocsをNotebookLMのソースとして追加
図表・グラフ画像の説明テキスト生成
統計グラフや教育データの視覚化画像を分析するには、GeminiやChatGPTの画像分析機能をまず活用しましょう。
手順:
- Geminiに画像をアップロード
- 「このグラフのデータをテキスト表に変換してください。数値とラベルをすべて含めてください」
- 生成されたテキストをGoogle Docsに保存
- NotebookLMのソースとして追加
インフォグラフィックの分析
教育省や研究機関のインフォグラフィックを分析する際も同じ方法を使います。
- Geminiにインフォグラフィックの画像をアップロード
- 「このインフォグラフィックのすべてのテキストと核心的な内容を構造的に整理してください」
- テキスト変換の結果をNotebookLMのソースとして追加
映像ソースをNotebookLMに統合する
YouTubeの字幕を活用する(最も簡単な方法)
YouTube動画はリンクだけでNotebookLMのソースとして追加できます。ただし、字幕が必要です。
- 韓国語字幕がある教育コンテンツ、EBS講義、TED韓国語字幕動画
- 英語動画に韓国語字幕がある場合も認識されます
- 自動生成字幕も可能ですが、精度が低い場合があります
字幕品質の確認方法:YouTubeで動画を開いて字幕ボタン(CC)をクリックし、字幕の品質を事前に確認してください。
映像のスクリプト抽出ツールを活用する
字幕のない映像は別途のツールでスクリプトを抽出する必要があります。
おすすめツール:
- Tactiq(Chrome拡張機能):YouTube、Zoom、Meetの会議の字幕をリアルタイム抽出
- Otter.ai:英語動画の音声をテキストに変換(無料300分/月)
- Clova Note(ネイバー):韓国語の音声テキスト変換に特化
手順:
- 映像の音声をClova NoteまたはOtter.aiでテキスト変換
- 変換されたテキストをGoogle Docsに整理
- NotebookLMのソースとして追加
会議・研修の録画映像の活用
教師研修や職員会議の録画映像も同じ方法でNotebookLMに統合できます。研修内容をテキスト化しておくと、後で必要な内容を素早く検索できます。
Geminiマルチモーダルとの連携方法
Geminiの役割:マルチメディア→テキスト変換機
Geminiは画像、映像、オーディオファイルを直接分析できるマルチモーダルAIです。NotebookLMの前処理ツールとしてGeminiを活用するのが最も効率的です。
ワークフロー:
マルチメディアソース → Gemini(分析・テキスト化)→ Google Docs保存 → NotebookLMソース追加
授業映像分析の例
教師自身の授業を録画した映像を分析するとき:
- 映像をGeminiにアップロード(Gemini Advanced必要)
- 「この授業映像で教師の発問の種類を分類して、学生の反応パターンを整理してください」
- 分析結果をGoogle Docsにエクスポート
- NotebookLMのソースとして追加して他の授業記録と比較分析
教育現場のマルチメディア分析シナリオ
シナリオ1:教育YouTubeチャンネルの総合分析
EBSや教育関連YouTubeチャンネルの動画10本をNotebookLMに統合して分析します。
- 各動画のYouTube URLをソースとして追加
- 「これらの動画が共通して強調している教育方法論は何か?」
- 「私の授業にすぐ応用できるアイデアを動画ごとに1つ抽出してください」
シナリオ2:教育資料画像の統合管理
各種教育政策インフォグラフィック、学業成績分析グラフなどを体系的に管理します。
- 画像をGeminiでテキスト化
- 「PISA 2022韓国の結果グラフ」などの明確なタイトルで保存
- NotebookLMにアップロードして年度別・項目別の比較分析
シナリオ3:研修映像アーカイブ
教師研修の映像をテキスト化して研修内容のデータベースを構築します。
- 研修映像の音声をClova Noteで変換
- テーマ別に整理してNotebookLMにアップロード
- 「今年受けた研修の中で学校暴力防止に関連する内容をすべて整理してください」で検索
マルチメディアソースをNotebookLMに統合する過程は、最初は少し面倒に感じるかもしれません。しかし一度体系を作っておけば、テキストだけでなく映像や画像の中の知識まで一つの図書館として統合管理できます。このアプローチが特に強力なのは、まったく異なる形式の資料を同じ文脈の中で比較分析できるからです。
NotebookLMに統合したいマルチメディア資料があれば何ですか?映像、画像、オーディオのうち、どの形式が最も惜しいですか?コメントで教えていただければ、追加の方法を一緒に考えることができます。
関連記事