Published on

超越文本:将图像与视频来源融入NotebookLM的技术

"NotebookLM不是只能处理文本吗?"许多人这样认为,因此放弃在NotebookLM中使用图像或视频资料。然而,利用将图像和视频转换为文本的各种方法,多媒体内容也可以整合到NotebookLM的知识库中。本文将介绍图像文字提取、视频字幕转换,以及与多模态AI联动的方法。


目录

  1. NotebookLM的多媒体支持现状
  2. 将图像来源转换为文本
  3. 将视频来源整合到NotebookLM
  4. 与Gemini多模态联动的方法
  5. 教育现场多媒体分析场景

NotebookLM的多媒体支持现状

当前官方支持的来源

NotebookLM可直接处理的来源如下:

  • PDF(含文本层)
  • Google Docs / Slides
  • 网页URL
  • YouTube视频链接(基于字幕)
  • 直接输入文本

图像与视频的限制

纯图像文件(PNG、JPG)或没有字幕的视频无法直接作为来源上传。PDF中仅包含图像的情况也无法识别文本。绕过这一限制是本文的核心。

绕过策略的基本原则

核心思路很简单:先将图像和视频转换为文本,再上传至NotebookLM。 这一预处理过程需要运用多种工具。


将图像来源转换为文本

通过OCR处理扫描图像

扫描的教学资料或教科书图像PDF需要通过OCR(光学字符识别)提取文本。

免费工具

  • Adobe Acrobat Reader(免费版):打开PDF,使用"文字识别"功能
  • iLovePDF(网页端):免费提供PDF OCR功能
  • Google Drive:将图像文件或扫描PDF上传至Google Drive,用Google Docs打开后自动OCR处理

分步方法(利用Google Drive)

  1. 将扫描PDF上传至Google Drive
  2. 右键点击文件 → "打开方式" → 用"Google Docs"打开
  3. Docs中提取文本后审查并保存
  4. 将该Google Docs添加为NotebookLM来源

为图表·图形图像生成说明文本

如需分析统计图表或教育数据可视化图像,请先使用Gemini或ChatGPT的图像分析功能。

步骤

  1. 将图像上传至Gemini
  2. "请将这个图表的数据转换为文本表格。请包含所有数值和标签"
  3. 将生成的文本保存至Google Docs
  4. 添加为NotebookLM来源

信息图表分析

分析教育部或研究机构的信息图表时也使用相同方法。

  1. 将信息图表图像上传至Gemini
  2. "请将这个信息图表的所有文本和核心内容结构性地整理出来"
  3. 将文本转换结果添加为NotebookLM来源

将视频来源整合到NotebookLM

利用YouTube字幕(最简便的方法)

YouTube视频只需链接即可添加为NotebookLM来源。但必须有字幕。

  • 有韩语字幕的教育内容、EBS讲座、TED韩语字幕视频
  • 英语视频有韩语字幕的情况也可识别
  • 自动生成字幕也可使用,但准确度可能较低

字幕质量确认方法:在YouTube打开视频,点击字幕按钮(CC)预先确认字幕质量。

利用视频脚本提取工具

没有字幕的视频需要用专门工具提取脚本。

推荐工具

  • Tactiq(Chrome扩展):实时提取YouTube、Zoom、Meet会议字幕
  • Otter.ai:将英语视频语音转换为文本(免费300分钟/月)
  • Clova Note(Naver):专注于韩语语音文字转换

步骤

  1. 用Clova Note或Otter.ai将视频语音转换为文本
  2. 将转换的文本整理至Google Docs
  3. 添加为NotebookLM来源

利用会议·培训录制视频

教师培训或教职员会议录制视频也可用相同方法整合到NotebookLM。将培训内容文字化后,以后可以快速搜索所需内容。


与Gemini多模态联动的方法

Gemini的角色:多媒体→文本转换器

Gemini是可以直接分析图像、视频、音频文件的多模态AI。将Gemini用作NotebookLM的预处理工具是最高效的方式。

工作流程

多媒体来源 → Gemini(分析·文字化) → 保存至Google Docs → 添加NotebookLM来源

课堂视频分析示例

分析教师自己录制的课堂视频时:

  1. 将视频上传至Gemini(需要Gemini Advanced)
  2. "请对这段课堂视频中教师的提问类型进行分类,并整理学生反应模式"
  3. 将分析结果导出至Google Docs
  4. 添加为NotebookLM来源,与其他课堂记录进行比较分析

教育现场多媒体分析场景

场景1:教育YouTube频道综合分析

将EBS或教育相关YouTube频道的10个视频整合到NotebookLM进行分析。

  1. 将各视频的YouTube URL添加为来源
  2. "这些视频共同强调的教育方法论是什么?"
  3. "请从每个视频中各提取一个可以立即应用于我的课堂的想法"

场景2:教育资料图像综合管理

系统管理各类教育政策信息图表、学业成就分析图表等。

  1. 用Gemini将图像文字化
  2. 以"PISA 2022韩国结果图表"等明确标题保存
  3. 上传至NotebookLM进行年度·项目比较分析

场景3:培训视频档案库

将教师培训视频文字化,构建培训内容数据库。

  1. 用Clova Note将培训视频语音转换
  2. 按主题整理后上传至NotebookLM
  3. 搜索"今年接受的培训中与校园暴力预防相关的所有内容"

将多媒体来源整合到NotebookLM的过程,起初可能感觉有些繁琐。但一旦建立起体系,不仅是文字,视频和图像中的知识也能整合管理在一个图书馆中。这种方法特别强大的地方在于,可以在同一背景下比较分析完全不同形式的资料。

您希望整合到NotebookLM的多媒体资料是什么?视频、图像、音频中,哪种形式是您最迫切需要的?欢迎在评论区告知,我们可以一起探讨解决方法。


延伸阅读

超越文本:将图像与视频来源融入NotebookLM的技术 | MINSSAM.COM