- Published on
超越文本:将图像与视频来源融入NotebookLM的技术
"NotebookLM不是只能处理文本吗?"许多人这样认为,因此放弃在NotebookLM中使用图像或视频资料。然而,利用将图像和视频转换为文本的各种方法,多媒体内容也可以整合到NotebookLM的知识库中。本文将介绍图像文字提取、视频字幕转换,以及与多模态AI联动的方法。
目录
- NotebookLM的多媒体支持现状
- 将图像来源转换为文本
- 将视频来源整合到NotebookLM
- 与Gemini多模态联动的方法
- 教育现场多媒体分析场景
NotebookLM的多媒体支持现状
当前官方支持的来源
NotebookLM可直接处理的来源如下:
- PDF(含文本层)
- Google Docs / Slides
- 网页URL
- YouTube视频链接(基于字幕)
- 直接输入文本
图像与视频的限制
纯图像文件(PNG、JPG)或没有字幕的视频无法直接作为来源上传。PDF中仅包含图像的情况也无法识别文本。绕过这一限制是本文的核心。
绕过策略的基本原则
核心思路很简单:先将图像和视频转换为文本,再上传至NotebookLM。 这一预处理过程需要运用多种工具。
将图像来源转换为文本
通过OCR处理扫描图像
扫描的教学资料或教科书图像PDF需要通过OCR(光学字符识别)提取文本。
免费工具:
- Adobe Acrobat Reader(免费版):打开PDF,使用"文字识别"功能
- iLovePDF(网页端):免费提供PDF OCR功能
- Google Drive:将图像文件或扫描PDF上传至Google Drive,用Google Docs打开后自动OCR处理
分步方法(利用Google Drive):
- 将扫描PDF上传至Google Drive
- 右键点击文件 → "打开方式" → 用"Google Docs"打开
- Docs中提取文本后审查并保存
- 将该Google Docs添加为NotebookLM来源
为图表·图形图像生成说明文本
如需分析统计图表或教育数据可视化图像,请先使用Gemini或ChatGPT的图像分析功能。
步骤:
- 将图像上传至Gemini
- "请将这个图表的数据转换为文本表格。请包含所有数值和标签"
- 将生成的文本保存至Google Docs
- 添加为NotebookLM来源
信息图表分析
分析教育部或研究机构的信息图表时也使用相同方法。
- 将信息图表图像上传至Gemini
- "请将这个信息图表的所有文本和核心内容结构性地整理出来"
- 将文本转换结果添加为NotebookLM来源
将视频来源整合到NotebookLM
利用YouTube字幕(最简便的方法)
YouTube视频只需链接即可添加为NotebookLM来源。但必须有字幕。
- 有韩语字幕的教育内容、EBS讲座、TED韩语字幕视频
- 英语视频有韩语字幕的情况也可识别
- 自动生成字幕也可使用,但准确度可能较低
字幕质量确认方法:在YouTube打开视频,点击字幕按钮(CC)预先确认字幕质量。
利用视频脚本提取工具
没有字幕的视频需要用专门工具提取脚本。
推荐工具:
- Tactiq(Chrome扩展):实时提取YouTube、Zoom、Meet会议字幕
- Otter.ai:将英语视频语音转换为文本(免费300分钟/月)
- Clova Note(Naver):专注于韩语语音文字转换
步骤:
- 用Clova Note或Otter.ai将视频语音转换为文本
- 将转换的文本整理至Google Docs
- 添加为NotebookLM来源
利用会议·培训录制视频
教师培训或教职员会议录制视频也可用相同方法整合到NotebookLM。将培训内容文字化后,以后可以快速搜索所需内容。
与Gemini多模态联动的方法
Gemini的角色:多媒体→文本转换器
Gemini是可以直接分析图像、视频、音频文件的多模态AI。将Gemini用作NotebookLM的预处理工具是最高效的方式。
工作流程:
多媒体来源 → Gemini(分析·文字化) → 保存至Google Docs → 添加NotebookLM来源
课堂视频分析示例
分析教师自己录制的课堂视频时:
- 将视频上传至Gemini(需要Gemini Advanced)
- "请对这段课堂视频中教师的提问类型进行分类,并整理学生反应模式"
- 将分析结果导出至Google Docs
- 添加为NotebookLM来源,与其他课堂记录进行比较分析
教育现场多媒体分析场景
场景1:教育YouTube频道综合分析
将EBS或教育相关YouTube频道的10个视频整合到NotebookLM进行分析。
- 将各视频的YouTube URL添加为来源
- "这些视频共同强调的教育方法论是什么?"
- "请从每个视频中各提取一个可以立即应用于我的课堂的想法"
场景2:教育资料图像综合管理
系统管理各类教育政策信息图表、学业成就分析图表等。
- 用Gemini将图像文字化
- 以"PISA 2022韩国结果图表"等明确标题保存
- 上传至NotebookLM进行年度·项目比较分析
场景3:培训视频档案库
将教师培训视频文字化,构建培训内容数据库。
- 用Clova Note将培训视频语音转换
- 按主题整理后上传至NotebookLM
- 搜索"今年接受的培训中与校园暴力预防相关的所有内容"
将多媒体来源整合到NotebookLM的过程,起初可能感觉有些繁琐。但一旦建立起体系,不仅是文字,视频和图像中的知识也能整合管理在一个图书馆中。这种方法特别强大的地方在于,可以在同一背景下比较分析完全不同形式的资料。
您希望整合到NotebookLM的多媒体资料是什么?视频、图像、音频中,哪种形式是您最迫切需要的?欢迎在评论区告知,我们可以一起探讨解决方法。
延伸阅读