Published on

Gemini 2.5 三月升级:用自己的文件做 Deep Research,还能用 Lyria 3 生成音乐

在做研究时,你是否曾想过——"要是能把自己的资料交给 AI,让它基于这些资料继续深挖就好了"?

以往的 AI 研究工具擅长从网络抓取信息,但要用你已有的内部资料——整理好的论文、会议纪要、访谈记录——作为基础让 AI 进一步调研,依然是件难事。2026年3月,Gemini 打破了这道壁垒。

同月,Gemini 还发布了 Lyria 3——一个将文字和图像转化为音乐的生成模型。一个月内,Gemini 作为研究工具和创作伙伴的能力都得到了显著扩展。以下是核心梳理。


目录

  1. Deep Research 进化:自己的文件成为信息源
  2. Lyria 3:从文字和图像生成音乐的 AI
  3. Gemini 2.5 Flash 改进:免费用户也变强了
  4. 个性化智能与 API 更新
  5. 实战场景:研究者与创作者的使用指南

1. Deep Research 进化:自己的文件成为信息源

这个只会向外搜索的 AI 研究工具,现在可以读取你自己的资料了。

2026年3月,Gemini 的 Deep Research 新增了文件和图像上传功能。用户可以将自己持有的文档(PDF、Word 文件、图像等)直接纳入研究过程。AI 将内部资料与外部搜索相结合,生成更具背景深度的研究报告。

这一变化为何在实质上很重要?答案是可靠性。传统 AI 研究完全依赖外部搜索结果,往往出现与研究背景不符,或重复你已知内容的情况。以自有资料为基础,AI 才能更准确地填补你研究中的空白。

Gemini Deep Research 文件上传功能

Deep Research 向免费用户开放

更令人振奋的消息是:基于 Gemini 2.5 Flash 的 Deep Research 现已向免费用户开放。此前这是付费订阅专属功能,现在人人都可以尝试。虽然质量与付费版有差异,但研究体验本身现在可以免费体验。


2. Lyria 3:从文字和图像生成音乐的 AI

描述一个氛围,就能得到一首音乐。不需要任何乐器技能。

同月发布的 Lyria 3 是 Google 的音乐生成 AI 模型,分为两个版本:

模型特点
lyria-3-clip-preview针对 30 秒片段生成进行优化
lyria-3-pro-preview可生成完整长度的曲目

两个模型均输出 48kHz 立体声音频,并同时接受文字和图像作为输入。你可以上传参考图片,让 Lyria 3 生成符合其氛围的配乐。

可以怎么使用

  • 教育内容创作者:为视频生成合适的背景音乐
  • YouTuber 与创作者:制作无版权顾虑的原创音乐来完成视频
  • 演示文稿制作者:生成与汇报氛围相匹配的背景音
  • 教育科技:在课程开始时用生成的环境音营造氛围

"创作音乐的能力正在被大众化。不会读谱、不会乐器都没关系——能用文字描述你想要的氛围,就已经足够了。"

这些模型目前通过 Gemini API 向开发者提供,预计未来将向普通用户界面扩展。


3. Gemini 2.5 Flash 改进:免费用户也变强了

更好的格式与图像理解能力,向所有用户开放。

改进版 Gemini 2.5 Flash 已向全体 Gemini 应用用户推送。核心改进有两点:

格式优化:复杂输出内容更积极地使用标题、列表、表格等排版元素。告别大段文字堆砌,结构化信息让可读性大幅提升。

图像理解增强:用户上传图片后,AI 能更准确地解读内容并做出响应。图表识别、图形分析、照片内文字识别均有改善。


4. 个性化智能与 API 更新

Gemini 开始理解你的数字生活全貌。

个性化智能免费开放(美国地区)

Personal Intelligence 功能现已向美国全体 Gemini 用户免费开放。通过连接 Gmail、Google Photos 和 YouTube,Gemini 成为真正了解你个人背景的智能助手——帮你规划旅行、协调项目、整理个人记录。

国际推广时间尚不确定,但根据 Google 一贯的全球扩展节奏,预计不久后将向国际地区延伸。

API 主要更新

开发者使用的 Gemini API 也同步更新:

  • Cloud Storage 支持:可直接使用 Google Cloud Storage 存储桶作为数据输入源
  • 文件大小上限提升:从 20MB 提升至 100MB(扩大 5 倍)
  • 内置工具 + 函数调用组合:在单次 API 请求中同时使用 Gemini 原生工具与自定义函数调用

文件大小限制提升至 100MB,对处理高分辨率图像、较长视频片段或大型 PDF 的工作流来说具有实质性意义。


5. 实战场景:研究者与创作者的使用指南

两种最能发挥此次更新价值的使用模式。

研究者的 Deep Research 工作流:

  1. 将自有一手资料(论文、报告、访谈记录)整理为文件
  2. 上传至 Gemini Deep Research,设定研究目标
  3. AI 结合内部资料与外部搜索,生成综合研究报告
  4. AI 自动发现论点空白和可能的反驳观点

创作者的内容制作工作流:

  1. 用文字描述视频概念(例如:"温暖的春日教室,轻柔的钢琴旋律")
  2. 可选上传参考图片以设定氛围
  3. 用 Lyria 3 生成 30 秒的背景音乐片段
  4. 插入视频——无版权问题,可放心使用

结语

Gemini 三月更新可以用两个关键词概括:整合自身资料拓展创作边界。Deep Research 连通了外部与内部,Lyria 3 消融了文字与音乐之间的边界。

AI 工具正以越来越快的速度突破各自的原有领域,相互交汇融合。在这一趋势中,最重要的不是了解哪个工具,而是拥有清晰表达自己需求的能力。


相关文章

Lyria 3 和 Deep Research,你最想先尝试哪一个?欢迎在评论区告诉我们!


参考来源:

Gemini 2.5 三月升级:用自己的文件做 Deep Research,还能用 Lyria 3 生成音乐 | MINSSAM.COM