Published on

Gemini Live升级 — 实时语音翻译与Proactive Audio让AI成为你的耳朵

会议中有人用外语发言。使用同声传译成本高昂,事后收到翻译稿又打断交流节奏。这个经典问题再次引起了Google的关注。

2026年5月,Google发布了Gemini 2.5 Flash Native Audio的重大更新。两大功能引人注目:实时语音-语音翻译(Live Speech-to-Speech Translation)Proactive Audio。这不仅仅是功能叠加,而是AI处理语音方式的范式转变。


实时语音翻译:传递语言,也传递声音的灵魂

Gemini Live实时语音翻译

传统翻译应用的工作方式是:将语音转为文字,翻译文字,再将翻译后的文字转回语音。三个环节耗费时间,同时丢失了重要的东西——说话人的语调、重音、情感、语速。而这些占据了语言传递意义的半壁江。

Gemini的实时语音-语音翻译采取不同的方式。

戴上耳机开始对话,对方的声音会被实时翻译。核心在于保留原始声音的语调、速度和音调。如果对方激动地快速说话,翻译也会以同样的语速传达。提问的语气原封不动地传入耳朵。不仅仅是替换词语,而是传递声音的质感。

支持24种语言、30种高清音色。已在Google AI Studio和Vertex AI上线,Gemini Live和Search Live的推广也在进行中。


Proactive Audio:只对面向自己的发话做出回应

第二个功能Proactive Audio蕴含更有趣的理念。

AI语音助手有个固有问题——它一直在听。电视声音、旁人的对话、环境噪音——AI可能将这些都误判为“对自己的发话”。反之,如果灵敏度调得太低,真正需要时又无法响应。

Proactive Audio以不同方式化解这个矛盾。

“模型仅为发送到设备的查询生成文字转录和音频响应,不响应非设备定向查询。”——Google官方文档

AI不仅仅检测唤醒词,而是理解发话的意图和方向。这个人是在跟我说话,还是在跟房间里的其他人交谈?通过上下文来判断。同时生成文字转录和音频响应,但仅在内容相关时才激活。

Proactive Audio目前处于预览阶段,开发者可通过Gemini API优先体验。


多轮对话质量提升

此次更新中不那么显眼但很实用的改进:多轮对话一致性大幅提升。

以前进行多轮对话时,AI有时会遗漏之前轮次的上下文。从12-25模型版本起,前一轮次的上下文维持得更加稳定。

函数调用(Function Calling)的精度和指令遵循(Instruction Following)也有所提升,对将AI语音智能体接入生产服务和API的开发者来说是重要改进。


教育应用可能性

作为教育科技CEO,我思考了这两项功能如何与教育场景连接。

实时翻译的教育应用:

  • 国际视频课堂中学生用母语发言,教师实时理解
  • 多语言家庭的孩子们用实时翻译共同收听父母母语的课程
  • 海外交流项目中降低语言壁垒的工具

Proactive Audio的教育应用:

  • 教室环境中AI助手保持开启,但不响应上课时的背景噪音或学生闲聊,只回应教师的问题
  • 低龄学生自主学习环境中AI不过度介入,仅在必要时提供帮助

从语言学习的角度看,实时翻译处于“理解辅助工具”与“语言习得障碍”的边界上。在目标语言环境中不借助翻译的沉浸式接触往往更有助于语言习得。何时开启翻译、何时关闭,是教育层面的重要选择,而非技术问题。


技术规格一览

项目内容
模型Gemini 2.5 Flash Native Audio(12-25)
支持语言24种
高清音色数量30种
翻译方式语音-语音直接转换(最小化文字中间步骤)
保留的要素语调·速度·音调
Proactive Audio预览阶段·Gemini API开发者优先提供
多轮对话改进加强前一轮次上下文保持
函数调用精度提升

使用技巧

  1. 体验实时翻译:在Google AI Studio中启用Live API并设置输入/输出语言,即可立即测试。

  2. 启用Proactive Audio:在API配置中设置proactiveAudio: true参数。目前通过开发者预览提供。

  3. 测试语调保留效果:用平静的语调和激动的语调说同一句话,比较翻译结果的差异,可以直观感受此功能的质量。

  4. 明确指定12-25模型:显式指定gemini-2.5-flash-native-audio-12-25才能体验多轮对话改进。旧版本模型不适用此更新。

  5. 函数调用的应用:利用提升的函数调用精度,构建通过语音调用内部系统或API的智能体。客户服务、预约、信息查询等场景尤为实用。


来源

Gemini Live升级 — 实时语音翻译与Proactive Audio让AI成为你的耳朵 | MINSSAM.COM