- Published on
Gemini Live升级 — 实时语音翻译与Proactive Audio让AI成为你的耳朵
会议中有人用外语发言。使用同声传译成本高昂,事后收到翻译稿又打断交流节奏。这个经典问题再次引起了Google的关注。
2026年5月,Google发布了Gemini 2.5 Flash Native Audio的重大更新。两大功能引人注目:实时语音-语音翻译(Live Speech-to-Speech Translation)和Proactive Audio。这不仅仅是功能叠加,而是AI处理语音方式的范式转变。
实时语音翻译:传递语言,也传递声音的灵魂

传统翻译应用的工作方式是:将语音转为文字,翻译文字,再将翻译后的文字转回语音。三个环节耗费时间,同时丢失了重要的东西——说话人的语调、重音、情感、语速。而这些占据了语言传递意义的半壁江。
Gemini的实时语音-语音翻译采取不同的方式。
戴上耳机开始对话,对方的声音会被实时翻译。核心在于保留原始声音的语调、速度和音调。如果对方激动地快速说话,翻译也会以同样的语速传达。提问的语气原封不动地传入耳朵。不仅仅是替换词语,而是传递声音的质感。
支持24种语言、30种高清音色。已在Google AI Studio和Vertex AI上线,Gemini Live和Search Live的推广也在进行中。
Proactive Audio:只对面向自己的发话做出回应
第二个功能Proactive Audio蕴含更有趣的理念。
AI语音助手有个固有问题——它一直在听。电视声音、旁人的对话、环境噪音——AI可能将这些都误判为“对自己的发话”。反之,如果灵敏度调得太低,真正需要时又无法响应。
Proactive Audio以不同方式化解这个矛盾。
“模型仅为发送到设备的查询生成文字转录和音频响应,不响应非设备定向查询。”——Google官方文档
AI不仅仅检测唤醒词,而是理解发话的意图和方向。这个人是在跟我说话,还是在跟房间里的其他人交谈?通过上下文来判断。同时生成文字转录和音频响应,但仅在内容相关时才激活。
Proactive Audio目前处于预览阶段,开发者可通过Gemini API优先体验。
多轮对话质量提升
此次更新中不那么显眼但很实用的改进:多轮对话一致性大幅提升。
以前进行多轮对话时,AI有时会遗漏之前轮次的上下文。从12-25模型版本起,前一轮次的上下文维持得更加稳定。
函数调用(Function Calling)的精度和指令遵循(Instruction Following)也有所提升,对将AI语音智能体接入生产服务和API的开发者来说是重要改进。
教育应用可能性
作为教育科技CEO,我思考了这两项功能如何与教育场景连接。
实时翻译的教育应用:
- 国际视频课堂中学生用母语发言,教师实时理解
- 多语言家庭的孩子们用实时翻译共同收听父母母语的课程
- 海外交流项目中降低语言壁垒的工具
Proactive Audio的教育应用:
- 教室环境中AI助手保持开启,但不响应上课时的背景噪音或学生闲聊,只回应教师的问题
- 低龄学生自主学习环境中AI不过度介入,仅在必要时提供帮助
从语言学习的角度看,实时翻译处于“理解辅助工具”与“语言习得障碍”的边界上。在目标语言环境中不借助翻译的沉浸式接触往往更有助于语言习得。何时开启翻译、何时关闭,是教育层面的重要选择,而非技术问题。
技术规格一览
| 项目 | 内容 |
|---|---|
| 模型 | Gemini 2.5 Flash Native Audio(12-25) |
| 支持语言 | 24种 |
| 高清音色数量 | 30种 |
| 翻译方式 | 语音-语音直接转换(最小化文字中间步骤) |
| 保留的要素 | 语调·速度·音调 |
| Proactive Audio | 预览阶段·Gemini API开发者优先提供 |
| 多轮对话改进 | 加强前一轮次上下文保持 |
| 函数调用 | 精度提升 |
使用技巧
体验实时翻译:在Google AI Studio中启用Live API并设置输入/输出语言,即可立即测试。
启用Proactive Audio:在API配置中设置
proactiveAudio: true参数。目前通过开发者预览提供。测试语调保留效果:用平静的语调和激动的语调说同一句话,比较翻译结果的差异,可以直观感受此功能的质量。
明确指定12-25模型:显式指定
gemini-2.5-flash-native-audio-12-25才能体验多轮对话改进。旧版本模型不适用此更新。函数调用的应用:利用提升的函数调用精度,构建通过语音调用内部系统或API的智能体。客户服务、预约、信息查询等场景尤为实用。
来源
- Google博客, "Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates": https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/
- Google DeepMind博客, "Gemini 2.5's native audio capabilities": https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-2-5-native-audio/
- Android Central, "Google's upgraded Gemini 2.5 Flash Native Audio model": https://www.androidcentral.com/apps-software/ai/googles-upgraded-gemini-2-5-flash-native-audio-model-makes-ai-more-conversational
- Google Cloud博客, "Gemini Live API available on Vertex AI": https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai
- eWeek, "Gemini 2.5 Flash Native Audio Gets Major Voice Upgrade": https://www.eweek.com/news/google-gemini-2-5-flash-native-audio-update/