Mail

会议中有人用外语发言。使用同声传译成本高昂，事后收到翻译稿又打断交流节奏。这个经典问题再次引起了Google的关注。

2026年5月，Google发布了Gemini 2.5 Flash Native Audio的重大更新。两大功能引人注目：实时语音-语音翻译（Live Speech-to-Speech Translation）和Proactive Audio。这不仅仅是功能叠加，而是AI处理语音方式的范式转变。

实时语音翻译：传递语言，也传递声音的灵魂

Gemini Live实时语音翻译

传统翻译应用的工作方式是：将语音转为文字，翻译文字，再将翻译后的文字转回语音。三个环节耗费时间，同时丢失了重要的东西——说话人的语调、重音、情感、语速。而这些占据了语言传递意义的半壁江。

Gemini的实时语音-语音翻译采取不同的方式。

戴上耳机开始对话，对方的声音会被实时翻译。核心在于保留原始声音的语调、速度和音调。如果对方激动地快速说话，翻译也会以同样的语速传达。提问的语气原封不动地传入耳朵。不仅仅是替换词语，而是传递声音的质感。

支持24种语言、30种高清音色。已在Google AI Studio和Vertex AI上线，Gemini Live和Search Live的推广也在进行中。

Proactive Audio：只对面向自己的发话做出回应

第二个功能Proactive Audio蕴含更有趣的理念。

AI语音助手有个固有问题——它一直在听。电视声音、旁人的对话、环境噪音——AI可能将这些都误判为“对自己的发话”。反之，如果灵敏度调得太低，真正需要时又无法响应。

Proactive Audio以不同方式化解这个矛盾。

“模型仅为发送到设备的查询生成文字转录和音频响应，不响应非设备定向查询。”——Google官方文档

AI不仅仅检测唤醒词，而是理解发话的意图和方向。这个人是在跟我说话，还是在跟房间里的其他人交谈？通过上下文来判断。同时生成文字转录和音频响应，但仅在内容相关时才激活。

Proactive Audio目前处于预览阶段，开发者可通过Gemini API优先体验。

多轮对话质量提升

此次更新中不那么显眼但很实用的改进：多轮对话一致性大幅提升。

以前进行多轮对话时，AI有时会遗漏之前轮次的上下文。从12-25模型版本起，前一轮次的上下文维持得更加稳定。

函数调用（Function Calling）的精度和指令遵循（Instruction Following）也有所提升，对将AI语音智能体接入生产服务和API的开发者来说是重要改进。

教育应用可能性

作为教育科技CEO，我思考了这两项功能如何与教育场景连接。

实时翻译的教育应用：

国际视频课堂中学生用母语发言，教师实时理解
多语言家庭的孩子们用实时翻译共同收听父母母语的课程
海外交流项目中降低语言壁垒的工具

Proactive Audio的教育应用：

教室环境中AI助手保持开启，但不响应上课时的背景噪音或学生闲聊，只回应教师的问题
低龄学生自主学习环境中AI不过度介入，仅在必要时提供帮助

从语言学习的角度看，实时翻译处于“理解辅助工具”与“语言习得障碍”的边界上。在目标语言环境中不借助翻译的沉浸式接触往往更有助于语言习得。何时开启翻译、何时关闭，是教育层面的重要选择，而非技术问题。

技术规格一览

项目	内容
模型	Gemini 2.5 Flash Native Audio（12-25）
支持语言	24种
高清音色数量	30种
翻译方式	语音-语音直接转换（最小化文字中间步骤）
保留的要素	语调·速度·音调
Proactive Audio	预览阶段·Gemini API开发者优先提供
多轮对话改进	加强前一轮次上下文保持
函数调用	精度提升

使用技巧

体验实时翻译：在Google AI Studio中启用Live API并设置输入/输出语言，即可立即测试。
启用Proactive Audio：在API配置中设置proactiveAudio: true参数。目前通过开发者预览提供。
测试语调保留效果：用平静的语调和激动的语调说同一句话，比较翻译结果的差异，可以直观感受此功能的质量。
明确指定12-25模型：显式指定gemini-2.5-flash-native-audio-12-25才能体验多轮对话改进。旧版本模型不适用此更新。
函数调用的应用：利用提升的函数调用精度，构建通过语音调用内部系统或API的智能体。客户服务、预约、信息查询等场景尤为实用。

来源

Google博客, "Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates": https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/
Google DeepMind博客, "Gemini 2.5's native audio capabilities": https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-2-5-native-audio/
Android Central, "Google's upgraded Gemini 2.5 Flash Native Audio model": https://www.androidcentral.com/apps-software/ai/googles-upgraded-gemini-2-5-flash-native-audio-model-makes-ai-more-conversational
Google Cloud博客, "Gemini Live API available on Vertex AI": https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai
eWeek, "Gemini 2.5 Flash Native Audio Gets Major Voice Upgrade": https://www.eweek.com/news/google-gemini-2-5-flash-native-audio-update/