Mail

"我想把讲课录成音频上传，但每次都要坐到麦克风前太麻烦了。"

做过课程内容的教育者都有过这种烦恼。文字讲义已经全部做好了，却还得再录一遍音频，工作流程就这样被打断了。没有专业录音设备，质量还参差不齐。

2026年5月，谷歌以正面解决这个问题的方式升级了Gemini 2.5 Flash的音频功能。Native Audio增强与TTS模型升级 — 这两条主线的变化如何改变教育内容制作工作流程，我们来详细分析。

1. Gemini音频的两种方式

Gemini提供两种处理音频的方式。理解这一区别，是正确应用的出发点。

Native Audio（原生音频）

Gemini 2.5 Flash在处理文本的同时直接生成音频，无需经过独立的TTS引擎，因此对话上下文可以自然地反映在语音输出中。

特点：

针对实时语音对话（Gemini Live）优化
函数调用（Function Calling）与音频输出同步工作
可在Google AI Studio、Vertex AI、Gemini Live、Search Live中使用

TTS模型（文本转语音）

将文本输入转为语音的专用模型。包含Gemini 2.5 Flash TTS（低延迟优化）和Gemini 2.5 Pro TTS（高质量优化）两种。

特点：

支持单说话人和多说话人
可通过风格提示词控制情感和语速
可通过Gemini API直接调用

Gemini Native Audio与TTS对比

一句话总结：Native Audio适合实时对话，TTS模型适合内容制作。

2. 五月升级核心 — 三项改进

改进1：更精准的函数调用（Sharper Function Calling）

在生成音频的同时调用外部函数（工具）的精度大幅提升。例如：学生用语音提问 → Gemini实时查询课程资料数据库 → 以语音自然作答，这一流程现在更加稳定可靠。

改进2：更流畅的对话流程（Smoother Conversations）

利用前序对话内容作为上下文，实现一致性更强的语音回应。像真实讲课一样，参考前面讲解的内容自然衔接的流程得以实现。

改进3：TTS表现力、节奏与多说话人改进

项目	升级前	五月升级后
表现力	单调	根据情境反映情感与强调
节奏	匀速	根据上下文自动调整语速
多说话人	单一声音	各角色保持一致的声音

"AI朗读文本和AI理解后说话，是两回事。五月升级后，Gemini TTS向后者又迈近了一步。"

3. 教育内容制作场景三选

场景1：文字讲义 → 音频讲座转换

工作流程：

在Notion/Google文档中撰写讲义
将文本发送给Gemini 2.5 Pro TTS
用风格提示词调整各段落的强调、语速、情感色调
生成MP3文件 → 上传至LMS

以往的TTS工具难以针对教育内容特性进行精细调整。利用本次升级的"风格提示词"，可以实现"重要概念放慢讲，举例说明时加快"这类教学强调。

场景2：基于语音的AI问答系统

学生以文字输入问题 → Gemini Native Audio查询教材数据库 → 以语音作答。对于听觉学习者或有阅读障碍的学生，这是特别有价值的无障碍功能。

通过API触发实现后，点击LMS中的"提问"按钮即可自动生成语音回答。

场景3：多说话人课程播客制作

可以制作两位及以上角色对话形式的课程播客：

"教师与学生对话"形式讲解概念
"两位历史人物辩论"制作历史课内容
"正反方辩论"形式构建社会课学习材料

从文字脚本直接转换为各说话人的声音，无需视频剪辑即可制作沉浸式学习内容。

4. 如何通过API直接实现

可以在Google AI Studio中直接调用Gemini 2.5 Flash TTS。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash-preview-tts")

response = model.generate_content(
    "请自然地朗读以下讲课内容：[讲义文本]",
    generation_config={
        "response_modalities": ["AUDIO"],
        "speech_config": {
            "voice_config": {
                "prebuilt_voice_config": {"voice_name": "Kore"}
            }
        }
    }
)

# 保存音频数据
audio_data = response.candidates[0].content.parts[0].inline_data.data
with open("lecture_audio.mp3", "wb") as f:
    f.write(audio_data)

多说话人TTS只需添加multi_speaker_markup配置，即可区分生成多个说话人的声音。

5. 局限性与注意事项

也有几点需要坦诚说明：

语言支持： 中文TTS质量与英文相比还有改进空间，建议先从英文内容制作开始尝试。
费用考量： TTS API调用按输入token计费。大量转换长篇讲课内容时，需提前规划费用。
版权确认： AI生成音频的版权归属因平台和地区而异。商业用途时务必确认谷歌使用条款。
仍为预览版： 截至2026年5月为预览状态，正式发布前API结构可能发生变化。

结语

Gemini 2.5 Flash的Native Audio与TTS升级，正在从根本上改变"AI说话的方式"。从简单朗读文本，到理解上下文、体现教学重点、以多角色声音自然对话。

将课程资料转为音频的时间缩短了，教育者就能把这些时间用在与学生的真实互动上。技术承担了重复性工作，人便能专注于判断与共情的角色。

相关文章

你在教育场景中尝试过Gemini的音频功能吗？欢迎在评论区分享！

Sources

Gemini 2.5 Flash开口"朗读"了 — Native Audio与TTS升级如何改变教育内容制作

目录