Mail

"AI能同时做到更快又更聪明吗？"

通常，速度与深度是此消彼长的关系。求快则变浅，求深则变慢。Gemini 2.5 Flash在2026年4月打破了这个规律。

同样的输出质量，Token用量减少20-30%。需要真正深度时，启用Deep Think模式同时探索多个假设。对于既看重成本又关注性能的AI工具用户，以下是本次更新的核心解读。

Gemini 2.5 Flash正式发布 — 有何变化

截至2026年4月，Gemini 2.5 Flash和2.5 Pro均已达到**正式发布（GA）**状态。"预览"标签的去除意味着可在生产环境中稳定使用。

Flash的核心变化：

Token效率提升20-30%: 与旧版本相比，相同输出使用更少Token
推理、多模态、代码、长上下文基准测试全面提升
应用于Gemini Code Assist所有用户层级的聊天、代码生成和代码转换功能

Gemini 2.5 Flash性能对比图

Flash vs Pro，如何选择？

场景	推荐模型
快速响应+成本优先	Flash
复杂推理、研究与分析	Pro + Deep Think
代码生成与审查	Flash（GA）或Pro
实时对话与多模态	Gemini Live（基于Flash）

Deep Think模式 — 以不同方式应对复杂问题

Deep Think是Gemini 2.5 Pro搭载的增强推理模式。

普通AI回答是"预测最可能的下一个Token"，而Deep Think则是同时探索多个假设，内部验证后再给出回答。Google DeepMind表示应用了新的研究技术。

在API中启用Deep Think

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents=prompt,
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_budget=16000  # 最高32,000个Token
        )
    )
)

thinking_budget最高可设置为32,000个Token。问题复杂度越高，分配更多思考Token越能提升输出质量。

Deep Think对哪类问题有效？

数学与科学推理: 需要逐步证明的问题
战略规划: 需要比较多种场景时
代码调试: 原因不明的复杂漏洞追踪
文档分析: 把握长篇合同或论文的隐含意义

Deep Think是需要"正确答案"而非"快速答案"时使用的模式。请有选择性地应用于精度比速度更重要的场景。

Gemini Live — 把摄像头和屏幕展示给AI

Gemini Live现已在iOS上支持摄像头和屏幕共享，与此前率先在Android上发布的功能打通。基于Project Astra技术，所有用户（含免费计划）均可使用。

能做什么？

摄像头共享

将手机对准公式或图表进行实时分析
展示实物产品缺陷同时以对话形式进行诊断
拍摄厨房食材，获取食谱建议

屏幕共享

共享代码编辑器进行实时代码审查
展示电子表格，语音指示数据分析
一起查看网页或文档，同步提问

教育应用视角

从EdTech角度看，Gemini Live的屏幕共享是降低AI辅导门槛的功能。学生可以边展示解题过程边获取实时提示。教师可在课堂中通过屏幕共享创建即时问答循环。

Token效率化的实际成本计算

Token减少20-30%为何重要？用实际数字计算一下。

假设每天1,000次API请求，平均每次响应500个Token：

类别	日Token用量	月Token用量
旧版Flash	500,000	15,000,000
新版Flash（-25%）	375,000	11,250,000
节省	125,000	3,750,000

对于中等规模的服务，每月可节省数十至数百美元。性能同时提升，"更便宜更好用"并非夸大。

实战应用场景

场景1: 博客内容创作

用Flash生成初稿（成本优化）
用Pro + Deep Think进行事实核查和逻辑验证
通过Live屏幕共享获取排版反馈

场景2: 教育内容设计

用Deep Think生成学习目标→课程设计逻辑
用Flash批量生成学习单和测验
用Live摄像头开发基于实物教具的内容

场景3: 软件开发

用Flash快速生成样板代码
用Pro + Deep Think进行架构决策
用Code Assist GA实现稳定的IDE集成

总结

Gemini 2.5 Flash的本次更新改写了AI工具选择的逻辑。以前需要在"快的模型"和"好的模型"之间二选一，现在可以在同一生态系统内根据用途灵活切换。

Token效率化为开发者和企业带来实实在在的成本节省。Deep Think是向AI发出"再想想"指令的手段。Live的摄像头和屏幕共享将AI交互的输入渠道扩展到文字之外。

Gemini三大新功能中，你最想先尝试哪个？

相关阅读

您最想在哪种场景下使用Gemini Live的屏幕共享功能？欢迎在评论区分享！

来源

Gemini 2.5 Flash用更少Token实现更深思考 — Deep Think与Live更新解析

目录