Mail

AI模型发布通常分为两类：一类是罗列基准测试数字的发布，另一类是真正改变某些事情的发布。Claude 4.6属于后者。

Anthropic于2026年2月5日发布Claude Opus 4.6，2月17日发布Claude Sonnet 4.6。两款模型均以标准定价标配100万Token上下文窗口，在代码、智能体工作流和长文本推理方面相比上一代有明显提升。价格与上一代保持不变。

两款模型共有的核心功能

100万Token上下文窗口

Opus 4.6和Sonnet 4.6均以标准定价标配100万Token上下文窗口，无需额外付费。

用具体场景来感受：一部普通小说约10万Token，100万Token意味着可以同时处理10部小说的文本量——或者一个完整代码库、数百份文档、一学期的全部课程资料。

Adaptive Thinking（自适应推理）

thinking: {type: "adaptive"}成为两款模型的推荐推理模式。Claude根据问题复杂度自主决定思考深度：简单问题快速响应，复杂问题深度思考。

动态网络搜索过滤

网络搜索和抓取工具现支持动态过滤：Claude可在将结果放入上下文前编写并执行代码进行筛选，只保留相关信息。在提升答案准确性的同时降低Token消耗。

自动上下文压缩

当对话接近上下文上限时，API自动在服务器端汇总早期对话，实现事实上的无限对话。长期项目可以持续推进而无需手动管理。

Opus 4.6专属：Agent Teams与128k输出

Agent Teams — 并行智能体协作

Agent Teams是Opus 4.6最值得关注的功能，Sonnet不具备此功能。它允许多个Claude实例同时处理项目的不同部分，而非顺序执行。

以软件项目为例：

实例A → 编写测试
实例B → 重构模块
实例C → 更新文档

三项任务并行推进，复杂多步骤工作的完成时间大幅缩短。

128k输出Token

Opus 4.6最多支持128k输出Token——是上一代的两倍。长时间智能体运行或大规模代码生成不再面临被截断的问题。

对比项	Opus 4.6	Sonnet 4.6
上下文窗口	100万Token	100万Token
最大输出	128k Token	标准
Agent Teams	✅ 支持	❌ 不支持
定价（输入/输出）	$15/$ 75 per MTok	$3/$ 15 per MTok

Sonnet 4.6的飞跃：ARC-AGI-2与数学能力

ARC-AGI-2：4.3倍提升

ARC-AGI-2衡量AI的通用推理能力，是难度较高的基准测试。Sonnet 4.6从13.6%跃升至58.3%，4.3倍的提升是Claude历史上单代最大涨幅。

数学能力大幅提升

数学得分从62%提升至89%。如果说上一代中端模型在数学上存在明显短板，Sonnet 4.6在数据分析和定量任务方面已达到可信赖的水准。

性价比对比

SWE-bench Verified（软件工程能力评估）基准：

Opus 4.6：80.8%
Sonnet 4.6：79.6%（差距：1.2个百分点）
价格差异：Sonnet仅为Opus价格的1/5

大多数任务中，Sonnet 4.6能以Opus五分之一的成本实现接近Opus的效果。

开发者与教育者的实践技巧

模型越强大，懂得如何使用就越重要。

教育场景中的Claude 4.6应用：

完整课程分析：将整学期的教学资料放入100万Token上下文，进行跨文档的整体分析
学生反馈自动化：用Opus 4.6的Agent Teams并行处理多位学生的作业
长篇研究论文摘要：将100页以上的PDF整体导入，基于核心问题生成摘要
数学与数据分析课程：充分利用Sonnet 4.6提升的数学能力辅助解题
提示词注入防护：Sonnet 4.6在此方面有重大改进，适合需要安全边界的教育部署

Claude 4.6指向的未来方向

Claude 4.6传递的信息很简单：AI能处理的规模更大了，同时能并行完成多项任务。

100万Token上下文意味着AI能"记住整个项目"；Agent Teams意味着AI能"同时承担多个角色"。从教育科技角度看，这标志着AI从简单的问答助手，进化为真正能够全程参与学习设计与执行的协作者。

能力越强，设计者的能力也越重要。更强的工具会放大使用者的技能与疏漏。问题不只是"这个模型能做什么"，而是"它让你得以专注于什么样的思考"。

相关阅读

你最想用Claude 4.6的100万Token上下文来做什么？欢迎在评论区分享！

Sources:

Claude 4.6 深度解析 — 1M上下文·Agent Teams·ARC-AGI-2飞跃

目录