Published on

Claude 4.6 深度解析 — 1M上下文·Agent Teams·ARC-AGI-2飞跃

AI模型发布通常分为两类:一类是罗列基准测试数字的发布,另一类是真正改变某些事情的发布。Claude 4.6属于后者。

Anthropic于2026年2月5日发布Claude Opus 4.6,2月17日发布Claude Sonnet 4.6。两款模型均以标准定价标配100万Token上下文窗口,在代码、智能体工作流和长文本推理方面相比上一代有明显提升。价格与上一代保持不变。


目录

  1. 两款模型共有的核心功能
  2. Opus 4.6专属:Agent Teams与128k输出
  3. Sonnet 4.6的飞跃:ARC-AGI-2与数学能力
  4. 开发者与教育者的实践技巧
  5. Claude 4.6指向的未来方向

两款模型共有的核心功能

100万Token上下文窗口

Opus 4.6和Sonnet 4.6均以标准定价标配100万Token上下文窗口,无需额外付费。

用具体场景来感受:一部普通小说约10万Token,100万Token意味着可以同时处理10部小说的文本量——或者一个完整代码库、数百份文档、一学期的全部课程资料。

Adaptive Thinking(自适应推理)

thinking: {type: "adaptive"}成为两款模型的推荐推理模式。Claude根据问题复杂度自主决定思考深度:简单问题快速响应,复杂问题深度思考。

动态网络搜索过滤

网络搜索和抓取工具现支持动态过滤:Claude可在将结果放入上下文前编写并执行代码进行筛选,只保留相关信息。在提升答案准确性的同时降低Token消耗。

自动上下文压缩

当对话接近上下文上限时,API自动在服务器端汇总早期对话,实现事实上的无限对话。长期项目可以持续推进而无需手动管理。


Opus 4.6专属:Agent Teams与128k输出

Agent Teams — 并行智能体协作

Agent Teams是Opus 4.6最值得关注的功能,Sonnet不具备此功能。它允许多个Claude实例同时处理项目的不同部分,而非顺序执行。

以软件项目为例:

  • 实例A → 编写测试
  • 实例B → 重构模块
  • 实例C → 更新文档

三项任务并行推进,复杂多步骤工作的完成时间大幅缩短。

128k输出Token

Opus 4.6最多支持128k输出Token——是上一代的两倍。长时间智能体运行或大规模代码生成不再面临被截断的问题。

对比项Opus 4.6Sonnet 4.6
上下文窗口100万Token100万Token
最大输出128k Token标准
Agent Teams✅ 支持❌ 不支持
定价(输入/输出)15/15/75 per MTok3/3/15 per MTok

Sonnet 4.6的飞跃:ARC-AGI-2与数学能力

ARC-AGI-2:4.3倍提升

ARC-AGI-2衡量AI的通用推理能力,是难度较高的基准测试。Sonnet 4.6从13.6%跃升至58.3%,4.3倍的提升是Claude历史上单代最大涨幅。

数学能力大幅提升

数学得分从62%提升至89%。如果说上一代中端模型在数学上存在明显短板,Sonnet 4.6在数据分析和定量任务方面已达到可信赖的水准。

性价比对比

SWE-bench Verified(软件工程能力评估)基准:

  • Opus 4.6:80.8%
  • Sonnet 4.6:79.6%(差距:1.2个百分点)
  • 价格差异:Sonnet仅为Opus价格的1/5

大多数任务中,Sonnet 4.6能以Opus五分之一的成本实现接近Opus的效果。


开发者与教育者的实践技巧

模型越强大,懂得如何使用就越重要。

教育场景中的Claude 4.6应用:

  • 完整课程分析:将整学期的教学资料放入100万Token上下文,进行跨文档的整体分析
  • 学生反馈自动化:用Opus 4.6的Agent Teams并行处理多位学生的作业
  • 长篇研究论文摘要:将100页以上的PDF整体导入,基于核心问题生成摘要
  • 数学与数据分析课程:充分利用Sonnet 4.6提升的数学能力辅助解题
  • 提示词注入防护:Sonnet 4.6在此方面有重大改进,适合需要安全边界的教育部署

Claude 4.6指向的未来方向

Claude 4.6传递的信息很简单:AI能处理的规模更大了,同时能并行完成多项任务。

100万Token上下文意味着AI能"记住整个项目";Agent Teams意味着AI能"同时承担多个角色"。从教育科技角度看,这标志着AI从简单的问答助手,进化为真正能够全程参与学习设计与执行的协作者。

能力越强,设计者的能力也越重要。更强的工具会放大使用者的技能与疏漏。问题不只是"这个模型能做什么",而是"它让你得以专注于什么样的思考"。


相关阅读

你最想用Claude 4.6的100万Token上下文来做什么?欢迎在评论区分享!


Sources:

Claude 4.6 深度解析 — 1M上下文·Agent Teams·ARC-AGI-2飞跃 | MINSSAM.COM