Published on

AI智能体学会了“做梦” — Claude Managed Agents发布Dreaming、Outcomes与多智能体编排

人类在睡眠中整理记忆。白天积累的经历被分类,重要的转入长期记忆,不再需要的则逐渐消退。科学家将这一过程称为“记忆固化”。

2026年5月6日,Anthropic为Claude Managed Agents添加的Dreaming功能,正是遵循这一相同原理运作。AI智能体在“休息时间”里回顾自己的历史会话,提取规律,整理记忆——就像人类一样。

这次更新并不只有Dreaming。Outcomes(基于成功标准的自我评分)和多智能体编排(将复杂任务分配给多个智能体)也同步发布。这是AI智能体正式向“团队成员”进化的转折点。


三项新功能一览

功能状态一句话摘要
多智能体编排公开测试版主导智能体将复杂任务分解并分配给专业子智能体
Outcomes公开测试版编写成功标准后,由独立评分模型进行评估
Dreaming研究预览版通过定期回顾历史会话,让智能体持续自我改进

1. Dreaming — 从经验中学习的智能体

Dreaming是一项按计划自动回顾智能体历史会话和记忆库的功能。它不仅仅是存档记录,而是提取规律、整理记忆。

Dreaming能发现的内容:

  • 反复出现的失误:在单次会话中无法察觉,但在长期数据中清晰可见的规律
  • 收敛的工作流:智能体在多次会话中共同趋向的工作方式
  • 团队偏好:跨团队积累的共同标准与倾向

打个比方:过去的AI智能体每次都像初次见面一样开始对话。有了Dreaming,今天的智能体不会重复昨天犯过的错误。

Dreaming目前处于研究预览阶段,但方向已经清晰。


2. Outcomes — 先定义成功标准,再让AI接受评分

Outcomes直面AI应用最核心的难题:怎么知道结果是否真的好?

运作方式如下:

  1. 编写评分标准(Rubric):用文字描述“达到这样的结果就算成功”的具体标准
  2. 独立评分模型:智能体完成任务后,一个单独的评分模型在与智能体推理完全隔离的上下文窗口中对照标准评估结果
  3. 自动重试:若未达标,评分模型指出具体不足之处,智能体再次尝试

评分模型独立于智能体这一点至关重要。智能体的“思维偏差”不会影响评分。这不是自己给自己的卷子打分,而是有独立评分者的结构。


3. 多智能体编排 — 主导智能体率领团队

复杂任务很难由一人从头到尾独自解决。就像有专人各司其职、在指挥棒下协作的交响乐团,能创造出更宏大的成果。

多智能体编排结构:

  • 主导智能体:将大型任务分解为子任务,并将每个任务分配给合适的子智能体
  • 子智能体:各自拥有独立的上下文窗口、专属模型、系统提示词和工具集
  • 并行处理:无依赖关系的任务可以同时执行

实用技巧

1. 从 Outcomes 开始 Dreaming和多智能体编排仍处于Beta阶段。先从 Outcomes 入手,练习编写可衡量的成功标准。将“好结果”写成评分标准本身就是在整理团队语言。

2. 评分标准越具体越好 不是“写得好的报告”,而是“包含至卡3个关键数据点、结论段落清晰、500字以内”这样可衡量的标准,才能让评分模型准确运作。

3. 多智能体设计时先理清依赖关系 先梳理哪些任务依赖其他任务的结果,再区分可并行处理和需顺序处理的任务,才能达到最高效率。


AI正在从单纯执行命令的工具,转变为自主学习、以团队方式工作的伙伴。这次Claude Managed Agents更新是这一转变已经开始的明证。


信息来源 (Sources)

AI智能体学会了“做梦” — Claude Managed Agents发布Dreaming、Outcomes与多智能体编排 | MINSSAM.COM