
代码从输出变成了操作系统,这个转变对关注AI系统演进的朋友来说,是个关键背景。

代码正成为AI智能体的操作系统 事件脉络与关键事实
近年来,AI智能体在复杂任务中的表现不再仅由最终输出决定,而是依赖于一个被称为Agent Harness的执行系统。这篇由伊利诺伊大学香槟分校(UIUC)、Meta和斯坦福大学联合发布的102页综述《Code as Agent Harness》指出,代码正从模型的输出产物转变为智能体运行的核心媒介。在这一框架下,代码承担了计划、执行、反馈、验证和状态管理的多重角色,使AI能够在长时间窗口内读取仓库、修改文件、运行命令并持续迭代任务。
传统AI模型本质上是无状态的,难以维持任务进度或感知外部变化。Agent Harness通过将代码作为可执行、可检查、有状态的载体,解决了这一瓶颈。例如,模型生成的shell命令、测试脚本、patch文件和执行日志,不再只是中间步骤,而是构成系统状态转移的关键节点。这种机制使得AI不仅能‘思考’,还能‘行动’并在失败中自我修正。
在多智能体协作场景中,代码还提供了稳定的共享基底。多个AI之间若仅依赖自然语言沟通,容易导致状态认知偏差;而通过共享代码仓库、测试结果和CI日志,它们能围绕统一的程序状态协同工作。这一模式已在SWE-agent、OpenHands等系统中得到验证,并逐步扩展至GUI操作、机器人控制和科学发现等领域。
论文同时指出,现有评测方式过于关注最终结果,忽视了执行过程的安全性与可恢复性。未来需建立harness-level评估体系,衡量计划合理性、工具调用逻辑、状态转移清晰度等维度。真正的挑战不再是‘模型会不会写代码’,而是‘整个系统能否在长期运行中保持可控、可检查和可治理’。
事实
- UIUC、Meta和斯坦福联合发布102页综述《Code as Agent Harness》,提出代码正成为AI智能体的核心执行媒介。
- 代码在Agent Harness中承担计划、执行、反馈、验证和状态管理功能,不再只是模型的最终输出。
- Agent Harness通过可执行、可检查、有状态的代码化中间物(如测试脚本、shell命令、patch)实现长期任务推进。
- 多智能体协作依赖共享代码状态(如仓库、测试、PR)来避免认知偏差,提升协同效率。
- 现有评测方式需升级,未来应评估计划、工具调用、状态转移和反馈使用等过程维度。
Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策





