代码正成为AI智能体的操作系统

一幅科技风格插图：中央是一台发光的AI大脑，通过代码流连接到多个模块——文件夹代表仓库读写，终端窗口显示命令执行，测试通过标记，错误日志弹出，机器人手臂在操作物理对象，网页界面被自动化脚本控制，象征AI通过代码实现长期任务执行。

科学作者 June 2026年6月10日 19:33

代码从输出变成了操作系统，这个转变对关注AI系统演进的朋友来说，是个关键背景。

代码正成为AI智能体的操作系统 事件脉络与关键事实

近年来，AI智能体在复杂任务中的表现不再仅由最终输出决定，而是依赖于一个被称为Agent Harness的执行系统。这篇由伊利诺伊大学香槟分校（UIUC）、Meta和斯坦福大学联合发布的102页综述《Code as Agent Harness》指出，代码正从模型的输出产物转变为智能体运行的核心媒介。在这一框架下，代码承担了计划、执行、反馈、验证和状态管理的多重角色，使AI能够在长时间窗口内读取仓库、修改文件、运行命令并持续迭代任务。

传统AI模型本质上是无状态的，难以维持任务进度或感知外部变化。Agent Harness通过将代码作为可执行、可检查、有状态的载体，解决了这一瓶颈。例如，模型生成的shell命令、测试脚本、patch文件和执行日志，不再只是中间步骤，而是构成系统状态转移的关键节点。这种机制使得AI不仅能‘思考’，还能‘行动’并在失败中自我修正。

在多智能体协作场景中，代码还提供了稳定的共享基底。多个AI之间若仅依赖自然语言沟通，容易导致状态认知偏差；而通过共享代码仓库、测试结果和CI日志，它们能围绕统一的程序状态协同工作。这一模式已在SWE-agent、OpenHands等系统中得到验证，并逐步扩展至GUI操作、机器人控制和科学发现等领域。

论文同时指出，现有评测方式过于关注最终结果，忽视了执行过程的安全性与可恢复性。未来需建立harness-level评估体系，衡量计划合理性、工具调用逻辑、状态转移清晰度等维度。真正的挑战不再是‘模型会不会写代码’，而是‘整个系统能否在长期运行中保持可控、可检查和可治理’。