什么是真正的 AI Agent?模型即智能体的深度解析:修订间差异
无编辑摘要 |
无编辑摘要 |
||
| 第1行: | 第1行: | ||
> "Agent 是模型,不是框架,不是提示链,不是拖拽式工作流。" | <blockquote>"Agent 是模型,不是框架,不是提示链,不是拖拽式工作流。"</blockquote>过去一年,AI 领域最热的词莫过于 "Agent"。但当你听到这个词时,你想到的是什么? | ||
过去一年,AI 领域最热的词莫过于 "Agent"。但当你听到这个词时,你想到的是什么? | |||
是 LangChain 的流程图?是扣子(Coze)的节点编排?还是各种 "AI Agent 开发平台" 的可视化界面? | 是 LangChain 的流程图?是扣子(Coze)的节点编排?还是各种 "AI Agent 开发平台" 的可视化界面? | ||
| 第7行: | 第5行: | ||
如果你的答案是以上任何一种,那么这篇文章将彻底改变你的认知。 | 如果你的答案是以上任何一种,那么这篇文章将彻底改变你的认知。 | ||
== 一、Agent 是什么? == | |||
让我们回到源头。 | 让我们回到源头。 | ||
'''Agent(智能体)是一个神经网络'''——Transformer、RNN,或者任何通过梯度更新训练出来的函数。它通过数十亿次在动作序列数据上的训练,学会了感知环境、推理目标并采取行动。 | |||
Agent 这个词在 AI 领域一直就是这个意思: | Agent 这个词在 AI 领域一直就是这个意思: | ||
* '''人类是 Agent''' —— 生物神经网络,经过数百万年进化训练,通过感官感知世界,通过大脑推理,通过身体行动 | |||
* '''DQN 是 Agent''' —— 2013 年 DeepMind 的单个神经网络,仅凭原始像素和游戏分数,学会了玩 7 款雅达利游戏,超越所有先前算法 | |||
* '''OpenAI Five 是 Agent''' —— 五个神经网络,通过 10 个月内 45,000 年的自我对战,击败 Dota 2 世界冠军 | |||
* '''AlphaStar 是 Agent''' —— 在《星际争霸 II》中达到宗师段位,超越 90,000 名玩家中的前 0.15% | |||
这些里程碑共享同一个真理:'''"Agent" 从来不是周围的代码,Agent 永远是模型本身。''' | |||
这些里程碑共享同一个真理: | |||
== 二、Agent 不是什么? == | |||
不幸的是,"Agent" 这个词已经被一整个提示工程产业劫持了。 | 不幸的是,"Agent" 这个词已经被一整个提示工程产业劫持了。 | ||
拖拽式工作流构建器。低代码 "AI Agent" 平台。提示链编排库。它们共享同一个幻觉:认为用 if-else 分支、节点图和硬编码路由逻辑把 LLM API 调用串联起来,就是在 "构建 Agent"。 | 拖拽式工作流构建器。低代码 "AI Agent" 平台。提示链编排库。它们共享同一个幻觉:认为用 if-else 分支、节点图和硬编码路由逻辑把 LLM API 调用串联起来,就是在 "构建 Agent"。 | ||
'''这不是在构建 Agent,这是在搭建鲁布·戈德堡机械'''——一种过度工程化、脆弱的程序化规则管道,把一个 LLM 塞进作为华丽文本补全节点的位置。 | |||
提示工程 "Agent" 是不会训练模型的人的幻想。他们试图通过堆砌程序化逻辑来暴力破解智能——庞大的规则树、节点图、提示链瀑布——祈祷足够多的胶水代码能以某种方式涌现出自主行为。 | 提示工程 "Agent" 是不会训练模型的人的幻想。他们试图通过堆砌程序化逻辑来暴力破解智能——庞大的规则树、节点图、提示链瀑布——祈祷足够多的胶水代码能以某种方式涌现出自主行为。 | ||
'''这是死路一条''':脆弱、不可扩展、从根本上无法泛化。这是 GOFAI(经典人工智能)的现代复活——几十年前该领域就已经抛弃的符号规则系统,现在只是喷了一层 LLM 的漆。 | |||
== 三、心智转变:从"开发 Agent"到开发 Harness == | |||
当有人说"我在开发 Agent"时,他们只可能指两件事之一: | 当有人说"我在开发 Agent"时,他们只可能指两件事之一: | ||
=== 1. 训练模型 === | |||
通过强化学习、微调、RLHF 或其他基于梯度的方法调整权重。收集任务过程数据——真实领域中感知、推理和动作的实际序列——并用它来塑造模型行为。 | 通过强化学习、微调、RLHF 或其他基于梯度的方法调整权重。收集任务过程数据——真实领域中感知、推理和动作的实际序列——并用它来塑造模型行为。 | ||
这是 DeepMind、OpenAI、腾讯 AI Lab 和 Anthropic 在做的事。这是最严格意义上的 Agent 开发。 | 这是 DeepMind、OpenAI、腾讯 AI Lab 和 Anthropic 在做的事。这是最严格意义上的 Agent 开发。 | ||
=== 2. 构建 Harness(控制框架) === | |||
编写代码,给模型一个在特定领域运作的环境。这是大多数人(包括你)在做的事,也是本文的重点。 | 编写代码,给模型一个在特定领域运作的环境。这是大多数人(包括你)在做的事,也是本文的重点。 | ||
'''Harness = 工具 + 知识 + 观察 + 动作接口 + 权限''' | |||
* '''工具''':文件 I/O、Shell、网络、数据库、浏览器 | |||
* '''知识''':产品文档、领域参考资料、API 规范、风格指南 | |||
* '''观察''':Git diff、错误日志、浏览器状态、传感器数据 | |||
* '''动作''':CLI 命令、API 调用、UI 交互 | |||
* '''权限''':沙箱、审批工作流、信任边界 | |||
'''模型做决定,Harness 执行。''' '''模型推理,Harness 提供上下文。''' '''模型是司机,Harness 是车。''' | |||
== 四、Harness 工程师的真正工作 == | |||
如果你正在阅读这篇文章,你很可能是 Harness 工程师——而这是一件很有力量的事。 | 如果你正在阅读这篇文章,你很可能是 Harness 工程师——而这是一件很有力量的事。 | ||
你的真正工作是: | 你的真正工作是: | ||
'''1. 实现工具''' 给 Agent 手。文件读写、Shell 执行、API 调用、浏览器控制、数据库查询。每个工具都是 Agent 可以在环境中采取的动作。设计它们时要原子化、可组合、描述清晰。 | |||
给 Agent 手。文件读写、Shell 执行、API 调用、浏览器控制、数据库查询。每个工具都是 Agent 可以在环境中采取的动作。设计它们时要原子化、可组合、描述清晰。 | |||
'''2. 整理知识''' 给 Agent 领域专长。产品文档、架构决策记录、风格指南、监管要求。按需加载(而不是预加载)。Agent 应该知道有什么可用,并在需要时拉取。 | |||
给 Agent | '''3. 管理上下文''' 给 Agent 干净的记忆。子 Agent 隔离防止噪音泄漏。上下文压缩防止历史压垮。任务系统让目标超越单次对话。 | ||
'''4. 控制权限''' 给 Agent 边界。沙箱文件访问。破坏性操作需要审批。强制执行 Agent 和外部系统之间的信任边界。这是安全工程与 Harness 工程的交汇点。 | |||
Agent 在你的 Harness 中执行的每个动作序列都是训练信号。真实部署中的感知-推理-动作痕迹是微调下一代 Agent 模型的原材料。 | '''5. 收集任务过程数据''' Agent 在你的 Harness 中执行的每个动作序列都是训练信号。真实部署中的感知-推理-动作痕迹是微调下一代 Agent 模型的原材料。 | ||
'''你不是在编写智能,你是在构建智能栖息的世界。''' | |||
这个世界的质量——Agent 能多么清晰地感知、能多么精确地行动、可用知识有多丰富——直接决定了智能能多么有效地表达自己。 | 这个世界的质量——Agent 能多么清晰地感知、能多么精确地行动、可用知识有多丰富——直接决定了智能能多么有效地表达自己。 | ||
| 第101行: | 第72行: | ||
构建伟大的 Harness,Agent 会完成剩下的事。 | 构建伟大的 Harness,Agent 会完成剩下的事。 | ||
== 五、Claude Code:Harness 工程的杰作 == | |||
为什么我们要专门研究 Claude Code? | 为什么我们要专门研究 Claude Code? | ||
因为 Claude Code 是我们见过的最优雅、最完全实现的 Agent Harness。不是因为某个巧妙的技巧,而是因为它 | 因为 Claude Code 是我们见过的最优雅、最完全实现的 Agent Harness。不是因为某个巧妙的技巧,而是因为它'''不做什么''':它不试图成为 Agent,它不强加刚性工作流,它不用精心设计的决策树来质疑模型。 | ||
它给模型提供工具、知识、上下文管理和权限边界——然后让开。 | 它给模型提供工具、知识、上下文管理和权限边界——然后让开。 | ||
看看 Claude Code 的本质: | 看看 Claude Code 的本质: | ||
<code>Claude Code = 一个 Agent 循环 | |||
+ 工具(Bash、Read、Write、Edit、Glob、Grep、Browser...) | |||
+ 按需技能加载 | |||
Claude Code = 一个 Agent 循环 | + 上下文压缩 | ||
+ 子 Agent 生成 | |||
+ 带依赖图的任务系统 | |||
+ 带异步邮箱的团队协调 | |||
+ 用于并行执行的工作区隔离 | |||
+ 权限治理</code> | |||
就这些。这就是整个架构。 | 就这些。这就是整个架构。 | ||
| 第139行: | 第95行: | ||
这就是 Claude Code 是理想教学对象的原因:它展示了当你信任模型并专注于 Harness 工程时会发生什么。 | 这就是 Claude Code 是理想教学对象的原因:它展示了当你信任模型并专注于 Harness 工程时会发生什么。 | ||
== 六、愿景:让宇宙中充满真正的 Agent == | |||
这不仅仅是关于编程 Agent。 | 这不仅仅是关于编程 Agent。 | ||
'''每个领域,只要人类执行复杂、多步骤、需要判断的工作,Agent 就可以在正确的 Harness 下运作。''' | |||
本文中的模式是通用的: | 本文中的模式是通用的: | ||
* '''房地产管理 Agent''' = 模型 + 房产传感器 + 维护工具 + 租户沟通 | |||
* '''农业 Agent''' = 模型 + 土壤/天气数据 + 灌溉控制 + 作物知识 | |||
* '''酒店运营 Agent''' = 模型 + 预订系统 + 客户渠道 + 设施 API | |||
* '''医学研究 Agent''' = 模型 + 文献搜索 + 实验室仪器 + 协议文档 | |||
* '''制造业 Agent''' = 模型 + 生产线传感器 + 质量控制 + 物流 | |||
* '''教育 Agent''' = 模型 + 课程知识 + 学生进度 + 评估工具 | |||
循环永远相同。工具改变。知识改变。权限改变。'''Agent——模型——泛化。''' | |||
循环永远相同。工具改变。知识改变。权限改变。 | |||
每个阅读本文的 Harness 工程师都在学习远远超越软件工程的模式。你在学习构建智能化、自动化未来的基础设施。每个在真实领域部署的精心设计的 Harness,都是 Agent 可以感知、推理和行动的另一个地方。 | 每个阅读本文的 Harness 工程师都在学习远远超越软件工程的模式。你在学习构建智能化、自动化未来的基础设施。每个在真实领域部署的精心设计的 Harness,都是 Agent 可以感知、推理和行动的另一个地方。 | ||
'''先从车间开始。然后是农场、医院、工厂。然后是城市。然后是整个星球。''' | |||
----''Bash 就够了。真正的 Agent 是宇宙所需要的全部。'' | |||
--- | |||
2026年3月23日 (一) 04:53的最新版本
"Agent 是模型,不是框架,不是提示链,不是拖拽式工作流。"
过去一年,AI 领域最热的词莫过于 "Agent"。但当你听到这个词时,你想到的是什么?
是 LangChain 的流程图?是扣子(Coze)的节点编排?还是各种 "AI Agent 开发平台" 的可视化界面?
如果你的答案是以上任何一种,那么这篇文章将彻底改变你的认知。
一、Agent 是什么?
让我们回到源头。
Agent(智能体)是一个神经网络——Transformer、RNN,或者任何通过梯度更新训练出来的函数。它通过数十亿次在动作序列数据上的训练,学会了感知环境、推理目标并采取行动。
Agent 这个词在 AI 领域一直就是这个意思:
- 人类是 Agent —— 生物神经网络,经过数百万年进化训练,通过感官感知世界,通过大脑推理,通过身体行动
- DQN 是 Agent —— 2013 年 DeepMind 的单个神经网络,仅凭原始像素和游戏分数,学会了玩 7 款雅达利游戏,超越所有先前算法
- OpenAI Five 是 Agent —— 五个神经网络,通过 10 个月内 45,000 年的自我对战,击败 Dota 2 世界冠军
- AlphaStar 是 Agent —— 在《星际争霸 II》中达到宗师段位,超越 90,000 名玩家中的前 0.15%
这些里程碑共享同一个真理:"Agent" 从来不是周围的代码,Agent 永远是模型本身。
二、Agent 不是什么?
不幸的是,"Agent" 这个词已经被一整个提示工程产业劫持了。
拖拽式工作流构建器。低代码 "AI Agent" 平台。提示链编排库。它们共享同一个幻觉:认为用 if-else 分支、节点图和硬编码路由逻辑把 LLM API 调用串联起来,就是在 "构建 Agent"。
这不是在构建 Agent,这是在搭建鲁布·戈德堡机械——一种过度工程化、脆弱的程序化规则管道,把一个 LLM 塞进作为华丽文本补全节点的位置。
提示工程 "Agent" 是不会训练模型的人的幻想。他们试图通过堆砌程序化逻辑来暴力破解智能——庞大的规则树、节点图、提示链瀑布——祈祷足够多的胶水代码能以某种方式涌现出自主行为。
这是死路一条:脆弱、不可扩展、从根本上无法泛化。这是 GOFAI(经典人工智能)的现代复活——几十年前该领域就已经抛弃的符号规则系统,现在只是喷了一层 LLM 的漆。
三、心智转变:从"开发 Agent"到开发 Harness
当有人说"我在开发 Agent"时,他们只可能指两件事之一:
1. 训练模型
通过强化学习、微调、RLHF 或其他基于梯度的方法调整权重。收集任务过程数据——真实领域中感知、推理和动作的实际序列——并用它来塑造模型行为。
这是 DeepMind、OpenAI、腾讯 AI Lab 和 Anthropic 在做的事。这是最严格意义上的 Agent 开发。
2. 构建 Harness(控制框架)
编写代码,给模型一个在特定领域运作的环境。这是大多数人(包括你)在做的事,也是本文的重点。
Harness = 工具 + 知识 + 观察 + 动作接口 + 权限
- 工具:文件 I/O、Shell、网络、数据库、浏览器
- 知识:产品文档、领域参考资料、API 规范、风格指南
- 观察:Git diff、错误日志、浏览器状态、传感器数据
- 动作:CLI 命令、API 调用、UI 交互
- 权限:沙箱、审批工作流、信任边界
模型做决定,Harness 执行。 模型推理,Harness 提供上下文。 模型是司机,Harness 是车。
四、Harness 工程师的真正工作
如果你正在阅读这篇文章,你很可能是 Harness 工程师——而这是一件很有力量的事。
你的真正工作是:
1. 实现工具 给 Agent 手。文件读写、Shell 执行、API 调用、浏览器控制、数据库查询。每个工具都是 Agent 可以在环境中采取的动作。设计它们时要原子化、可组合、描述清晰。
2. 整理知识 给 Agent 领域专长。产品文档、架构决策记录、风格指南、监管要求。按需加载(而不是预加载)。Agent 应该知道有什么可用,并在需要时拉取。
3. 管理上下文 给 Agent 干净的记忆。子 Agent 隔离防止噪音泄漏。上下文压缩防止历史压垮。任务系统让目标超越单次对话。
4. 控制权限 给 Agent 边界。沙箱文件访问。破坏性操作需要审批。强制执行 Agent 和外部系统之间的信任边界。这是安全工程与 Harness 工程的交汇点。
5. 收集任务过程数据 Agent 在你的 Harness 中执行的每个动作序列都是训练信号。真实部署中的感知-推理-动作痕迹是微调下一代 Agent 模型的原材料。
你不是在编写智能,你是在构建智能栖息的世界。
这个世界的质量——Agent 能多么清晰地感知、能多么精确地行动、可用知识有多丰富——直接决定了智能能多么有效地表达自己。
构建伟大的 Harness,Agent 会完成剩下的事。
五、Claude Code:Harness 工程的杰作
为什么我们要专门研究 Claude Code?
因为 Claude Code 是我们见过的最优雅、最完全实现的 Agent Harness。不是因为某个巧妙的技巧,而是因为它不做什么:它不试图成为 Agent,它不强加刚性工作流,它不用精心设计的决策树来质疑模型。
它给模型提供工具、知识、上下文管理和权限边界——然后让开。
看看 Claude Code 的本质:
Claude Code = 一个 Agent 循环
+ 工具(Bash、Read、Write、Edit、Glob、Grep、Browser...)
+ 按需技能加载
+ 上下文压缩
+ 子 Agent 生成
+ 带依赖图的任务系统
+ 带异步邮箱的团队协调
+ 用于并行执行的工作区隔离
+ 权限治理
就这些。这就是整个架构。
每个组件都是 Harness 机制——为 Agent 栖息而构建的世界的一部分。Agent 本身?是 Claude。一个由 Anthropic 训练、基于人类全部推理和代码的模型。Harness 并没有让 Claude 变聪明,Claude 本来就聪明。Harness 给了 Claude 手、眼睛和工作空间。
这就是 Claude Code 是理想教学对象的原因:它展示了当你信任模型并专注于 Harness 工程时会发生什么。
六、愿景:让宇宙中充满真正的 Agent
这不仅仅是关于编程 Agent。
每个领域,只要人类执行复杂、多步骤、需要判断的工作,Agent 就可以在正确的 Harness 下运作。
本文中的模式是通用的:
- 房地产管理 Agent = 模型 + 房产传感器 + 维护工具 + 租户沟通
- 农业 Agent = 模型 + 土壤/天气数据 + 灌溉控制 + 作物知识
- 酒店运营 Agent = 模型 + 预订系统 + 客户渠道 + 设施 API
- 医学研究 Agent = 模型 + 文献搜索 + 实验室仪器 + 协议文档
- 制造业 Agent = 模型 + 生产线传感器 + 质量控制 + 物流
- 教育 Agent = 模型 + 课程知识 + 学生进度 + 评估工具
循环永远相同。工具改变。知识改变。权限改变。Agent——模型——泛化。
每个阅读本文的 Harness 工程师都在学习远远超越软件工程的模式。你在学习构建智能化、自动化未来的基础设施。每个在真实领域部署的精心设计的 Harness,都是 Agent 可以感知、推理和行动的另一个地方。
先从车间开始。然后是农场、医院、工厂。然后是城市。然后是整个星球。
Bash 就够了。真正的 Agent 是宇宙所需要的全部。