<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI Agents on POOROPS</title><link>https://blog.20231106.xyz/tags/ai-agents/</link><description>Recent content in AI Agents on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Thu, 09 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/ai-agents/index.xml" rel="self" type="application/rss+xml"/><item><title>从工具到协作体：AI Agents 如何成为 2026 年最热技术路线</title><link>https://blog.20231106.xyz/posts/2026-04-09/ai-agents-hot-2026/</link><pubDate>Thu, 09 Apr 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-04-09/ai-agents-hot-2026/</guid><description>&lt;p&gt;凌晨三点，我盯着一条失败的流水线报告发呆。日志里写着：数据抽取成功、结构化失败、后处理卡死。放在过去，我只会加一个 if-else，再推一次。但那天我突然意识到：**我们需要的不是“更聪明的工具”，而是“会协作的数字同事”。**它应该能感知任务目标、拆解步骤、调用工具、遇到问题再自我修正，而不是等我像打游戏一样逐条指令输入。&lt;/p&gt;
&lt;p&gt;这也是为什么 2026 年的“AI 热点”几乎被同一个词刷屏：&lt;strong&gt;AI Agents（智能体）&lt;/strong&gt;。从大厂公告、学术综述到工程团队的实践路线，大家都在把“单次对话的模型”转成“能执行、能协作、能负责结果”的系统。AI 不只是回答问题，而是要&lt;strong&gt;对结果负责&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;本文按“效果展示 → 问题描述 → 步骤教学 → 升华总结”的结构，讲清楚 AI Agents 为什么成为热点、它解决什么问题、怎么一步步落地，以及它为什么会成为下一阶段 AI 工程化的核心能力。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当-ai-不再只是回答者"&gt;效果展示：当 AI 不再只是“回答者”&lt;/h2&gt;
&lt;p&gt;在传统的 LLM 应用里，模型更像“高效的回答者”：你问它，它答你；你让它写一段，它就写一段。但 Agent 的目标是“完成任务”，它会：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;主动拆解任务&lt;/strong&gt;：接到一个复杂目标（例如“生成周报并发布到网站”），会把任务拆成搜索、提炼、撰写、校对、发布等子步骤。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多工具协作&lt;/strong&gt;：自动调用搜索、数据库、API、代码执行、版本控制等工具，不需要人类逐步指挥。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自我检查与回溯&lt;/strong&gt;：步骤执行失败时，会识别失败原因、替换策略，甚至回退并重新规划。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;将结果输出成“可交付物”&lt;/strong&gt;：不是一段文本，而是一个文件、一条工单、一段可运行代码，或一个上线后的结果。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这种体验，像是你给了 AI 一个目标，然后它真的“完成了工作”。这正是 Agent 热潮的核心驱动力：&lt;strong&gt;从“会说话的模型”变成“会干活的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么单模型不够了"&gt;问题描述：为什么“单模型”不够了？&lt;/h2&gt;
&lt;p&gt;AI Agents 之所以在 2026 年成为最热方向，背后有三类现实问题：&lt;/p&gt;
&lt;h3 id="1-单模型无法覆盖复杂流程"&gt;1) 单模型无法覆盖复杂流程&lt;/h3&gt;
&lt;p&gt;真实任务不是“一个问题一个答案”，而是流程化工作。例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;产品调研 → 资料搜集 → 观点提炼 → 产出文档 → 版本控制&lt;/li&gt;
&lt;li&gt;数据清洗 → 特征构建 → 训练 → 评估 → 监控 → 复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些流程需要多步决策、多工具调用、跨系统操作，单一模型无法独立完成。&lt;/p&gt;
&lt;h3 id="2-可控性不足产出不可验证"&gt;2) 可控性不足，产出不可验证&lt;/h3&gt;
&lt;p&gt;单模型回答很“顺滑”，但缺少可验证路径。你不知道它引用了什么、用了哪些数据、是否执行了检查。Agent 需要把“过程透明化”，让每一步可追踪、可审计。&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，我盯着一条失败的流水线报告发呆。日志里写着：数据抽取成功、结构化失败、后处理卡死。放在过去，我只会加一个 if-else，再推一次。但那天我突然意识到：**我们需要的不是“更聪明的工具”，而是“会协作的数字同事”。**它应该能感知任务目标、拆解步骤、调用工具、遇到问题再自我修正，而不是等我像打游戏一样逐条指令输入。&lt;/p&gt;
&lt;p&gt;这也是为什么 2026 年的“AI 热点”几乎被同一个词刷屏：&lt;strong&gt;AI Agents（智能体）&lt;/strong&gt;。从大厂公告、学术综述到工程团队的实践路线，大家都在把“单次对话的模型”转成“能执行、能协作、能负责结果”的系统。AI 不只是回答问题，而是要&lt;strong&gt;对结果负责&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;本文按“效果展示 → 问题描述 → 步骤教学 → 升华总结”的结构，讲清楚 AI Agents 为什么成为热点、它解决什么问题、怎么一步步落地，以及它为什么会成为下一阶段 AI 工程化的核心能力。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当-ai-不再只是回答者"&gt;效果展示：当 AI 不再只是“回答者”&lt;/h2&gt;
&lt;p&gt;在传统的 LLM 应用里，模型更像“高效的回答者”：你问它，它答你；你让它写一段，它就写一段。但 Agent 的目标是“完成任务”，它会：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;主动拆解任务&lt;/strong&gt;：接到一个复杂目标（例如“生成周报并发布到网站”），会把任务拆成搜索、提炼、撰写、校对、发布等子步骤。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多工具协作&lt;/strong&gt;：自动调用搜索、数据库、API、代码执行、版本控制等工具，不需要人类逐步指挥。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自我检查与回溯&lt;/strong&gt;：步骤执行失败时，会识别失败原因、替换策略，甚至回退并重新规划。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;将结果输出成“可交付物”&lt;/strong&gt;：不是一段文本，而是一个文件、一条工单、一段可运行代码，或一个上线后的结果。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这种体验，像是你给了 AI 一个目标，然后它真的“完成了工作”。这正是 Agent 热潮的核心驱动力：&lt;strong&gt;从“会说话的模型”变成“会干活的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么单模型不够了"&gt;问题描述：为什么“单模型”不够了？&lt;/h2&gt;
&lt;p&gt;AI Agents 之所以在 2026 年成为最热方向，背后有三类现实问题：&lt;/p&gt;
&lt;h3 id="1-单模型无法覆盖复杂流程"&gt;1) 单模型无法覆盖复杂流程&lt;/h3&gt;
&lt;p&gt;真实任务不是“一个问题一个答案”，而是流程化工作。例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;产品调研 → 资料搜集 → 观点提炼 → 产出文档 → 版本控制&lt;/li&gt;
&lt;li&gt;数据清洗 → 特征构建 → 训练 → 评估 → 监控 → 复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些流程需要多步决策、多工具调用、跨系统操作，单一模型无法独立完成。&lt;/p&gt;
&lt;h3 id="2-可控性不足产出不可验证"&gt;2) 可控性不足，产出不可验证&lt;/h3&gt;
&lt;p&gt;单模型回答很“顺滑”，但缺少可验证路径。你不知道它引用了什么、用了哪些数据、是否执行了检查。Agent 需要把“过程透明化”，让每一步可追踪、可审计。&lt;/p&gt;
&lt;h3 id="3-需求从对话转向交付"&gt;3) 需求从“对话”转向“交付”&lt;/h3&gt;
&lt;p&gt;企业真正愿意为 AI 付费的场景，通常不是聊天，而是交付结果：报告、代码、页面、配置、上线。Agent 能够打通“生成 → 执行 → 交付”的闭环，是 ROI 真正上升的关键。&lt;/p&gt;
&lt;p&gt;所以，“Agent 化”不是概念炒作，而是&lt;strong&gt;需求驱动的工程必然&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学一条可落地的-ai-agent-工程路线"&gt;步骤教学：一条可落地的 AI Agent 工程路线&lt;/h2&gt;
&lt;p&gt;下面是一条在工程团队中可以落地的实践路径。目标不是追求概念完整，而是&lt;strong&gt;建立能稳定交付的智能体系统&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="步骤-1把目标转成可执行计划"&gt;步骤 1：把“目标”转成“可执行计划”&lt;/h3&gt;
&lt;p&gt;Agent 的第一步不是回答，而是&lt;strong&gt;规划&lt;/strong&gt;。你需要一个“计划生成器”，把目标拆成可执行的子任务。实践建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确目标的输入输出（例如输入：主题，输出：博客文件）&lt;/li&gt;
&lt;li&gt;任务拆解模板化（例如“检索 → 摘要 → 写作 → 校对 → 发布”）&lt;/li&gt;
&lt;li&gt;每个步骤定义“完成判定标准”（例如是否生成文件、是否通过校验）&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;关键：让模型输出“计划结构”，而不是直接写内容。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2建立工具调用层而不是提示词堆叠"&gt;步骤 2：建立“工具调用层”而不是“提示词堆叠”&lt;/h3&gt;
&lt;p&gt;Agent 最核心的能力不是提示词，而是工具调用。建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每个工具要有&lt;strong&gt;清晰输入输出契约&lt;/strong&gt;（JSON 或 DSL）&lt;/li&gt;
&lt;li&gt;工具调用要可追踪（日志、执行耗时、错误原因）&lt;/li&gt;
&lt;li&gt;设计“最小工具集”：搜索、文件写入、代码执行、数据库读写即可先跑通&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果工具调用可控，Agent 的行为就可控；反之，提示词堆叠只会带来不稳定。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-3加入执行-反思-重试的闭环"&gt;步骤 3：加入“执行-反思-重试”的闭环&lt;/h3&gt;
&lt;p&gt;单次执行无法保证成功，Agent 必须具备&lt;strong&gt;自我修正&lt;/strong&gt;能力。实践策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每步执行完做“快速检查”（输出是否符合格式/字数/约束）&lt;/li&gt;
&lt;li&gt;失败时输出“失败原因 + 替代方案”&lt;/li&gt;
&lt;li&gt;设置最大重试次数，避免无限循环&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本质上，这是把“软件工程的异常处理”移植到了 AI 工作流里。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-4引入记忆与上下文状态"&gt;步骤 4：引入“记忆与上下文状态”&lt;/h3&gt;
&lt;p&gt;Agent 不应该每一步都从零开始。你需要让它有“短期记忆”和“任务状态”。实现方式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把关键变量（目标、约束、已完成步骤）写入状态存储&lt;/li&gt;
&lt;li&gt;让模型每次调用都读取状态，形成“连续性”&lt;/li&gt;
&lt;li&gt;对长期知识建立“可更新知识库”而不是仅靠对话上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步决定 Agent 是否能“连续工作”，而不是“单次对话”。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-5从单智能体走向协作体"&gt;步骤 5：从“单智能体”走向“协作体”&lt;/h3&gt;
&lt;p&gt;当任务复杂时，一个 Agent 不够用。你可以引入多智能体架构：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划 Agent&lt;/strong&gt;：负责拆解任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行 Agent&lt;/strong&gt;：负责具体操作（写作、编码、调用工具）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;校验 Agent&lt;/strong&gt;：负责质量控制与审计&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种分工让系统更稳定、更可扩展，也更接近真实团队协作模式。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-6建立质量评估与交付标准"&gt;步骤 6：建立“质量评估与交付标准”&lt;/h3&gt;
&lt;p&gt;没有质量标准的 Agent 只能用来“玩”。工程落地必须有标准：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输出格式标准（文件结构、元数据、命名规范）&lt;/li&gt;
&lt;li&gt;内容质量标准（字数、逻辑、引用来源）&lt;/li&gt;
&lt;li&gt;可回溯标准（日志、引用、工具调用记录）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步决定 Agent 能否进入生产环境。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结ai-的下一个拐点不是模型规模而是交付能力"&gt;升华总结：AI 的下一个拐点，不是模型规模，而是“交付能力”&lt;/h2&gt;
&lt;p&gt;AI Agents 成为 2026 年的热点，并不是因为它比大模型“更酷”，而是因为它满足了一个更现实的问题：&lt;strong&gt;人们不想要“会聊天的 AI”，而是想要“能交付的 AI”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当模型能力逐渐趋同，决定胜负的将是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;谁能让 AI 持续完成任务&lt;/li&gt;
&lt;li&gt;谁能让 AI 形成可复用流程&lt;/li&gt;
&lt;li&gt;谁能让 AI 产出可验证结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是一个模型能力的竞赛，而是一场系统工程的比赛。&lt;strong&gt;AI 的未来不是“模型更大”，而是“系统更完整”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果说上一阶段 AI 的关键词是“生成”，那么这一阶段真正的关键词是“交付”。而 AI Agents，就是这条道路上的核心引擎。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：arXiv｜A Comprehensive Review of AI Agents: Transforming Possibilities in Technology and Beyond：&lt;a href="https://arxiv.org/html/2508.11957v1"&gt;https://arxiv.org/html/2508.11957v1&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：Nature (npj Artificial Intelligence)｜AI-enabled scientific revolution in the age of generative AI: second NSF workshop report：&lt;a href="https://www.nature.com/articles/s44387-025-00018-6"&gt;https://www.nature.com/articles/s44387-025-00018-6&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：OpenAI｜OpenAI News：&lt;a href="https://openai.com/news/"&gt;https://openai.com/news/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：Poorops：&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>AI 代理可靠性正在成为 AI 落地的最大分水岭</title><link>https://blog.20231106.xyz/posts/2026-03-17/ai-agent-reliability-breakpoint/</link><pubDate>Tue, 17 Mar 2026 18:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-17/ai-agent-reliability-breakpoint/</guid><description>&lt;p&gt;凌晨 2 点，我盯着监控面板里第 7 次失败的任务重跑。代理说它已经“完成”，日志却告诉我：它绕了一圈，最终仍然停在登录页。那一刻我突然明白：&lt;strong&gt;AI 代理最难的不是“聪明”，而是“可靠”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;过去一年，AI 代理几乎成了最热词汇。企业试点、产品集成、自动化团队——大家都在做“能执行”的 AI。但当热潮涌来，另一个词也被研究者频繁提起：&lt;strong&gt;可靠性（Reliability）&lt;/strong&gt;。它像是把代理从“演示”推向“落地”的那条分水岭。&lt;/p&gt;
&lt;p&gt;近期 arXiv 一篇论文《Towards a Science of AI Agent Reliability》迅速被讨论，核心指向一个问题：&lt;strong&gt;我们如何量化并提升 AI 代理的可靠性&lt;/strong&gt;？今天就以此为线索，从效果、问题、方法到工程路径，讲清楚这场“可靠性之争”。&lt;/p&gt;
&lt;h2 id="效果展示为什么可靠性突然成了代理的第一指标"&gt;效果展示：为什么“可靠性”突然成了代理的第一指标？&lt;/h2&gt;
&lt;p&gt;当代理开始做“真实任务”，它的失败不是“回答错了”，而是“事情没办成”。比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;表单自动填写到最后一步时卡住&lt;/li&gt;
&lt;li&gt;任务链路中断，导致重复下单&lt;/li&gt;
&lt;li&gt;在多步操作中偏离目标，最终不知所措&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些失败不是模型能力不够，而是 &lt;strong&gt;系统没有把“正确执行”变成一种稳定概率&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;于是，“可靠性”成了真正的衡量标准：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;完成率&lt;/strong&gt;：任务能否顺利闭环&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一致性&lt;/strong&gt;：同样任务是否可重复成功&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可恢复性&lt;/strong&gt;：出错后是否能回到正确路径&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是为什么“可靠性”正在替代“模型分数”，成为企业最关心的指标。&lt;/p&gt;
&lt;h2 id="问题描述为什么-ai-代理容易不可靠"&gt;问题描述：为什么 AI 代理容易“不可靠”？&lt;/h2&gt;
&lt;h3 id="1-规划与执行脱节"&gt;1) 规划与执行脱节&lt;/h3&gt;
&lt;p&gt;模型擅长规划，却经常在执行时走偏。比如它知道要点击“提交”，却点到“取消”。规划正确并不等于执行正确。&lt;/p&gt;
&lt;h3 id="2-状态管理薄弱"&gt;2) 状态管理薄弱&lt;/h3&gt;
&lt;p&gt;代理任务往往跨多步、多页面、多工具。只要状态记录不稳，就会出现 &lt;strong&gt;重复、漏做、死循环&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="3-环境变化不可控"&gt;3) 环境变化不可控&lt;/h3&gt;
&lt;p&gt;页面更新、按钮位置变化、接口延迟，这些都在真实环境里持续发生。代理没有“抗扰能力”，就会不断失败。&lt;/p&gt;
&lt;h3 id="4-评测标准缺失"&gt;4) 评测标准缺失&lt;/h3&gt;
&lt;p&gt;传统评测更关注“回答是否正确”，但代理的失败通常来自 &lt;strong&gt;执行链路&lt;/strong&gt;。如果没有可靠的评测框架，就无法持续改进。&lt;/p&gt;
&lt;h2 id="步骤教学如何把-ai-代理做得更可靠"&gt;步骤教学：如何把 AI 代理做得更可靠？&lt;/h2&gt;
&lt;p&gt;要提升可靠性，关键在于 &lt;strong&gt;把“偶然成功”变成“可控成功”&lt;/strong&gt;。以下是可执行的工程路径：&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证小目标"&gt;步骤 1：把任务拆成“可验证小目标”&lt;/h3&gt;
&lt;p&gt;每一步必须有明确的“完成判据”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出结构化&lt;/li&gt;
&lt;li&gt;每步都能验证结果是否正确&lt;/li&gt;
&lt;li&gt;失败能回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型每次只做对一小步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2引入执行层自检"&gt;步骤 2：引入“执行层自检”&lt;/h3&gt;
&lt;p&gt;执行动作后，必须自检：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否真的完成了点击/填写/提交&lt;/li&gt;
&lt;li&gt;结果是否与预期一致&lt;/li&gt;
&lt;li&gt;如不一致，立即触发修正&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步让代理从“盲做”变成“自校验”。&lt;/p&gt;
&lt;h3 id="步骤-3设计恢复与容错机制"&gt;步骤 3：设计“恢复与容错机制”&lt;/h3&gt;
&lt;p&gt;可靠系统不是不出错，而是能恢复。&lt;/p&gt;</description><content>&lt;p&gt;凌晨 2 点，我盯着监控面板里第 7 次失败的任务重跑。代理说它已经“完成”，日志却告诉我：它绕了一圈，最终仍然停在登录页。那一刻我突然明白：&lt;strong&gt;AI 代理最难的不是“聪明”，而是“可靠”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;过去一年，AI 代理几乎成了最热词汇。企业试点、产品集成、自动化团队——大家都在做“能执行”的 AI。但当热潮涌来，另一个词也被研究者频繁提起：&lt;strong&gt;可靠性（Reliability）&lt;/strong&gt;。它像是把代理从“演示”推向“落地”的那条分水岭。&lt;/p&gt;
&lt;p&gt;近期 arXiv 一篇论文《Towards a Science of AI Agent Reliability》迅速被讨论，核心指向一个问题：&lt;strong&gt;我们如何量化并提升 AI 代理的可靠性&lt;/strong&gt;？今天就以此为线索，从效果、问题、方法到工程路径，讲清楚这场“可靠性之争”。&lt;/p&gt;
&lt;h2 id="效果展示为什么可靠性突然成了代理的第一指标"&gt;效果展示：为什么“可靠性”突然成了代理的第一指标？&lt;/h2&gt;
&lt;p&gt;当代理开始做“真实任务”，它的失败不是“回答错了”，而是“事情没办成”。比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;表单自动填写到最后一步时卡住&lt;/li&gt;
&lt;li&gt;任务链路中断，导致重复下单&lt;/li&gt;
&lt;li&gt;在多步操作中偏离目标，最终不知所措&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些失败不是模型能力不够，而是 &lt;strong&gt;系统没有把“正确执行”变成一种稳定概率&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;于是，“可靠性”成了真正的衡量标准：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;完成率&lt;/strong&gt;：任务能否顺利闭环&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一致性&lt;/strong&gt;：同样任务是否可重复成功&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可恢复性&lt;/strong&gt;：出错后是否能回到正确路径&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是为什么“可靠性”正在替代“模型分数”，成为企业最关心的指标。&lt;/p&gt;
&lt;h2 id="问题描述为什么-ai-代理容易不可靠"&gt;问题描述：为什么 AI 代理容易“不可靠”？&lt;/h2&gt;
&lt;h3 id="1-规划与执行脱节"&gt;1) 规划与执行脱节&lt;/h3&gt;
&lt;p&gt;模型擅长规划，却经常在执行时走偏。比如它知道要点击“提交”，却点到“取消”。规划正确并不等于执行正确。&lt;/p&gt;
&lt;h3 id="2-状态管理薄弱"&gt;2) 状态管理薄弱&lt;/h3&gt;
&lt;p&gt;代理任务往往跨多步、多页面、多工具。只要状态记录不稳，就会出现 &lt;strong&gt;重复、漏做、死循环&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="3-环境变化不可控"&gt;3) 环境变化不可控&lt;/h3&gt;
&lt;p&gt;页面更新、按钮位置变化、接口延迟，这些都在真实环境里持续发生。代理没有“抗扰能力”，就会不断失败。&lt;/p&gt;
&lt;h3 id="4-评测标准缺失"&gt;4) 评测标准缺失&lt;/h3&gt;
&lt;p&gt;传统评测更关注“回答是否正确”，但代理的失败通常来自 &lt;strong&gt;执行链路&lt;/strong&gt;。如果没有可靠的评测框架，就无法持续改进。&lt;/p&gt;
&lt;h2 id="步骤教学如何把-ai-代理做得更可靠"&gt;步骤教学：如何把 AI 代理做得更可靠？&lt;/h2&gt;
&lt;p&gt;要提升可靠性，关键在于 &lt;strong&gt;把“偶然成功”变成“可控成功”&lt;/strong&gt;。以下是可执行的工程路径：&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证小目标"&gt;步骤 1：把任务拆成“可验证小目标”&lt;/h3&gt;
&lt;p&gt;每一步必须有明确的“完成判据”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出结构化&lt;/li&gt;
&lt;li&gt;每步都能验证结果是否正确&lt;/li&gt;
&lt;li&gt;失败能回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型每次只做对一小步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2引入执行层自检"&gt;步骤 2：引入“执行层自检”&lt;/h3&gt;
&lt;p&gt;执行动作后，必须自检：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否真的完成了点击/填写/提交&lt;/li&gt;
&lt;li&gt;结果是否与预期一致&lt;/li&gt;
&lt;li&gt;如不一致，立即触发修正&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步让代理从“盲做”变成“自校验”。&lt;/p&gt;
&lt;h3 id="步骤-3设计恢复与容错机制"&gt;步骤 3：设计“恢复与容错机制”&lt;/h3&gt;
&lt;p&gt;可靠系统不是不出错，而是能恢复。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设置“最近成功点”&lt;/li&gt;
&lt;li&gt;失败时回退到最近节点&lt;/li&gt;
&lt;li&gt;为高风险操作设置二次确认&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="步骤-4构建任务完成率--失败类型指标"&gt;步骤 4：构建“任务完成率 + 失败类型”指标&lt;/h3&gt;
&lt;p&gt;可靠性必须被量化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;成功率、平均完成时间&lt;/li&gt;
&lt;li&gt;失败类型（规划错/执行错/环境错）&lt;/li&gt;
&lt;li&gt;任务成本（token + 时长）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;只有指标清晰，系统才能持续改进。&lt;/p&gt;
&lt;h3 id="步骤-5引入可靠性评测框架"&gt;步骤 5：引入“可靠性评测框架”&lt;/h3&gt;
&lt;p&gt;研究社区已经开始提出“代理可靠性”的评测方法。企业也需要内部基准：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;固定任务集（基线）&lt;/li&gt;
&lt;li&gt;多次重复跑，观察一致性&lt;/li&gt;
&lt;li&gt;在真实场景中做小规模灰度测试&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="升华总结ai-的下半场比的是系统可靠性"&gt;升华总结：AI 的下半场，比的是“系统可靠性”&lt;/h2&gt;
&lt;p&gt;过去的竞争是“谁的模型更强”，现在的竞争是“谁的代理更稳”。&lt;/p&gt;
&lt;p&gt;当 AI 代理进入真实工作场景，可靠性决定了它是否值得被信任、是否能真正落地。&lt;strong&gt;可靠性不是一个附加属性，而是 AI 系统进入现实世界的通行证&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;换句话说：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;AI 的下半场，不是谁更聪明，而是谁更可靠。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;arXiv｜Towards a Science of AI Agent Reliability：https://arxiv.org/abs/2602.16666&lt;/li&gt;
&lt;li&gt;arXiv｜Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios：https://arxiv.org/html/2603.11214v1&lt;/li&gt;
&lt;li&gt;POOROPS：https://www.poorops.com/&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>AI代理进化：从“会聊天”到“会操作电脑”的关键跃迁</title><link>https://blog.20231106.xyz/posts/2026-03-16/ai-agents-computer-use/</link><pubDate>Mon, 16 Mar 2026 18:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-16/ai-agents-computer-use/</guid><description>&lt;p&gt;凌晨三点，我盯着一段失败日志发呆：模型答得很漂亮，步骤也写得清晰，但真正的任务一点没动。它能解释“怎么做”，却做不了。那一刻我意识到，&lt;strong&gt;AI 的热点已经从“会聊天”悄悄迁移到“会执行”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果说 2023–2024 是大模型“语言能力”的狂飙期，那么 2025–2026 关键词变成了 &lt;strong&gt;Agent（代理系统）与 computer use（用电脑完成任务）&lt;/strong&gt;。这不是一个小改动，而是一次能力范式的迁移：从“生成内容”到“执行任务”。&lt;/p&gt;
&lt;p&gt;下面，我们用一条清晰的路径拆解这场跃迁：先看它带来的效果，再看它为何难，最后给出可落地的步骤。&lt;/p&gt;
&lt;h2 id="效果展示为什么会操作电脑的代理突然成了最大热点"&gt;效果展示：为什么“会操作电脑”的代理突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;当代理系统引入 &lt;strong&gt;computer use&lt;/strong&gt;（使用浏览器、点击按钮、填写表单、运行脚本）后，变化是肉眼可见的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务完成度跃升&lt;/strong&gt;：不再只是“告诉你怎么做”，而是“直接把事情做完”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行链路更完整&lt;/strong&gt;：搜索、整理、填写、确认、提交，一条链路贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;人力成本骤降&lt;/strong&gt;：原来需要 5–10 分钟的重复动作，变成 30–60 秒的自动执行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的场景是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;运营发布&lt;/strong&gt;：从选题→资料搜索→图片下载→排版→发布，流程可自动贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;客服闭环&lt;/strong&gt;：不仅答疑，还能直接查询订单、修改地址、发起退款。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工程任务&lt;/strong&gt;：修 bug 不再止于“建议修法”，而是能拉代码、跑测试、提交修复。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这背后的关键不是模型变聪明了，而是系统真正具备了“行动”的接口。&lt;strong&gt;AI 热点从“更强的模型”变成“更能办事的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很火却仍然不稳定"&gt;问题描述：为什么代理系统很火，却仍然“不稳定”？&lt;/h2&gt;
&lt;p&gt;如果代理系统只是“多轮对话”，那它还不够强。真正能执行的代理，需要跨过三道门槛：&lt;/p&gt;
&lt;h3 id="1-规划与执行的错位"&gt;1) 规划与执行的“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长讲清楚步骤，却容易在调用工具时走偏。它可能知道要点击哪里，却点错按钮；也可能知道该填什么，却填错位置。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-任务状态难以追踪"&gt;2) 任务状态难以追踪&lt;/h3&gt;
&lt;p&gt;代理系统要持续记住“已经做了什么”“下一步该做什么”。一旦没有稳定的状态管理，系统就会重复动作、漏做步骤，甚至陷入循环。&lt;/p&gt;
&lt;h3 id="3-安全与可控性不足"&gt;3) 安全与可控性不足&lt;/h3&gt;
&lt;p&gt;当代理真正能“操作电脑”时，风险也同步放大：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它能发送邮件，也可能误发；&lt;/li&gt;
&lt;li&gt;它能执行脚本，也可能误删；&lt;/li&gt;
&lt;li&gt;它能下单，也可能下错。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;行动能力越强，系统工程就越必须“可控”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是为什么代理系统同时“爆火”和“难落地”：它不只是模型，而是一套需要工程纪律的执行系统。&lt;/p&gt;
&lt;h2 id="步骤教学搭建一个能办事又可控的-ai-代理系统"&gt;步骤教学：搭建一个“能办事、又可控”的 AI 代理系统&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的工程路径，从零到可用，尽量减少“翻车”。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是多步执行。核心是“每一步都可验证”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出格式清晰&lt;/li&gt;
&lt;li&gt;每一步都有可检查的结果&lt;/li&gt;
&lt;li&gt;失败可以回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：让模型一次只做对一小步，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2用规划器--执行器的双层架构"&gt;步骤 2：用“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;不要让同一个模型既规划又执行。更稳妥的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、生成步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、点击按钮、填表、运行脚本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以降低“胡乱执行”的风险，也让系统更可控。必要时还能用更便宜的模型做执行层，控制成本。&lt;/p&gt;
&lt;h3 id="步骤-3为工具调用写一本操作手册"&gt;步骤 3：为“工具调用”写一本“操作手册”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方是工具调用。解决方式不是更聪明，而是更规范：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确工具名称、用途、输入输出&lt;/li&gt;
&lt;li&gt;规定失败条件与错误提示&lt;/li&gt;
&lt;li&gt;设定频率限制与权限边界&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你需要把工具变成“结构化能力清单”。模型不是在猜，而是在按说明书执行。&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，我盯着一段失败日志发呆：模型答得很漂亮，步骤也写得清晰，但真正的任务一点没动。它能解释“怎么做”，却做不了。那一刻我意识到，&lt;strong&gt;AI 的热点已经从“会聊天”悄悄迁移到“会执行”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果说 2023–2024 是大模型“语言能力”的狂飙期，那么 2025–2026 关键词变成了 &lt;strong&gt;Agent（代理系统）与 computer use（用电脑完成任务）&lt;/strong&gt;。这不是一个小改动，而是一次能力范式的迁移：从“生成内容”到“执行任务”。&lt;/p&gt;
&lt;p&gt;下面，我们用一条清晰的路径拆解这场跃迁：先看它带来的效果，再看它为何难，最后给出可落地的步骤。&lt;/p&gt;
&lt;h2 id="效果展示为什么会操作电脑的代理突然成了最大热点"&gt;效果展示：为什么“会操作电脑”的代理突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;当代理系统引入 &lt;strong&gt;computer use&lt;/strong&gt;（使用浏览器、点击按钮、填写表单、运行脚本）后，变化是肉眼可见的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务完成度跃升&lt;/strong&gt;：不再只是“告诉你怎么做”，而是“直接把事情做完”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行链路更完整&lt;/strong&gt;：搜索、整理、填写、确认、提交，一条链路贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;人力成本骤降&lt;/strong&gt;：原来需要 5–10 分钟的重复动作，变成 30–60 秒的自动执行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的场景是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;运营发布&lt;/strong&gt;：从选题→资料搜索→图片下载→排版→发布，流程可自动贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;客服闭环&lt;/strong&gt;：不仅答疑，还能直接查询订单、修改地址、发起退款。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工程任务&lt;/strong&gt;：修 bug 不再止于“建议修法”，而是能拉代码、跑测试、提交修复。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这背后的关键不是模型变聪明了，而是系统真正具备了“行动”的接口。&lt;strong&gt;AI 热点从“更强的模型”变成“更能办事的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很火却仍然不稳定"&gt;问题描述：为什么代理系统很火，却仍然“不稳定”？&lt;/h2&gt;
&lt;p&gt;如果代理系统只是“多轮对话”，那它还不够强。真正能执行的代理，需要跨过三道门槛：&lt;/p&gt;
&lt;h3 id="1-规划与执行的错位"&gt;1) 规划与执行的“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长讲清楚步骤，却容易在调用工具时走偏。它可能知道要点击哪里，却点错按钮；也可能知道该填什么，却填错位置。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-任务状态难以追踪"&gt;2) 任务状态难以追踪&lt;/h3&gt;
&lt;p&gt;代理系统要持续记住“已经做了什么”“下一步该做什么”。一旦没有稳定的状态管理，系统就会重复动作、漏做步骤，甚至陷入循环。&lt;/p&gt;
&lt;h3 id="3-安全与可控性不足"&gt;3) 安全与可控性不足&lt;/h3&gt;
&lt;p&gt;当代理真正能“操作电脑”时，风险也同步放大：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它能发送邮件，也可能误发；&lt;/li&gt;
&lt;li&gt;它能执行脚本，也可能误删；&lt;/li&gt;
&lt;li&gt;它能下单，也可能下错。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;行动能力越强，系统工程就越必须“可控”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是为什么代理系统同时“爆火”和“难落地”：它不只是模型，而是一套需要工程纪律的执行系统。&lt;/p&gt;
&lt;h2 id="步骤教学搭建一个能办事又可控的-ai-代理系统"&gt;步骤教学：搭建一个“能办事、又可控”的 AI 代理系统&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的工程路径，从零到可用，尽量减少“翻车”。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是多步执行。核心是“每一步都可验证”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出格式清晰&lt;/li&gt;
&lt;li&gt;每一步都有可检查的结果&lt;/li&gt;
&lt;li&gt;失败可以回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：让模型一次只做对一小步，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2用规划器--执行器的双层架构"&gt;步骤 2：用“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;不要让同一个模型既规划又执行。更稳妥的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、生成步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、点击按钮、填表、运行脚本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以降低“胡乱执行”的风险，也让系统更可控。必要时还能用更便宜的模型做执行层，控制成本。&lt;/p&gt;
&lt;h3 id="步骤-3为工具调用写一本操作手册"&gt;步骤 3：为“工具调用”写一本“操作手册”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方是工具调用。解决方式不是更聪明，而是更规范：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确工具名称、用途、输入输出&lt;/li&gt;
&lt;li&gt;规定失败条件与错误提示&lt;/li&gt;
&lt;li&gt;设定频率限制与权限边界&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你需要把工具变成“结构化能力清单”。模型不是在猜，而是在按说明书执行。&lt;/p&gt;
&lt;h3 id="步骤-4加入失败恢复与自检机制"&gt;步骤 4：加入“失败恢复与自检机制”&lt;/h3&gt;
&lt;p&gt;可用的代理不是永远正确，而是能纠错：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每步执行后进行自检&lt;/li&gt;
&lt;li&gt;失败时回滚到最近成功节点&lt;/li&gt;
&lt;li&gt;关键动作增加二次验证（多模型或规则校验）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;系统可靠性来自纠错能力，而不是一次成功。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-5引入安全边界与审计日志"&gt;步骤 5：引入“安全边界与审计日志”&lt;/h3&gt;
&lt;p&gt;当代理能操作电脑时，安全是硬性要求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高风险动作需二次确认（付款、发送、删除）&lt;/li&gt;
&lt;li&gt;敏感操作必须可追踪（审计日志）&lt;/li&gt;
&lt;li&gt;权限最小化（只给它做需要的事）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步看似繁琐，但它是让代理从“实验品”进入“生产系统”的关键。&lt;/p&gt;
&lt;h3 id="步骤-6建立任务完成率--成本曲线"&gt;步骤 6：建立“任务完成率 + 成本曲线”&lt;/h3&gt;
&lt;p&gt;你需要把系统优化目标从“感觉好用”转为“指标可控”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务完成率（成功/失败）&lt;/li&gt;
&lt;li&gt;平均成本（token + 时间）&lt;/li&gt;
&lt;li&gt;失败类型分布（工具问题 vs 规划问题）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;只要指标清晰，系统就能进入可迭代的优化闭环。&lt;/p&gt;
&lt;h2 id="升华总结ai-的下半场是系统能力的竞争"&gt;升华总结：AI 的下半场，是“系统能力”的竞争&lt;/h2&gt;
&lt;p&gt;过去的竞争是“谁的模型更强”，接下来的竞争是“谁的系统更稳”。代理系统与 computer use 的崛起告诉我们：&lt;strong&gt;AI 的价值不再只体现在“生成”，而在“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但行动的代价是工程复杂度：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你要设计结构，而不是只写 prompt&lt;/li&gt;
&lt;li&gt;你要关注流程，而不是只盯结果&lt;/li&gt;
&lt;li&gt;你要做可控系统，而不是堆更多参数&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;AI 的下半场，不是更聪明的模型，而是更可靠的执行系统。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MIT Technology Review｜Anthropic’s chief scientist on 5 ways agents will be even better in 2025：https://www.technologyreview.com/2025/01/11/1109909/anthropics-chief-scientist-on-5-ways-agents-will-be-even-better-in-2025/&lt;/li&gt;
&lt;li&gt;arXiv｜A Comprehensive Review of AI Agents: Transforming Possibilities in Technology and Beyond：https://arxiv.org/html/2508.11957v1&lt;/li&gt;
&lt;li&gt;POOROPS：https://www.poorops.com/&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>从 Aletheia 到科研代理：AI 开始自己做研究了吗？</title><link>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%8Ealetheia%E5%88%B0%E7%A7%91%E7%A0%94%E4%BB%A3%E7%90%86ai%E5%BC%80%E5%A7%8B%E8%87%AA%E5%B7%B1%E5%81%9A%E7%A0%94%E7%A9%B6%E4%BA%86%E5%90%97/</link><pubDate>Sun, 15 Mar 2026 18:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%8Ealetheia%E5%88%B0%E7%A7%91%E7%A0%94%E4%BB%A3%E7%90%86ai%E5%BC%80%E5%A7%8B%E8%87%AA%E5%B7%B1%E5%81%9A%E7%A0%94%E7%A9%B6%E4%BA%86%E5%90%97/</guid><description>&lt;p&gt;凌晨 1 点，实验室里只剩主机风扇的嗡鸣。研究生盯着一堆失败的实验日志，重新跑一轮、再改一行参数、再等一夜——这几乎是所有科研人的共同记忆。&lt;/p&gt;
&lt;p&gt;而这个周末，AI 圈最热的一个词，开始指向“&lt;strong&gt;自己做研究的 AI&lt;/strong&gt;”。Google DeepMind 近期被热议的 &lt;strong&gt;Aletheia&lt;/strong&gt; 代理，把“从数学竞赛到自主科研”这件事推上了风口。它不再只是答题、写论文摘要，而是尝试用一套代理系统去完成真正的研究流程。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;如果 AI 能“像研究员一样工作”，那是不是意味着科研方式会彻底改变？&lt;/strong&gt; 今天我们从 Aletheia 的话题出发，聊清楚一件事：科研代理不是科幻，而是一个正在成形的工程系统。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;插图（封面）：&lt;/strong&gt;
&lt;img src="https://images.unsplash.com/photo-1451187580459-43490279c0fa?auto=format&amp;amp;fit=crop&amp;amp;w=1600&amp;amp;q=80" alt="科研代理的抽象视觉"&gt;
&lt;em&gt;图源：Unsplash，可直接使用&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="效果展示ai-从解题走向研究流程"&gt;效果展示：AI 从“解题”走向“研究流程”&lt;/h2&gt;
&lt;p&gt;过去我们看到的 AI 研究突破，大多集中在“&lt;strong&gt;单点能力&lt;/strong&gt;”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;解数学题、写论文摘要、给出模型结构建议&lt;/li&gt;
&lt;li&gt;生成一段代码、解释一篇论文&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些能力很强，但它们仍是“单次输出”。而 &lt;strong&gt;Aletheia 代表的趋势是：让 AI 代理把多步研究流程串起来&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;从公开报道来看，Aletheia 试图做到：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;明确研究目标&lt;/strong&gt;（不是回答一个问题，而是探索一个未知问题）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动检索已有成果&lt;/strong&gt;（读论文、抓数据、识别缺口）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;提出可验证假设&lt;/strong&gt;（不是观点，而是能验证的结论）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;设计实验或计算流程&lt;/strong&gt;（从数据准备到训练/验证）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;总结与复盘&lt;/strong&gt;（给出下一步的研究计划）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果这条链条能跑通，科研的“瓶颈”就不再只是算力，而是工程系统本身。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;插图（流程图）：&lt;/strong&gt;
&lt;img src="https://images.unsplash.com/photo-1518770660439-4636190af475?auto=format&amp;amp;fit=crop&amp;amp;w=1600&amp;amp;q=80" alt="科研代理流程图"&gt;
&lt;em&gt;图源：Unsplash，可直接使用&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么科研代理难但又必须做"&gt;问题描述：为什么“科研代理”难，但又必须做？&lt;/h2&gt;
&lt;p&gt;科研代理听起来很酷，但现实中它比“写代码代理”还难，原因有三：&lt;/p&gt;
&lt;h3 id="1-研究的目标不清晰"&gt;1) &lt;strong&gt;研究的目标不清晰&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;研究不是“完成任务”，而是“探索未知”。很多问题没有标准答案，代理系统很容易陷入“自我确认”的循环——看似有结论，其实只是重复已知事实。&lt;/p&gt;
&lt;h3 id="2-验证成本极高"&gt;2) &lt;strong&gt;验证成本极高&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;科研的验证不是“运行一个脚本”，而是实验设备、长周期计算、复杂数据标注。一个步骤的错误，可能意味着数天甚至数周的浪费。&lt;/p&gt;
&lt;h3 id="3-文献与实验之间是断裂的"&gt;3) &lt;strong&gt;文献与实验之间是断裂的&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;模型可以读文献，但如何把文献里的方法落地到新的数据集、复现实验、迭代改进？这需要工程能力，而不仅是语言能力。&lt;/p&gt;
&lt;p&gt;所以，&lt;strong&gt;科研代理的关键不是“更聪明的模型”，而是“更可靠的研究流程系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学如何搭建一个能跑研究的-ai-代理系统"&gt;步骤教学：如何搭建一个“能跑研究”的 AI 代理系统？&lt;/h2&gt;
&lt;p&gt;想让 AI 代理真的参与科研，你需要把“研究过程”拆成可执行的工程模块。下面给出一条可落地的路径。&lt;/p&gt;
&lt;h3 id="步骤-1把研究目标拆成可验证的小问题"&gt;步骤 1：把研究目标拆成可验证的小问题&lt;/h3&gt;
&lt;p&gt;不要让 AI 直接“做研究”，而是让它&lt;strong&gt;逐步完成“可验证的问题链”&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;问题 A：该领域已有多少方法？（文献检索）&lt;/li&gt;
&lt;li&gt;问题 B：现有方法的最大缺口是什么？（差距分析）&lt;/li&gt;
&lt;li&gt;问题 C：提出一个最小可验证假设（MVP 假设）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：每一步必须有明确的验证方式。&lt;/strong&gt;&lt;/p&gt;</description><content>&lt;p&gt;凌晨 1 点，实验室里只剩主机风扇的嗡鸣。研究生盯着一堆失败的实验日志，重新跑一轮、再改一行参数、再等一夜——这几乎是所有科研人的共同记忆。&lt;/p&gt;
&lt;p&gt;而这个周末，AI 圈最热的一个词，开始指向“&lt;strong&gt;自己做研究的 AI&lt;/strong&gt;”。Google DeepMind 近期被热议的 &lt;strong&gt;Aletheia&lt;/strong&gt; 代理，把“从数学竞赛到自主科研”这件事推上了风口。它不再只是答题、写论文摘要，而是尝试用一套代理系统去完成真正的研究流程。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;如果 AI 能“像研究员一样工作”，那是不是意味着科研方式会彻底改变？&lt;/strong&gt; 今天我们从 Aletheia 的话题出发，聊清楚一件事：科研代理不是科幻，而是一个正在成形的工程系统。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;插图（封面）：&lt;/strong&gt;
&lt;img src="https://images.unsplash.com/photo-1451187580459-43490279c0fa?auto=format&amp;amp;fit=crop&amp;amp;w=1600&amp;amp;q=80" alt="科研代理的抽象视觉"&gt;
&lt;em&gt;图源：Unsplash，可直接使用&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="效果展示ai-从解题走向研究流程"&gt;效果展示：AI 从“解题”走向“研究流程”&lt;/h2&gt;
&lt;p&gt;过去我们看到的 AI 研究突破，大多集中在“&lt;strong&gt;单点能力&lt;/strong&gt;”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;解数学题、写论文摘要、给出模型结构建议&lt;/li&gt;
&lt;li&gt;生成一段代码、解释一篇论文&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些能力很强，但它们仍是“单次输出”。而 &lt;strong&gt;Aletheia 代表的趋势是：让 AI 代理把多步研究流程串起来&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;从公开报道来看，Aletheia 试图做到：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;明确研究目标&lt;/strong&gt;（不是回答一个问题，而是探索一个未知问题）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动检索已有成果&lt;/strong&gt;（读论文、抓数据、识别缺口）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;提出可验证假设&lt;/strong&gt;（不是观点，而是能验证的结论）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;设计实验或计算流程&lt;/strong&gt;（从数据准备到训练/验证）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;总结与复盘&lt;/strong&gt;（给出下一步的研究计划）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果这条链条能跑通，科研的“瓶颈”就不再只是算力，而是工程系统本身。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;插图（流程图）：&lt;/strong&gt;
&lt;img src="https://images.unsplash.com/photo-1518770660439-4636190af475?auto=format&amp;amp;fit=crop&amp;amp;w=1600&amp;amp;q=80" alt="科研代理流程图"&gt;
&lt;em&gt;图源：Unsplash，可直接使用&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么科研代理难但又必须做"&gt;问题描述：为什么“科研代理”难，但又必须做？&lt;/h2&gt;
&lt;p&gt;科研代理听起来很酷，但现实中它比“写代码代理”还难，原因有三：&lt;/p&gt;
&lt;h3 id="1-研究的目标不清晰"&gt;1) &lt;strong&gt;研究的目标不清晰&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;研究不是“完成任务”，而是“探索未知”。很多问题没有标准答案，代理系统很容易陷入“自我确认”的循环——看似有结论，其实只是重复已知事实。&lt;/p&gt;
&lt;h3 id="2-验证成本极高"&gt;2) &lt;strong&gt;验证成本极高&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;科研的验证不是“运行一个脚本”，而是实验设备、长周期计算、复杂数据标注。一个步骤的错误，可能意味着数天甚至数周的浪费。&lt;/p&gt;
&lt;h3 id="3-文献与实验之间是断裂的"&gt;3) &lt;strong&gt;文献与实验之间是断裂的&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;模型可以读文献，但如何把文献里的方法落地到新的数据集、复现实验、迭代改进？这需要工程能力，而不仅是语言能力。&lt;/p&gt;
&lt;p&gt;所以，&lt;strong&gt;科研代理的关键不是“更聪明的模型”，而是“更可靠的研究流程系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学如何搭建一个能跑研究的-ai-代理系统"&gt;步骤教学：如何搭建一个“能跑研究”的 AI 代理系统？&lt;/h2&gt;
&lt;p&gt;想让 AI 代理真的参与科研，你需要把“研究过程”拆成可执行的工程模块。下面给出一条可落地的路径。&lt;/p&gt;
&lt;h3 id="步骤-1把研究目标拆成可验证的小问题"&gt;步骤 1：把研究目标拆成可验证的小问题&lt;/h3&gt;
&lt;p&gt;不要让 AI 直接“做研究”，而是让它&lt;strong&gt;逐步完成“可验证的问题链”&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;问题 A：该领域已有多少方法？（文献检索）&lt;/li&gt;
&lt;li&gt;问题 B：现有方法的最大缺口是什么？（差距分析）&lt;/li&gt;
&lt;li&gt;问题 C：提出一个最小可验证假设（MVP 假设）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：每一步必须有明确的验证方式。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2构建文献检索代理--证据抽取代理"&gt;步骤 2：构建“文献检索代理 + 证据抽取代理”&lt;/h3&gt;
&lt;p&gt;研究代理的第一层不是“发明新理论”，而是&lt;strong&gt;能可靠地读与整理已有知识&lt;/strong&gt;。建议分层设计：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;检索代理&lt;/strong&gt;：用检索工具抓取最新论文、博文、报告&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;证据抽取代理&lt;/strong&gt;：提取关键实验结论、数据与方法&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样能减少 AI 的“幻觉性总结”，让结果可追溯。&lt;/p&gt;
&lt;h3 id="步骤-3引入实验管线模板"&gt;步骤 3：引入“实验管线模板”&lt;/h3&gt;
&lt;p&gt;科研代理最容易失败在“实验落地”。所以要建立可复用模板：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;数据获取 → 清洗 → 划分&lt;/li&gt;
&lt;li&gt;训练 → 验证 → 指标对比&lt;/li&gt;
&lt;li&gt;结果可视化 → 结论生成&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;所有步骤要结构化，让代理可以自动调用并验证。&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;插图（实验管线示意）：&lt;/strong&gt;
&lt;img src="https://images.unsplash.com/photo-1555949963-aa79dcee981c?auto=format&amp;amp;fit=crop&amp;amp;w=1600&amp;amp;q=80" alt="实验管线示意图"&gt;
&lt;em&gt;图源：Unsplash，可直接使用&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="步骤-4加入多代理协作--自检回路"&gt;步骤 4：加入“多代理协作 + 自检回路”&lt;/h3&gt;
&lt;p&gt;科研系统里最危险的不是错误，而是“错误没有被发现”。建议加一层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;研究员代理&lt;/strong&gt;：提出假设&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质疑代理&lt;/strong&gt;：专门找漏洞、反例&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;审稿代理&lt;/strong&gt;：用审稿视角评估结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这能显著降低“自嗨式结论”的风险。&lt;/p&gt;
&lt;h3 id="步骤-5用成本-收益曲线评估价值"&gt;步骤 5：用“成本-收益曲线”评估价值&lt;/h3&gt;
&lt;p&gt;科研代理不是“越大越好”。要衡量：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务完成率（是否能完成一次完整研究循环）&lt;/li&gt;
&lt;li&gt;成本（算力、时间、人力）&lt;/li&gt;
&lt;li&gt;价值（产出是否能真实推动研究进展）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;没有这条曲线，科研代理就只会是“昂贵的玩具”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结ai-科研代理真正改变的是研究的组织方式"&gt;升华总结：AI 科研代理真正改变的，是“研究的组织方式”&lt;/h2&gt;
&lt;p&gt;Aletheia 的话题之所以火，不只是因为它“能做研究”，而是因为它让我们看到一种可能：&lt;strong&gt;研究可以从“个体英雄主义”变成“系统工程”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;未来的研究可能是这样的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;人类定义问题与价值方向&lt;/li&gt;
&lt;li&gt;代理系统完成文献调研、实验探索与结果复盘&lt;/li&gt;
&lt;li&gt;人类只需要在关键节点做判断与验证&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;这不是让 AI 取代研究员，而是让研究员从“重复劳动”里解放出来，把精力放在真正重要的问题上。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;AI 的下一波热点，不是更强的模型，而是能把“研究流程”跑起来的系统。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://www.marktechpost.com/2026/03/13/google-deepmind-introduces-aletheia-the-ai-agent-moving-from-math-competitions-to-fully-autonomous-professional-research-discoveries/"&gt;https://www.marktechpost.com/2026/03/13/google-deepmind-introduces-aletheia-the-ai-agent-moving-from-math-competitions-to-fully-autonomous-professional-research-discoveries/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.technologyreview.com/2026/03/04/1133642/bridging-the-operational-ai-gap/"&gt;https://www.technologyreview.com/2026/03/04/1133642/bridging-the-operational-ai-gap/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>代理系统爆发：从“会说话的模型”到“能办事的 AI 团队”</title><link>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%A3%E7%90%86%E7%B3%BB%E7%BB%9F%E7%88%86%E5%8F%91%E4%BB%8E%E4%BC%9A%E8%AF%B4%E8%AF%9D%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%88%B0%E8%83%BD%E5%8A%9E%E4%BA%8B%E7%9A%84ai%E5%9B%A2%E9%98%9F/</link><pubDate>Sun, 15 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%A3%E7%90%86%E7%B3%BB%E7%BB%9F%E7%88%86%E5%8F%91%E4%BB%8E%E4%BC%9A%E8%AF%B4%E8%AF%9D%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%88%B0%E8%83%BD%E5%8A%9E%E4%BA%8B%E7%9A%84ai%E5%9B%A2%E9%98%9F/</guid><description>&lt;p&gt;凌晨 2 点，值班工程师盯着告警群里一串“失败重试”的日志发愣。不是模型不聪明，而是“聪明的模型”没人指挥：它会回答问题，却不会“办事”；它能理解意图，却不会把事情做完。&lt;/p&gt;
&lt;p&gt;就在这两年，&lt;strong&gt;AI 热点从“更强的模型”悄悄转向“能做事的系统”&lt;/strong&gt;。你会听到一个越来越高频的词：&lt;strong&gt;Agent（代理系统）&lt;/strong&gt;。它不只是一个模型，而是一套包含“规划、记忆、工具、执行”的结构化系统，像一个能跑任务的 AI 团队。&lt;/p&gt;
&lt;p&gt;【配图建议：标题下方封面图——“AI 代理系统”概念图：模型中枢 + 规划器 + 工具/数据库 + 执行器的流程图】&lt;/p&gt;
&lt;h2 id="效果展示代理系统为什么突然成了最大热点"&gt;效果展示：代理系统为什么突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;过去两年的 AI 被称为“会说话的模型”。它们善于聊天、写文案、总结信息，但一旦进入真实业务流程，常常卡在两件事上：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;缺少“执行链路”&lt;/strong&gt;：能说出计划，却不能调工具、改数据、跑流程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;缺少“持续性”&lt;/strong&gt;：模型输出一次就结束，没有记忆，也没有目标追踪。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;代理系统的出现，直接把“会说话”升级为“能办事”。它把大模型变成&lt;strong&gt;任务执行器&lt;/strong&gt;：能理解目标、拆解任务、调用工具、验证结果、继续迭代。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;效果最直观的地方&lt;/strong&gt;，就是“同样的任务，完成度上了一个量级”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服场景：不只是回答问题，而是能自动查询订单、修改地址、发起退款&lt;/li&gt;
&lt;li&gt;研发场景：不只是生成代码，而是能运行测试、定位错误、提交修复&lt;/li&gt;
&lt;li&gt;运营场景：不只是写文案，而是能搜集素材、排版、发布、复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;【配图建议：效果展示图——“单模型 vs 代理系统”对比表：输出一次 vs 持续执行、多轮验证】&lt;/p&gt;
&lt;p&gt;这类系统在 2026 年迅速升温，核心原因是：&lt;strong&gt;AI 不再只是“生成”，而是开始“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很热却很难"&gt;问题描述：为什么“代理系统”很热却很难？&lt;/h2&gt;
&lt;p&gt;如果只是把模型多调几次，那叫“多轮对话”，不是代理系统。代理系统之所以难，难在它是一套真正的软件工程：&lt;/p&gt;
&lt;h3 id="1-规划与执行天然会错位"&gt;1) 规划与执行天然会“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长“讲清楚”，但不擅长“跑流程”。它可以写出完美的步骤，却在调用工具时卡住。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;，需要系统层去补齐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具接口要稳定&lt;/li&gt;
&lt;li&gt;任务状态要可追踪&lt;/li&gt;
&lt;li&gt;错误要可恢复&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-记忆与上下文成本高"&gt;2) 记忆与上下文成本高&lt;/h3&gt;
&lt;p&gt;代理系统需要记忆。没有记忆，就没法维持任务的连续性；但记忆越多，成本越高、上下文越乱，性能反而下降。&lt;/p&gt;
&lt;h3 id="3-评估标准不清晰"&gt;3) 评估标准不清晰&lt;/h3&gt;
&lt;p&gt;模型评估看准确率、困惑度；代理系统却要看“任务完成率”“成本/延迟”“失败恢复率”。&lt;strong&gt;没有统一的评估标准，工程就无从优化。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这也是 2026 年最大的争论点：&lt;strong&gt;我们到底在评估什么？是模型能力，还是系统能力？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：问题描述图——“代理系统三难”：规划-执行、记忆成本、评估标准】&lt;/p&gt;
&lt;h2 id="步骤教学从零搭建能办事的-ai-团队"&gt;步骤教学：从零搭建“能办事的 AI 团队”&lt;/h2&gt;
&lt;p&gt;如果你想把 AI 从“聊天助手”升级成“任务执行系统”，下面是一条可落地的工程路径。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是“迭代执行”。关键在于把任务拆成可验证的模块化目标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都能被工具验证（比如 API 返回、文件存在、指标达标）&lt;/li&gt;
&lt;li&gt;每一步都能回滚或重试&lt;/li&gt;
&lt;li&gt;每一步都有清晰的输入/输出格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型“做对一小步”，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：步骤图——任务拆解流程：目标 → 子任务 → 工具调用 → 验证】&lt;/p&gt;</description><content>&lt;p&gt;凌晨 2 点，值班工程师盯着告警群里一串“失败重试”的日志发愣。不是模型不聪明，而是“聪明的模型”没人指挥：它会回答问题，却不会“办事”；它能理解意图，却不会把事情做完。&lt;/p&gt;
&lt;p&gt;就在这两年，&lt;strong&gt;AI 热点从“更强的模型”悄悄转向“能做事的系统”&lt;/strong&gt;。你会听到一个越来越高频的词：&lt;strong&gt;Agent（代理系统）&lt;/strong&gt;。它不只是一个模型，而是一套包含“规划、记忆、工具、执行”的结构化系统，像一个能跑任务的 AI 团队。&lt;/p&gt;
&lt;p&gt;【配图建议：标题下方封面图——“AI 代理系统”概念图：模型中枢 + 规划器 + 工具/数据库 + 执行器的流程图】&lt;/p&gt;
&lt;h2 id="效果展示代理系统为什么突然成了最大热点"&gt;效果展示：代理系统为什么突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;过去两年的 AI 被称为“会说话的模型”。它们善于聊天、写文案、总结信息，但一旦进入真实业务流程，常常卡在两件事上：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;缺少“执行链路”&lt;/strong&gt;：能说出计划，却不能调工具、改数据、跑流程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;缺少“持续性”&lt;/strong&gt;：模型输出一次就结束，没有记忆，也没有目标追踪。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;代理系统的出现，直接把“会说话”升级为“能办事”。它把大模型变成&lt;strong&gt;任务执行器&lt;/strong&gt;：能理解目标、拆解任务、调用工具、验证结果、继续迭代。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;效果最直观的地方&lt;/strong&gt;，就是“同样的任务，完成度上了一个量级”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服场景：不只是回答问题，而是能自动查询订单、修改地址、发起退款&lt;/li&gt;
&lt;li&gt;研发场景：不只是生成代码，而是能运行测试、定位错误、提交修复&lt;/li&gt;
&lt;li&gt;运营场景：不只是写文案，而是能搜集素材、排版、发布、复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;【配图建议：效果展示图——“单模型 vs 代理系统”对比表：输出一次 vs 持续执行、多轮验证】&lt;/p&gt;
&lt;p&gt;这类系统在 2026 年迅速升温，核心原因是：&lt;strong&gt;AI 不再只是“生成”，而是开始“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很热却很难"&gt;问题描述：为什么“代理系统”很热却很难？&lt;/h2&gt;
&lt;p&gt;如果只是把模型多调几次，那叫“多轮对话”，不是代理系统。代理系统之所以难，难在它是一套真正的软件工程：&lt;/p&gt;
&lt;h3 id="1-规划与执行天然会错位"&gt;1) 规划与执行天然会“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长“讲清楚”，但不擅长“跑流程”。它可以写出完美的步骤，却在调用工具时卡住。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;，需要系统层去补齐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具接口要稳定&lt;/li&gt;
&lt;li&gt;任务状态要可追踪&lt;/li&gt;
&lt;li&gt;错误要可恢复&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-记忆与上下文成本高"&gt;2) 记忆与上下文成本高&lt;/h3&gt;
&lt;p&gt;代理系统需要记忆。没有记忆，就没法维持任务的连续性；但记忆越多，成本越高、上下文越乱，性能反而下降。&lt;/p&gt;
&lt;h3 id="3-评估标准不清晰"&gt;3) 评估标准不清晰&lt;/h3&gt;
&lt;p&gt;模型评估看准确率、困惑度；代理系统却要看“任务完成率”“成本/延迟”“失败恢复率”。&lt;strong&gt;没有统一的评估标准，工程就无从优化。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这也是 2026 年最大的争论点：&lt;strong&gt;我们到底在评估什么？是模型能力，还是系统能力？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：问题描述图——“代理系统三难”：规划-执行、记忆成本、评估标准】&lt;/p&gt;
&lt;h2 id="步骤教学从零搭建能办事的-ai-团队"&gt;步骤教学：从零搭建“能办事的 AI 团队”&lt;/h2&gt;
&lt;p&gt;如果你想把 AI 从“聊天助手”升级成“任务执行系统”，下面是一条可落地的工程路径。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是“迭代执行”。关键在于把任务拆成可验证的模块化目标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都能被工具验证（比如 API 返回、文件存在、指标达标）&lt;/li&gt;
&lt;li&gt;每一步都能回滚或重试&lt;/li&gt;
&lt;li&gt;每一步都有清晰的输入/输出格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型“做对一小步”，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：步骤图——任务拆解流程：目标 → 子任务 → 工具调用 → 验证】&lt;/p&gt;
&lt;h3 id="步骤-2设计规划器--执行器的双层架构"&gt;步骤 2：设计“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;典型代理系统不让模型“又规划又执行”，而是拆成两层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、制定步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、执行具体动作&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以减少“胡乱执行”的风险，也让系统更可控。你甚至可以用不同的模型：&lt;strong&gt;大模型负责规划，小模型负责执行&lt;/strong&gt;，成本立刻下降。&lt;/p&gt;
&lt;h3 id="步骤-3加入工具清单--工具规范"&gt;步骤 3：加入“工具清单 + 工具规范”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方，是工具调用不稳定。解决方案不是让模型更聪明，而是&lt;strong&gt;把工具变成结构化的“能力清单”&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具名、用途、输入输出格式&lt;/li&gt;
&lt;li&gt;失败条件与错误提示&lt;/li&gt;
&lt;li&gt;调用频率限制&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这相当于给模型一套“操作手册”，减少不确定性。&lt;/p&gt;
&lt;p&gt;【配图建议：工具清单图——一个工具规范示例（名称/输入/输出/错误码）】&lt;/p&gt;
&lt;h3 id="步骤-4建立失败恢复与自检机制"&gt;步骤 4：建立“失败恢复与自检”机制&lt;/h3&gt;
&lt;p&gt;真正可用的代理系统，不是“永远正确”，而是“能从错误中恢复”。实操建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都要自检&lt;/li&gt;
&lt;li&gt;失败时能回滚到最近成功节点&lt;/li&gt;
&lt;li&gt;重要决策要二次验证（多模型或规则系统）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;系统可靠性来自“纠错能力”，而不是一次成功。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-5定义任务完成率和成本曲线"&gt;步骤 5：定义“任务完成率”和“成本曲线”&lt;/h3&gt;
&lt;p&gt;代理系统的指标一定要落到业务层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务完成率（成功/失败）&lt;/li&gt;
&lt;li&gt;成本曲线（每任务消耗的 tokens 与时间）&lt;/li&gt;
&lt;li&gt;失败类型分布（工具失败 vs 规划错误）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这会让系统进入可优化的工程循环。否则你永远只能“主观感觉模型变聪明了”。&lt;/p&gt;
&lt;p&gt;【配图建议：指标图——任务完成率与成本曲线趋势图】&lt;/p&gt;
&lt;h2 id="升华总结ai-的下一场竞争是系统能力的竞争"&gt;升华总结：AI 的下一场竞争，是“系统能力”的竞争&lt;/h2&gt;
&lt;p&gt;2024-2025 年是模型竞争，2026 年是系统竞争。真正的 AI 热点正在从“更强的参数”转向“更强的工程系统”。&lt;/p&gt;
&lt;p&gt;代理系统的意义在于：&lt;strong&gt;它让 AI 从“生成内容”升级为“执行任务”，从“会说话”升级为“能办事”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但这条路也不轻松，它要求我们像做操作系统一样去做 AI：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设计结构，而不是只写 Prompt&lt;/li&gt;
&lt;li&gt;关注流程，而不是只看结果&lt;/li&gt;
&lt;li&gt;关注稳定性，而不是只看爆点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;AI 的下半场，不是“更聪明的模型”，而是“更可靠的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://arxiv.org/abs/2601.01743"&gt;https://arxiv.org/abs/2601.01743&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://arxiv.org/abs/2503.12687"&gt;https://arxiv.org/abs/2503.12687&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>