<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>系统架构 on POOROPS</title><link>https://blog.20231106.xyz/tags/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/</link><description>Recent content in 系统架构 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Sun, 15 Mar 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/index.xml" rel="self" type="application/rss+xml"/><item><title>代理系统爆发：从“会说话的模型”到“能办事的 AI 团队”</title><link>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%A3%E7%90%86%E7%B3%BB%E7%BB%9F%E7%88%86%E5%8F%91%E4%BB%8E%E4%BC%9A%E8%AF%B4%E8%AF%9D%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%88%B0%E8%83%BD%E5%8A%9E%E4%BA%8B%E7%9A%84ai%E5%9B%A2%E9%98%9F/</link><pubDate>Sun, 15 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-15/%E4%BB%A3%E7%90%86%E7%B3%BB%E7%BB%9F%E7%88%86%E5%8F%91%E4%BB%8E%E4%BC%9A%E8%AF%B4%E8%AF%9D%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%88%B0%E8%83%BD%E5%8A%9E%E4%BA%8B%E7%9A%84ai%E5%9B%A2%E9%98%9F/</guid><description>&lt;p&gt;凌晨 2 点，值班工程师盯着告警群里一串“失败重试”的日志发愣。不是模型不聪明，而是“聪明的模型”没人指挥：它会回答问题，却不会“办事”；它能理解意图，却不会把事情做完。&lt;/p&gt;
&lt;p&gt;就在这两年，&lt;strong&gt;AI 热点从“更强的模型”悄悄转向“能做事的系统”&lt;/strong&gt;。你会听到一个越来越高频的词：&lt;strong&gt;Agent（代理系统）&lt;/strong&gt;。它不只是一个模型，而是一套包含“规划、记忆、工具、执行”的结构化系统，像一个能跑任务的 AI 团队。&lt;/p&gt;
&lt;p&gt;【配图建议：标题下方封面图——“AI 代理系统”概念图：模型中枢 + 规划器 + 工具/数据库 + 执行器的流程图】&lt;/p&gt;
&lt;h2 id="效果展示代理系统为什么突然成了最大热点"&gt;效果展示：代理系统为什么突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;过去两年的 AI 被称为“会说话的模型”。它们善于聊天、写文案、总结信息，但一旦进入真实业务流程，常常卡在两件事上：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;缺少“执行链路”&lt;/strong&gt;：能说出计划，却不能调工具、改数据、跑流程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;缺少“持续性”&lt;/strong&gt;：模型输出一次就结束，没有记忆，也没有目标追踪。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;代理系统的出现，直接把“会说话”升级为“能办事”。它把大模型变成&lt;strong&gt;任务执行器&lt;/strong&gt;：能理解目标、拆解任务、调用工具、验证结果、继续迭代。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;效果最直观的地方&lt;/strong&gt;，就是“同样的任务，完成度上了一个量级”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服场景：不只是回答问题，而是能自动查询订单、修改地址、发起退款&lt;/li&gt;
&lt;li&gt;研发场景：不只是生成代码，而是能运行测试、定位错误、提交修复&lt;/li&gt;
&lt;li&gt;运营场景：不只是写文案，而是能搜集素材、排版、发布、复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;【配图建议：效果展示图——“单模型 vs 代理系统”对比表：输出一次 vs 持续执行、多轮验证】&lt;/p&gt;
&lt;p&gt;这类系统在 2026 年迅速升温，核心原因是：&lt;strong&gt;AI 不再只是“生成”，而是开始“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很热却很难"&gt;问题描述：为什么“代理系统”很热却很难？&lt;/h2&gt;
&lt;p&gt;如果只是把模型多调几次，那叫“多轮对话”，不是代理系统。代理系统之所以难，难在它是一套真正的软件工程：&lt;/p&gt;
&lt;h3 id="1-规划与执行天然会错位"&gt;1) 规划与执行天然会“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长“讲清楚”，但不擅长“跑流程”。它可以写出完美的步骤，却在调用工具时卡住。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;，需要系统层去补齐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具接口要稳定&lt;/li&gt;
&lt;li&gt;任务状态要可追踪&lt;/li&gt;
&lt;li&gt;错误要可恢复&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-记忆与上下文成本高"&gt;2) 记忆与上下文成本高&lt;/h3&gt;
&lt;p&gt;代理系统需要记忆。没有记忆，就没法维持任务的连续性；但记忆越多，成本越高、上下文越乱，性能反而下降。&lt;/p&gt;
&lt;h3 id="3-评估标准不清晰"&gt;3) 评估标准不清晰&lt;/h3&gt;
&lt;p&gt;模型评估看准确率、困惑度；代理系统却要看“任务完成率”“成本/延迟”“失败恢复率”。&lt;strong&gt;没有统一的评估标准，工程就无从优化。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这也是 2026 年最大的争论点：&lt;strong&gt;我们到底在评估什么？是模型能力，还是系统能力？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：问题描述图——“代理系统三难”：规划-执行、记忆成本、评估标准】&lt;/p&gt;
&lt;h2 id="步骤教学从零搭建能办事的-ai-团队"&gt;步骤教学：从零搭建“能办事的 AI 团队”&lt;/h2&gt;
&lt;p&gt;如果你想把 AI 从“聊天助手”升级成“任务执行系统”，下面是一条可落地的工程路径。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是“迭代执行”。关键在于把任务拆成可验证的模块化目标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都能被工具验证（比如 API 返回、文件存在、指标达标）&lt;/li&gt;
&lt;li&gt;每一步都能回滚或重试&lt;/li&gt;
&lt;li&gt;每一步都有清晰的输入/输出格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型“做对一小步”，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：步骤图——任务拆解流程：目标 → 子任务 → 工具调用 → 验证】&lt;/p&gt;</description><content>&lt;p&gt;凌晨 2 点，值班工程师盯着告警群里一串“失败重试”的日志发愣。不是模型不聪明，而是“聪明的模型”没人指挥：它会回答问题，却不会“办事”；它能理解意图，却不会把事情做完。&lt;/p&gt;
&lt;p&gt;就在这两年，&lt;strong&gt;AI 热点从“更强的模型”悄悄转向“能做事的系统”&lt;/strong&gt;。你会听到一个越来越高频的词：&lt;strong&gt;Agent（代理系统）&lt;/strong&gt;。它不只是一个模型，而是一套包含“规划、记忆、工具、执行”的结构化系统，像一个能跑任务的 AI 团队。&lt;/p&gt;
&lt;p&gt;【配图建议：标题下方封面图——“AI 代理系统”概念图：模型中枢 + 规划器 + 工具/数据库 + 执行器的流程图】&lt;/p&gt;
&lt;h2 id="效果展示代理系统为什么突然成了最大热点"&gt;效果展示：代理系统为什么突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;过去两年的 AI 被称为“会说话的模型”。它们善于聊天、写文案、总结信息，但一旦进入真实业务流程，常常卡在两件事上：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;缺少“执行链路”&lt;/strong&gt;：能说出计划，却不能调工具、改数据、跑流程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;缺少“持续性”&lt;/strong&gt;：模型输出一次就结束，没有记忆，也没有目标追踪。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;代理系统的出现，直接把“会说话”升级为“能办事”。它把大模型变成&lt;strong&gt;任务执行器&lt;/strong&gt;：能理解目标、拆解任务、调用工具、验证结果、继续迭代。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;效果最直观的地方&lt;/strong&gt;，就是“同样的任务，完成度上了一个量级”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服场景：不只是回答问题，而是能自动查询订单、修改地址、发起退款&lt;/li&gt;
&lt;li&gt;研发场景：不只是生成代码，而是能运行测试、定位错误、提交修复&lt;/li&gt;
&lt;li&gt;运营场景：不只是写文案，而是能搜集素材、排版、发布、复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;【配图建议：效果展示图——“单模型 vs 代理系统”对比表：输出一次 vs 持续执行、多轮验证】&lt;/p&gt;
&lt;p&gt;这类系统在 2026 年迅速升温，核心原因是：&lt;strong&gt;AI 不再只是“生成”，而是开始“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很热却很难"&gt;问题描述：为什么“代理系统”很热却很难？&lt;/h2&gt;
&lt;p&gt;如果只是把模型多调几次，那叫“多轮对话”，不是代理系统。代理系统之所以难，难在它是一套真正的软件工程：&lt;/p&gt;
&lt;h3 id="1-规划与执行天然会错位"&gt;1) 规划与执行天然会“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长“讲清楚”，但不擅长“跑流程”。它可以写出完美的步骤，却在调用工具时卡住。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;，需要系统层去补齐：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具接口要稳定&lt;/li&gt;
&lt;li&gt;任务状态要可追踪&lt;/li&gt;
&lt;li&gt;错误要可恢复&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-记忆与上下文成本高"&gt;2) 记忆与上下文成本高&lt;/h3&gt;
&lt;p&gt;代理系统需要记忆。没有记忆，就没法维持任务的连续性；但记忆越多，成本越高、上下文越乱，性能反而下降。&lt;/p&gt;
&lt;h3 id="3-评估标准不清晰"&gt;3) 评估标准不清晰&lt;/h3&gt;
&lt;p&gt;模型评估看准确率、困惑度；代理系统却要看“任务完成率”“成本/延迟”“失败恢复率”。&lt;strong&gt;没有统一的评估标准，工程就无从优化。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这也是 2026 年最大的争论点：&lt;strong&gt;我们到底在评估什么？是模型能力，还是系统能力？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：问题描述图——“代理系统三难”：规划-执行、记忆成本、评估标准】&lt;/p&gt;
&lt;h2 id="步骤教学从零搭建能办事的-ai-团队"&gt;步骤教学：从零搭建“能办事的 AI 团队”&lt;/h2&gt;
&lt;p&gt;如果你想把 AI 从“聊天助手”升级成“任务执行系统”，下面是一条可落地的工程路径。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是“迭代执行”。关键在于把任务拆成可验证的模块化目标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都能被工具验证（比如 API 返回、文件存在、指标达标）&lt;/li&gt;
&lt;li&gt;每一步都能回滚或重试&lt;/li&gt;
&lt;li&gt;每一步都有清晰的输入/输出格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;核心原则：让模型“做对一小步”，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【配图建议：步骤图——任务拆解流程：目标 → 子任务 → 工具调用 → 验证】&lt;/p&gt;
&lt;h3 id="步骤-2设计规划器--执行器的双层架构"&gt;步骤 2：设计“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;典型代理系统不让模型“又规划又执行”，而是拆成两层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、制定步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、执行具体动作&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以减少“胡乱执行”的风险，也让系统更可控。你甚至可以用不同的模型：&lt;strong&gt;大模型负责规划，小模型负责执行&lt;/strong&gt;，成本立刻下降。&lt;/p&gt;
&lt;h3 id="步骤-3加入工具清单--工具规范"&gt;步骤 3：加入“工具清单 + 工具规范”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方，是工具调用不稳定。解决方案不是让模型更聪明，而是&lt;strong&gt;把工具变成结构化的“能力清单”&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工具名、用途、输入输出格式&lt;/li&gt;
&lt;li&gt;失败条件与错误提示&lt;/li&gt;
&lt;li&gt;调用频率限制&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这相当于给模型一套“操作手册”，减少不确定性。&lt;/p&gt;
&lt;p&gt;【配图建议：工具清单图——一个工具规范示例（名称/输入/输出/错误码）】&lt;/p&gt;
&lt;h3 id="步骤-4建立失败恢复与自检机制"&gt;步骤 4：建立“失败恢复与自检”机制&lt;/h3&gt;
&lt;p&gt;真正可用的代理系统，不是“永远正确”，而是“能从错误中恢复”。实操建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都要自检&lt;/li&gt;
&lt;li&gt;失败时能回滚到最近成功节点&lt;/li&gt;
&lt;li&gt;重要决策要二次验证（多模型或规则系统）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;系统可靠性来自“纠错能力”，而不是一次成功。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-5定义任务完成率和成本曲线"&gt;步骤 5：定义“任务完成率”和“成本曲线”&lt;/h3&gt;
&lt;p&gt;代理系统的指标一定要落到业务层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务完成率（成功/失败）&lt;/li&gt;
&lt;li&gt;成本曲线（每任务消耗的 tokens 与时间）&lt;/li&gt;
&lt;li&gt;失败类型分布（工具失败 vs 规划错误）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这会让系统进入可优化的工程循环。否则你永远只能“主观感觉模型变聪明了”。&lt;/p&gt;
&lt;p&gt;【配图建议：指标图——任务完成率与成本曲线趋势图】&lt;/p&gt;
&lt;h2 id="升华总结ai-的下一场竞争是系统能力的竞争"&gt;升华总结：AI 的下一场竞争，是“系统能力”的竞争&lt;/h2&gt;
&lt;p&gt;2024-2025 年是模型竞争，2026 年是系统竞争。真正的 AI 热点正在从“更强的参数”转向“更强的工程系统”。&lt;/p&gt;
&lt;p&gt;代理系统的意义在于：&lt;strong&gt;它让 AI 从“生成内容”升级为“执行任务”，从“会说话”升级为“能办事”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但这条路也不轻松，它要求我们像做操作系统一样去做 AI：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设计结构，而不是只写 Prompt&lt;/li&gt;
&lt;li&gt;关注流程，而不是只看结果&lt;/li&gt;
&lt;li&gt;关注稳定性，而不是只看爆点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;AI 的下半场，不是“更聪明的模型”，而是“更可靠的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://arxiv.org/abs/2601.01743"&gt;https://arxiv.org/abs/2601.01743&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://arxiv.org/abs/2503.12687"&gt;https://arxiv.org/abs/2503.12687&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>