系统工程 on POOROPS

AI 代理可靠性正在成为 AI 落地的最大分水岭

poorops@163.com (poorops) — Tue, 17 Mar 2026 18:00:00 +0800

凌晨 2 点，我盯着监控面板里第 7 次失败的任务重跑。代理说它已经“完成”，日志却告诉我：它绕了一圈，最终仍然停在登录页。那一刻我突然明白：AI 代理最难的不是“聪明”，而是“可靠”。

过去一年，AI 代理几乎成了最热词汇。企业试点、产品集成、自动化团队——大家都在做“能执行”的 AI。但当热潮涌来，另一个词也被研究者频繁提起：可靠性（Reliability）。它像是把代理从“演示”推向“落地”的那条分水岭。

近期 arXiv 一篇论文《Towards a Science of AI Agent Reliability》迅速被讨论，核心指向一个问题：我们如何量化并提升 AI 代理的可靠性？今天就以此为线索，从效果、问题、方法到工程路径，讲清楚这场“可靠性之争”。

效果展示：为什么“可靠性”突然成了代理的第一指标？

当代理开始做“真实任务”，它的失败不是“回答错了”，而是“事情没办成”。比如：

表单自动填写到最后一步时卡住
任务链路中断，导致重复下单
在多步操作中偏离目标，最终不知所措

这些失败不是模型能力不够，而是 系统没有把“正确执行”变成一种稳定概率。

于是，“可靠性”成了真正的衡量标准：

完成率：任务能否顺利闭环
一致性：同样任务是否可重复成功
可恢复性：出错后是否能回到正确路径

这就是为什么“可靠性”正在替代“模型分数”，成为企业最关心的指标。

问题描述：为什么 AI 代理容易“不可靠”？

1) 规划与执行脱节

模型擅长规划，却经常在执行时走偏。比如它知道要点击“提交”，却点到“取消”。规划正确并不等于执行正确。

2) 状态管理薄弱

代理任务往往跨多步、多页面、多工具。只要状态记录不稳，就会出现 重复、漏做、死循环。

3) 环境变化不可控

页面更新、按钮位置变化、接口延迟，这些都在真实环境里持续发生。代理没有“抗扰能力”，就会不断失败。

4) 评测标准缺失

传统评测更关注“回答是否正确”，但代理的失败通常来自 执行链路。如果没有可靠的评测框架，就无法持续改进。

步骤教学：如何把 AI 代理做得更可靠？

要提升可靠性，关键在于 把“偶然成功”变成“可控成功”。以下是可执行的工程路径：

步骤 1：把任务拆成“可验证小目标”

每一步必须有明确的“完成判据”。

输入输出结构化
每步都能验证结果是否正确
失败能回滚或重试

核心原则：让模型每次只做对一小步。

步骤 2：引入“执行层自检”

执行动作后，必须自检：

是否真的完成了点击/填写/提交
结果是否与预期一致
如不一致，立即触发修正

这一步让代理从“盲做”变成“自校验”。

步骤 3：设计“恢复与容错机制”

可靠系统不是不出错，而是能恢复。

设置“最近成功点”
失败时回退到最近节点
为高风险操作设置二次确认

步骤 4：构建“任务完成率 + 失败类型”指标

可靠性必须被量化：

成功率、平均完成时间
失败类型（规划错/执行错/环境错）
任务成本（token + 时长）

只有指标清晰，系统才能持续改进。

步骤 5：引入“可靠性评测框架”

研究社区已经开始提出“代理可靠性”的评测方法。企业也需要内部基准：

固定任务集（基线）
多次重复跑，观察一致性
在真实场景中做小规模灰度测试

升华总结：AI 的下半场，比的是“系统可靠性”

过去的竞争是“谁的模型更强”，现在的竞争是“谁的代理更稳”。

当 AI 代理进入真实工作场景，可靠性决定了它是否值得被信任、是否能真正落地。可靠性不是一个附加属性，而是 AI 系统进入现实世界的通行证。

换句话说：

AI 的下半场，不是谁更聪明，而是谁更可靠。

参考链接：

arXiv｜Towards a Science of AI Agent Reliability：https://arxiv.org/abs/2602.16666
arXiv｜Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios：https://arxiv.org/html/2603.11214v1
POOROPS：https://www.poorops.com/

AI代理进化：从“会聊天”到“会操作电脑”的关键跃迁

poorops@163.com (poorops) — Mon, 16 Mar 2026 18:00:00 +0800

凌晨三点，我盯着一段失败日志发呆：模型答得很漂亮，步骤也写得清晰，但真正的任务一点没动。它能解释“怎么做”，却做不了。那一刻我意识到，AI 的热点已经从“会聊天”悄悄迁移到“会执行”。

如果说 2023–2024 是大模型“语言能力”的狂飙期，那么 2025–2026 关键词变成了 Agent（代理系统）与 computer use（用电脑完成任务）。这不是一个小改动，而是一次能力范式的迁移：从“生成内容”到“执行任务”。

下面，我们用一条清晰的路径拆解这场跃迁：先看它带来的效果，再看它为何难，最后给出可落地的步骤。

效果展示：为什么“会操作电脑”的代理突然成了最大热点？

当代理系统引入 computer use（使用浏览器、点击按钮、填写表单、运行脚本）后，变化是肉眼可见的：

任务完成度跃升：不再只是“告诉你怎么做”，而是“直接把事情做完”。
执行链路更完整：搜索、整理、填写、确认、提交，一条链路贯通。
人力成本骤降：原来需要 5–10 分钟的重复动作，变成 30–60 秒的自动执行。

最典型的场景是：

运营发布：从选题→资料搜索→图片下载→排版→发布，流程可自动贯通。
客服闭环：不仅答疑，还能直接查询订单、修改地址、发起退款。
工程任务：修 bug 不再止于“建议修法”，而是能拉代码、跑测试、提交修复。

这背后的关键不是模型变聪明了，而是系统真正具备了“行动”的接口。AI 热点从“更强的模型”变成“更能办事的系统”。

问题描述：为什么代理系统很火，却仍然“不稳定”？

如果代理系统只是“多轮对话”，那它还不够强。真正能执行的代理，需要跨过三道门槛：

1) 规划与执行的“错位”

模型擅长讲清楚步骤，却容易在调用工具时走偏。它可能知道要点击哪里，却点错按钮；也可能知道该填什么，却填错位置。规划与执行之间存在天然鸿沟。

2) 任务状态难以追踪

代理系统要持续记住“已经做了什么”“下一步该做什么”。一旦没有稳定的状态管理，系统就会重复动作、漏做步骤，甚至陷入循环。

3) 安全与可控性不足

当代理真正能“操作电脑”时，风险也同步放大：

它能发送邮件，也可能误发；
它能执行脚本，也可能误删；
它能下单，也可能下错。

行动能力越强，系统工程就越必须“可控”。

这就是为什么代理系统同时“爆火”和“难落地”：它不只是模型，而是一套需要工程纪律的执行系统。

步骤教学：搭建一个“能办事、又可控”的 AI 代理系统

下面是一条可执行的工程路径，从零到可用，尽量减少“翻车”。

步骤 1：把任务拆成“可验证的小目标”

代理系统不是一次性输出，而是多步执行。核心是“每一步都可验证”。

输入输出格式清晰
每一步都有可检查的结果
失败可以回滚或重试

原则：让模型一次只做对一小步，而不是一次做对所有步。

步骤 2：用“规划器 + 执行器”的双层架构

不要让同一个模型既规划又执行。更稳妥的做法是：

规划器（Planner）：负责拆解任务、生成步骤
执行器（Executor）：负责调用工具、点击按钮、填表、运行脚本

这样可以降低“胡乱执行”的风险，也让系统更可控。必要时还能用更便宜的模型做执行层，控制成本。

步骤 3：为“工具调用”写一本“操作手册”

代理系统最容易出错的地方是工具调用。解决方式不是更聪明，而是更规范：

明确工具名称、用途、输入输出
规定失败条件与错误提示
设定频率限制与权限边界

你需要把工具变成“结构化能力清单”。模型不是在猜，而是在按说明书执行。

步骤 4：加入“失败恢复与自检机制”

可用的代理不是永远正确，而是能纠错：

每步执行后进行自检
失败时回滚到最近成功节点
关键动作增加二次验证（多模型或规则校验）

系统可靠性来自纠错能力，而不是一次成功。

步骤 5：引入“安全边界与审计日志”

当代理能操作电脑时，安全是硬性要求：

高风险动作需二次确认（付款、发送、删除）
敏感操作必须可追踪（审计日志）
权限最小化（只给它做需要的事）

这一步看似繁琐，但它是让代理从“实验品”进入“生产系统”的关键。

步骤 6：建立“任务完成率 + 成本曲线”

你需要把系统优化目标从“感觉好用”转为“指标可控”：

任务完成率（成功/失败）
平均成本（token + 时间）
失败类型分布（工具问题 vs 规划问题）

只要指标清晰，系统就能进入可迭代的优化闭环。

升华总结：AI 的下半场，是“系统能力”的竞争

过去的竞争是“谁的模型更强”，接下来的竞争是“谁的系统更稳”。代理系统与 computer use 的崛起告诉我们：AI 的价值不再只体现在“生成”，而在“行动”。

但行动的代价是工程复杂度：

你要设计结构，而不是只写 prompt
你要关注流程，而不是只盯结果
你要做可控系统，而不是堆更多参数

一句话总结：AI 的下半场，不是更聪明的模型，而是更可靠的执行系统。

参考链接：

MIT Technology Review｜Anthropic’s chief scientist on 5 ways agents will be even better in 2025：https://www.technologyreview.com/2025/01/11/1109909/anthropics-chief-scientist-on-5-ways-agents-will-be-even-better-in-2025/
arXiv｜A Comprehensive Review of AI Agents: Transforming Possibilities in Technology and Beyond：https://arxiv.org/html/2508.11957v1
POOROPS：https://www.poorops.com/

从 Aletheia 到科研代理：AI 开始自己做研究了吗？

poorops@163.com (poorops) — Sun, 15 Mar 2026 18:00:00 +0800

凌晨 1 点，实验室里只剩主机风扇的嗡鸣。研究生盯着一堆失败的实验日志，重新跑一轮、再改一行参数、再等一夜——这几乎是所有科研人的共同记忆。

而这个周末，AI 圈最热的一个词，开始指向“自己做研究的 AI”。Google DeepMind 近期被热议的 Aletheia 代理，把“从数学竞赛到自主科研”这件事推上了风口。它不再只是答题、写论文摘要，而是尝试用一套代理系统去完成真正的研究流程。

如果 AI 能“像研究员一样工作”，那是不是意味着科研方式会彻底改变？ 今天我们从 Aletheia 的话题出发，聊清楚一件事：科研代理不是科幻，而是一个正在成形的工程系统。

插图（封面）： 图源：Unsplash，可直接使用

效果展示：AI 从“解题”走向“研究流程”

过去我们看到的 AI 研究突破，大多集中在“单点能力”：

解数学题、写论文摘要、给出模型结构建议
生成一段代码、解释一篇论文

这些能力很强，但它们仍是“单次输出”。而 Aletheia 代表的趋势是：让 AI 代理把多步研究流程串起来。

从公开报道来看，Aletheia 试图做到：

明确研究目标（不是回答一个问题，而是探索一个未知问题）
自动检索已有成果（读论文、抓数据、识别缺口）
提出可验证假设（不是观点，而是能验证的结论）
设计实验或计算流程（从数据准备到训练/验证）
总结与复盘（给出下一步的研究计划）

如果这条链条能跑通，科研的“瓶颈”就不再只是算力，而是工程系统本身。

插图（流程图）： 图源：Unsplash，可直接使用

问题描述：为什么“科研代理”难，但又必须做？

科研代理听起来很酷，但现实中它比“写代码代理”还难，原因有三：

1) 研究的目标不清晰

研究不是“完成任务”，而是“探索未知”。很多问题没有标准答案，代理系统很容易陷入“自我确认”的循环——看似有结论，其实只是重复已知事实。

2) 验证成本极高

科研的验证不是“运行一个脚本”，而是实验设备、长周期计算、复杂数据标注。一个步骤的错误，可能意味着数天甚至数周的浪费。

3) 文献与实验之间是断裂的

模型可以读文献，但如何把文献里的方法落地到新的数据集、复现实验、迭代改进？这需要工程能力，而不仅是语言能力。

所以，科研代理的关键不是“更聪明的模型”，而是“更可靠的研究流程系统”。

步骤教学：如何搭建一个“能跑研究”的 AI 代理系统？

想让 AI 代理真的参与科研，你需要把“研究过程”拆成可执行的工程模块。下面给出一条可落地的路径。

步骤 1：把研究目标拆成可验证的小问题

不要让 AI 直接“做研究”，而是让它逐步完成“可验证的问题链”：

问题 A：该领域已有多少方法？（文献检索）
问题 B：现有方法的最大缺口是什么？（差距分析）
问题 C：提出一个最小可验证假设（MVP 假设）

原则：每一步必须有明确的验证方式。

步骤 2：构建“文献检索代理 + 证据抽取代理”

研究代理的第一层不是“发明新理论”，而是能可靠地读与整理已有知识。建议分层设计：

检索代理：用检索工具抓取最新论文、博文、报告
证据抽取代理：提取关键实验结论、数据与方法

这样能减少 AI 的“幻觉性总结”，让结果可追溯。

步骤 3：引入“实验管线模板”

科研代理最容易失败在“实验落地”。所以要建立可复用模板：

数据获取 → 清洗 → 划分
训练 → 验证 → 指标对比
结果可视化 → 结论生成

所有步骤要结构化，让代理可以自动调用并验证。

插图（实验管线示意）： 图源：Unsplash，可直接使用

步骤 4：加入“多代理协作 + 自检回路”

科研系统里最危险的不是错误，而是“错误没有被发现”。建议加一层：

研究员代理：提出假设
质疑代理：专门找漏洞、反例
审稿代理：用审稿视角评估结果

这能显著降低“自嗨式结论”的风险。

步骤 5：用“成本-收益曲线”评估价值

科研代理不是“越大越好”。要衡量：

任务完成率（是否能完成一次完整研究循环）
成本（算力、时间、人力）
价值（产出是否能真实推动研究进展）

没有这条曲线，科研代理就只会是“昂贵的玩具”。

升华总结：AI 科研代理真正改变的，是“研究的组织方式”

Aletheia 的话题之所以火，不只是因为它“能做研究”，而是因为它让我们看到一种可能：研究可以从“个体英雄主义”变成“系统工程”。

未来的研究可能是这样的：

人类定义问题与价值方向
代理系统完成文献调研、实验探索与结果复盘
人类只需要在关键节点做判断与验证

这不是让 AI 取代研究员，而是让研究员从“重复劳动”里解放出来，把精力放在真正重要的问题上。

一句话总结：AI 的下一波热点，不是更强的模型，而是能把“研究流程”跑起来的系统。

参考链接：