<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Computer Use on POOROPS</title><link>https://blog.20231106.xyz/tags/computer-use/</link><description>Recent content in Computer Use on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Mon, 16 Mar 2026 18:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/computer-use/index.xml" rel="self" type="application/rss+xml"/><item><title>AI代理进化：从“会聊天”到“会操作电脑”的关键跃迁</title><link>https://blog.20231106.xyz/posts/2026-03-16/ai-agents-computer-use/</link><pubDate>Mon, 16 Mar 2026 18:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-16/ai-agents-computer-use/</guid><description>&lt;p&gt;凌晨三点，我盯着一段失败日志发呆：模型答得很漂亮，步骤也写得清晰，但真正的任务一点没动。它能解释“怎么做”，却做不了。那一刻我意识到，&lt;strong&gt;AI 的热点已经从“会聊天”悄悄迁移到“会执行”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果说 2023–2024 是大模型“语言能力”的狂飙期，那么 2025–2026 关键词变成了 &lt;strong&gt;Agent（代理系统）与 computer use（用电脑完成任务）&lt;/strong&gt;。这不是一个小改动，而是一次能力范式的迁移：从“生成内容”到“执行任务”。&lt;/p&gt;
&lt;p&gt;下面，我们用一条清晰的路径拆解这场跃迁：先看它带来的效果，再看它为何难，最后给出可落地的步骤。&lt;/p&gt;
&lt;h2 id="效果展示为什么会操作电脑的代理突然成了最大热点"&gt;效果展示：为什么“会操作电脑”的代理突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;当代理系统引入 &lt;strong&gt;computer use&lt;/strong&gt;（使用浏览器、点击按钮、填写表单、运行脚本）后，变化是肉眼可见的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务完成度跃升&lt;/strong&gt;：不再只是“告诉你怎么做”，而是“直接把事情做完”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行链路更完整&lt;/strong&gt;：搜索、整理、填写、确认、提交，一条链路贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;人力成本骤降&lt;/strong&gt;：原来需要 5–10 分钟的重复动作，变成 30–60 秒的自动执行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的场景是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;运营发布&lt;/strong&gt;：从选题→资料搜索→图片下载→排版→发布，流程可自动贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;客服闭环&lt;/strong&gt;：不仅答疑，还能直接查询订单、修改地址、发起退款。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工程任务&lt;/strong&gt;：修 bug 不再止于“建议修法”，而是能拉代码、跑测试、提交修复。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这背后的关键不是模型变聪明了，而是系统真正具备了“行动”的接口。&lt;strong&gt;AI 热点从“更强的模型”变成“更能办事的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很火却仍然不稳定"&gt;问题描述：为什么代理系统很火，却仍然“不稳定”？&lt;/h2&gt;
&lt;p&gt;如果代理系统只是“多轮对话”，那它还不够强。真正能执行的代理，需要跨过三道门槛：&lt;/p&gt;
&lt;h3 id="1-规划与执行的错位"&gt;1) 规划与执行的“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长讲清楚步骤，却容易在调用工具时走偏。它可能知道要点击哪里，却点错按钮；也可能知道该填什么，却填错位置。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-任务状态难以追踪"&gt;2) 任务状态难以追踪&lt;/h3&gt;
&lt;p&gt;代理系统要持续记住“已经做了什么”“下一步该做什么”。一旦没有稳定的状态管理，系统就会重复动作、漏做步骤，甚至陷入循环。&lt;/p&gt;
&lt;h3 id="3-安全与可控性不足"&gt;3) 安全与可控性不足&lt;/h3&gt;
&lt;p&gt;当代理真正能“操作电脑”时，风险也同步放大：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它能发送邮件，也可能误发；&lt;/li&gt;
&lt;li&gt;它能执行脚本，也可能误删；&lt;/li&gt;
&lt;li&gt;它能下单，也可能下错。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;行动能力越强，系统工程就越必须“可控”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是为什么代理系统同时“爆火”和“难落地”：它不只是模型，而是一套需要工程纪律的执行系统。&lt;/p&gt;
&lt;h2 id="步骤教学搭建一个能办事又可控的-ai-代理系统"&gt;步骤教学：搭建一个“能办事、又可控”的 AI 代理系统&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的工程路径，从零到可用，尽量减少“翻车”。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是多步执行。核心是“每一步都可验证”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出格式清晰&lt;/li&gt;
&lt;li&gt;每一步都有可检查的结果&lt;/li&gt;
&lt;li&gt;失败可以回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：让模型一次只做对一小步，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2用规划器--执行器的双层架构"&gt;步骤 2：用“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;不要让同一个模型既规划又执行。更稳妥的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、生成步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、点击按钮、填表、运行脚本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以降低“胡乱执行”的风险，也让系统更可控。必要时还能用更便宜的模型做执行层，控制成本。&lt;/p&gt;
&lt;h3 id="步骤-3为工具调用写一本操作手册"&gt;步骤 3：为“工具调用”写一本“操作手册”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方是工具调用。解决方式不是更聪明，而是更规范：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确工具名称、用途、输入输出&lt;/li&gt;
&lt;li&gt;规定失败条件与错误提示&lt;/li&gt;
&lt;li&gt;设定频率限制与权限边界&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你需要把工具变成“结构化能力清单”。模型不是在猜，而是在按说明书执行。&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，我盯着一段失败日志发呆：模型答得很漂亮，步骤也写得清晰，但真正的任务一点没动。它能解释“怎么做”，却做不了。那一刻我意识到，&lt;strong&gt;AI 的热点已经从“会聊天”悄悄迁移到“会执行”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果说 2023–2024 是大模型“语言能力”的狂飙期，那么 2025–2026 关键词变成了 &lt;strong&gt;Agent（代理系统）与 computer use（用电脑完成任务）&lt;/strong&gt;。这不是一个小改动，而是一次能力范式的迁移：从“生成内容”到“执行任务”。&lt;/p&gt;
&lt;p&gt;下面，我们用一条清晰的路径拆解这场跃迁：先看它带来的效果，再看它为何难，最后给出可落地的步骤。&lt;/p&gt;
&lt;h2 id="效果展示为什么会操作电脑的代理突然成了最大热点"&gt;效果展示：为什么“会操作电脑”的代理突然成了最大热点？&lt;/h2&gt;
&lt;p&gt;当代理系统引入 &lt;strong&gt;computer use&lt;/strong&gt;（使用浏览器、点击按钮、填写表单、运行脚本）后，变化是肉眼可见的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务完成度跃升&lt;/strong&gt;：不再只是“告诉你怎么做”，而是“直接把事情做完”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行链路更完整&lt;/strong&gt;：搜索、整理、填写、确认、提交，一条链路贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;人力成本骤降&lt;/strong&gt;：原来需要 5–10 分钟的重复动作，变成 30–60 秒的自动执行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的场景是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;运营发布&lt;/strong&gt;：从选题→资料搜索→图片下载→排版→发布，流程可自动贯通。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;客服闭环&lt;/strong&gt;：不仅答疑，还能直接查询订单、修改地址、发起退款。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工程任务&lt;/strong&gt;：修 bug 不再止于“建议修法”，而是能拉代码、跑测试、提交修复。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这背后的关键不是模型变聪明了，而是系统真正具备了“行动”的接口。&lt;strong&gt;AI 热点从“更强的模型”变成“更能办事的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么代理系统很火却仍然不稳定"&gt;问题描述：为什么代理系统很火，却仍然“不稳定”？&lt;/h2&gt;
&lt;p&gt;如果代理系统只是“多轮对话”，那它还不够强。真正能执行的代理，需要跨过三道门槛：&lt;/p&gt;
&lt;h3 id="1-规划与执行的错位"&gt;1) 规划与执行的“错位”&lt;/h3&gt;
&lt;p&gt;模型擅长讲清楚步骤，却容易在调用工具时走偏。它可能知道要点击哪里，却点错按钮；也可能知道该填什么，却填错位置。&lt;strong&gt;规划与执行之间存在天然鸿沟&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-任务状态难以追踪"&gt;2) 任务状态难以追踪&lt;/h3&gt;
&lt;p&gt;代理系统要持续记住“已经做了什么”“下一步该做什么”。一旦没有稳定的状态管理，系统就会重复动作、漏做步骤，甚至陷入循环。&lt;/p&gt;
&lt;h3 id="3-安全与可控性不足"&gt;3) 安全与可控性不足&lt;/h3&gt;
&lt;p&gt;当代理真正能“操作电脑”时，风险也同步放大：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它能发送邮件，也可能误发；&lt;/li&gt;
&lt;li&gt;它能执行脚本，也可能误删；&lt;/li&gt;
&lt;li&gt;它能下单，也可能下错。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;行动能力越强，系统工程就越必须“可控”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是为什么代理系统同时“爆火”和“难落地”：它不只是模型，而是一套需要工程纪律的执行系统。&lt;/p&gt;
&lt;h2 id="步骤教学搭建一个能办事又可控的-ai-代理系统"&gt;步骤教学：搭建一个“能办事、又可控”的 AI 代理系统&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的工程路径，从零到可用，尽量减少“翻车”。&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成可验证的小目标"&gt;步骤 1：把任务拆成“可验证的小目标”&lt;/h3&gt;
&lt;p&gt;代理系统不是一次性输出，而是多步执行。核心是“每一步都可验证”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输入输出格式清晰&lt;/li&gt;
&lt;li&gt;每一步都有可检查的结果&lt;/li&gt;
&lt;li&gt;失败可以回滚或重试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;原则：让模型一次只做对一小步，而不是一次做对所有步。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2用规划器--执行器的双层架构"&gt;步骤 2：用“规划器 + 执行器”的双层架构&lt;/h3&gt;
&lt;p&gt;不要让同一个模型既规划又执行。更稳妥的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划器（Planner）&lt;/strong&gt;：负责拆解任务、生成步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行器（Executor）&lt;/strong&gt;：负责调用工具、点击按钮、填表、运行脚本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以降低“胡乱执行”的风险，也让系统更可控。必要时还能用更便宜的模型做执行层，控制成本。&lt;/p&gt;
&lt;h3 id="步骤-3为工具调用写一本操作手册"&gt;步骤 3：为“工具调用”写一本“操作手册”&lt;/h3&gt;
&lt;p&gt;代理系统最容易出错的地方是工具调用。解决方式不是更聪明，而是更规范：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确工具名称、用途、输入输出&lt;/li&gt;
&lt;li&gt;规定失败条件与错误提示&lt;/li&gt;
&lt;li&gt;设定频率限制与权限边界&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你需要把工具变成“结构化能力清单”。模型不是在猜，而是在按说明书执行。&lt;/p&gt;
&lt;h3 id="步骤-4加入失败恢复与自检机制"&gt;步骤 4：加入“失败恢复与自检机制”&lt;/h3&gt;
&lt;p&gt;可用的代理不是永远正确，而是能纠错：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每步执行后进行自检&lt;/li&gt;
&lt;li&gt;失败时回滚到最近成功节点&lt;/li&gt;
&lt;li&gt;关键动作增加二次验证（多模型或规则校验）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;系统可靠性来自纠错能力，而不是一次成功。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-5引入安全边界与审计日志"&gt;步骤 5：引入“安全边界与审计日志”&lt;/h3&gt;
&lt;p&gt;当代理能操作电脑时，安全是硬性要求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高风险动作需二次确认（付款、发送、删除）&lt;/li&gt;
&lt;li&gt;敏感操作必须可追踪（审计日志）&lt;/li&gt;
&lt;li&gt;权限最小化（只给它做需要的事）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步看似繁琐，但它是让代理从“实验品”进入“生产系统”的关键。&lt;/p&gt;
&lt;h3 id="步骤-6建立任务完成率--成本曲线"&gt;步骤 6：建立“任务完成率 + 成本曲线”&lt;/h3&gt;
&lt;p&gt;你需要把系统优化目标从“感觉好用”转为“指标可控”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务完成率（成功/失败）&lt;/li&gt;
&lt;li&gt;平均成本（token + 时间）&lt;/li&gt;
&lt;li&gt;失败类型分布（工具问题 vs 规划问题）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;只要指标清晰，系统就能进入可迭代的优化闭环。&lt;/p&gt;
&lt;h2 id="升华总结ai-的下半场是系统能力的竞争"&gt;升华总结：AI 的下半场，是“系统能力”的竞争&lt;/h2&gt;
&lt;p&gt;过去的竞争是“谁的模型更强”，接下来的竞争是“谁的系统更稳”。代理系统与 computer use 的崛起告诉我们：&lt;strong&gt;AI 的价值不再只体现在“生成”，而在“行动”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但行动的代价是工程复杂度：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你要设计结构，而不是只写 prompt&lt;/li&gt;
&lt;li&gt;你要关注流程，而不是只盯结果&lt;/li&gt;
&lt;li&gt;你要做可控系统，而不是堆更多参数&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;AI 的下半场，不是更聪明的模型，而是更可靠的执行系统。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MIT Technology Review｜Anthropic’s chief scientist on 5 ways agents will be even better in 2025：https://www.technologyreview.com/2025/01/11/1109909/anthropics-chief-scientist-on-5-ways-agents-will-be-even-better-in-2025/&lt;/li&gt;
&lt;li&gt;arXiv｜A Comprehensive Review of AI Agents: Transforming Possibilities in Technology and Beyond：https://arxiv.org/html/2508.11957v1&lt;/li&gt;
&lt;li&gt;POOROPS：https://www.poorops.com/&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>