<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>智能体 on POOROPS</title><link>https://blog.20231106.xyz/tags/%E6%99%BA%E8%83%BD%E4%BD%93/</link><description>Recent content in 智能体 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Thu, 09 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/%E6%99%BA%E8%83%BD%E4%BD%93/index.xml" rel="self" type="application/rss+xml"/><item><title>从工具到协作体：AI Agents 如何成为 2026 年最热技术路线</title><link>https://blog.20231106.xyz/posts/2026-04-09/ai-agents-hot-2026/</link><pubDate>Thu, 09 Apr 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-04-09/ai-agents-hot-2026/</guid><description>&lt;p&gt;凌晨三点，我盯着一条失败的流水线报告发呆。日志里写着：数据抽取成功、结构化失败、后处理卡死。放在过去，我只会加一个 if-else，再推一次。但那天我突然意识到：**我们需要的不是“更聪明的工具”，而是“会协作的数字同事”。**它应该能感知任务目标、拆解步骤、调用工具、遇到问题再自我修正，而不是等我像打游戏一样逐条指令输入。&lt;/p&gt;
&lt;p&gt;这也是为什么 2026 年的“AI 热点”几乎被同一个词刷屏：&lt;strong&gt;AI Agents（智能体）&lt;/strong&gt;。从大厂公告、学术综述到工程团队的实践路线，大家都在把“单次对话的模型”转成“能执行、能协作、能负责结果”的系统。AI 不只是回答问题，而是要&lt;strong&gt;对结果负责&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;本文按“效果展示 → 问题描述 → 步骤教学 → 升华总结”的结构，讲清楚 AI Agents 为什么成为热点、它解决什么问题、怎么一步步落地，以及它为什么会成为下一阶段 AI 工程化的核心能力。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当-ai-不再只是回答者"&gt;效果展示：当 AI 不再只是“回答者”&lt;/h2&gt;
&lt;p&gt;在传统的 LLM 应用里，模型更像“高效的回答者”：你问它，它答你；你让它写一段，它就写一段。但 Agent 的目标是“完成任务”，它会：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;主动拆解任务&lt;/strong&gt;：接到一个复杂目标（例如“生成周报并发布到网站”），会把任务拆成搜索、提炼、撰写、校对、发布等子步骤。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多工具协作&lt;/strong&gt;：自动调用搜索、数据库、API、代码执行、版本控制等工具，不需要人类逐步指挥。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自我检查与回溯&lt;/strong&gt;：步骤执行失败时，会识别失败原因、替换策略，甚至回退并重新规划。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;将结果输出成“可交付物”&lt;/strong&gt;：不是一段文本，而是一个文件、一条工单、一段可运行代码，或一个上线后的结果。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这种体验，像是你给了 AI 一个目标，然后它真的“完成了工作”。这正是 Agent 热潮的核心驱动力：&lt;strong&gt;从“会说话的模型”变成“会干活的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么单模型不够了"&gt;问题描述：为什么“单模型”不够了？&lt;/h2&gt;
&lt;p&gt;AI Agents 之所以在 2026 年成为最热方向，背后有三类现实问题：&lt;/p&gt;
&lt;h3 id="1-单模型无法覆盖复杂流程"&gt;1) 单模型无法覆盖复杂流程&lt;/h3&gt;
&lt;p&gt;真实任务不是“一个问题一个答案”，而是流程化工作。例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;产品调研 → 资料搜集 → 观点提炼 → 产出文档 → 版本控制&lt;/li&gt;
&lt;li&gt;数据清洗 → 特征构建 → 训练 → 评估 → 监控 → 复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些流程需要多步决策、多工具调用、跨系统操作，单一模型无法独立完成。&lt;/p&gt;
&lt;h3 id="2-可控性不足产出不可验证"&gt;2) 可控性不足，产出不可验证&lt;/h3&gt;
&lt;p&gt;单模型回答很“顺滑”，但缺少可验证路径。你不知道它引用了什么、用了哪些数据、是否执行了检查。Agent 需要把“过程透明化”，让每一步可追踪、可审计。&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，我盯着一条失败的流水线报告发呆。日志里写着：数据抽取成功、结构化失败、后处理卡死。放在过去，我只会加一个 if-else，再推一次。但那天我突然意识到：**我们需要的不是“更聪明的工具”，而是“会协作的数字同事”。**它应该能感知任务目标、拆解步骤、调用工具、遇到问题再自我修正，而不是等我像打游戏一样逐条指令输入。&lt;/p&gt;
&lt;p&gt;这也是为什么 2026 年的“AI 热点”几乎被同一个词刷屏：&lt;strong&gt;AI Agents（智能体）&lt;/strong&gt;。从大厂公告、学术综述到工程团队的实践路线，大家都在把“单次对话的模型”转成“能执行、能协作、能负责结果”的系统。AI 不只是回答问题，而是要&lt;strong&gt;对结果负责&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;本文按“效果展示 → 问题描述 → 步骤教学 → 升华总结”的结构，讲清楚 AI Agents 为什么成为热点、它解决什么问题、怎么一步步落地，以及它为什么会成为下一阶段 AI 工程化的核心能力。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当-ai-不再只是回答者"&gt;效果展示：当 AI 不再只是“回答者”&lt;/h2&gt;
&lt;p&gt;在传统的 LLM 应用里，模型更像“高效的回答者”：你问它，它答你；你让它写一段，它就写一段。但 Agent 的目标是“完成任务”，它会：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;主动拆解任务&lt;/strong&gt;：接到一个复杂目标（例如“生成周报并发布到网站”），会把任务拆成搜索、提炼、撰写、校对、发布等子步骤。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多工具协作&lt;/strong&gt;：自动调用搜索、数据库、API、代码执行、版本控制等工具，不需要人类逐步指挥。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自我检查与回溯&lt;/strong&gt;：步骤执行失败时，会识别失败原因、替换策略，甚至回退并重新规划。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;将结果输出成“可交付物”&lt;/strong&gt;：不是一段文本，而是一个文件、一条工单、一段可运行代码，或一个上线后的结果。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这种体验，像是你给了 AI 一个目标，然后它真的“完成了工作”。这正是 Agent 热潮的核心驱动力：&lt;strong&gt;从“会说话的模型”变成“会干活的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么单模型不够了"&gt;问题描述：为什么“单模型”不够了？&lt;/h2&gt;
&lt;p&gt;AI Agents 之所以在 2026 年成为最热方向，背后有三类现实问题：&lt;/p&gt;
&lt;h3 id="1-单模型无法覆盖复杂流程"&gt;1) 单模型无法覆盖复杂流程&lt;/h3&gt;
&lt;p&gt;真实任务不是“一个问题一个答案”，而是流程化工作。例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;产品调研 → 资料搜集 → 观点提炼 → 产出文档 → 版本控制&lt;/li&gt;
&lt;li&gt;数据清洗 → 特征构建 → 训练 → 评估 → 监控 → 复盘&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些流程需要多步决策、多工具调用、跨系统操作，单一模型无法独立完成。&lt;/p&gt;
&lt;h3 id="2-可控性不足产出不可验证"&gt;2) 可控性不足，产出不可验证&lt;/h3&gt;
&lt;p&gt;单模型回答很“顺滑”，但缺少可验证路径。你不知道它引用了什么、用了哪些数据、是否执行了检查。Agent 需要把“过程透明化”，让每一步可追踪、可审计。&lt;/p&gt;
&lt;h3 id="3-需求从对话转向交付"&gt;3) 需求从“对话”转向“交付”&lt;/h3&gt;
&lt;p&gt;企业真正愿意为 AI 付费的场景，通常不是聊天，而是交付结果：报告、代码、页面、配置、上线。Agent 能够打通“生成 → 执行 → 交付”的闭环，是 ROI 真正上升的关键。&lt;/p&gt;
&lt;p&gt;所以，“Agent 化”不是概念炒作，而是&lt;strong&gt;需求驱动的工程必然&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学一条可落地的-ai-agent-工程路线"&gt;步骤教学：一条可落地的 AI Agent 工程路线&lt;/h2&gt;
&lt;p&gt;下面是一条在工程团队中可以落地的实践路径。目标不是追求概念完整，而是&lt;strong&gt;建立能稳定交付的智能体系统&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="步骤-1把目标转成可执行计划"&gt;步骤 1：把“目标”转成“可执行计划”&lt;/h3&gt;
&lt;p&gt;Agent 的第一步不是回答，而是&lt;strong&gt;规划&lt;/strong&gt;。你需要一个“计划生成器”，把目标拆成可执行的子任务。实践建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;明确目标的输入输出（例如输入：主题，输出：博客文件）&lt;/li&gt;
&lt;li&gt;任务拆解模板化（例如“检索 → 摘要 → 写作 → 校对 → 发布”）&lt;/li&gt;
&lt;li&gt;每个步骤定义“完成判定标准”（例如是否生成文件、是否通过校验）&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;关键：让模型输出“计划结构”，而不是直接写内容。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2建立工具调用层而不是提示词堆叠"&gt;步骤 2：建立“工具调用层”而不是“提示词堆叠”&lt;/h3&gt;
&lt;p&gt;Agent 最核心的能力不是提示词，而是工具调用。建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每个工具要有&lt;strong&gt;清晰输入输出契约&lt;/strong&gt;（JSON 或 DSL）&lt;/li&gt;
&lt;li&gt;工具调用要可追踪（日志、执行耗时、错误原因）&lt;/li&gt;
&lt;li&gt;设计“最小工具集”：搜索、文件写入、代码执行、数据库读写即可先跑通&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果工具调用可控，Agent 的行为就可控；反之，提示词堆叠只会带来不稳定。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-3加入执行-反思-重试的闭环"&gt;步骤 3：加入“执行-反思-重试”的闭环&lt;/h3&gt;
&lt;p&gt;单次执行无法保证成功，Agent 必须具备&lt;strong&gt;自我修正&lt;/strong&gt;能力。实践策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每步执行完做“快速检查”（输出是否符合格式/字数/约束）&lt;/li&gt;
&lt;li&gt;失败时输出“失败原因 + 替代方案”&lt;/li&gt;
&lt;li&gt;设置最大重试次数，避免无限循环&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本质上，这是把“软件工程的异常处理”移植到了 AI 工作流里。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-4引入记忆与上下文状态"&gt;步骤 4：引入“记忆与上下文状态”&lt;/h3&gt;
&lt;p&gt;Agent 不应该每一步都从零开始。你需要让它有“短期记忆”和“任务状态”。实现方式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把关键变量（目标、约束、已完成步骤）写入状态存储&lt;/li&gt;
&lt;li&gt;让模型每次调用都读取状态，形成“连续性”&lt;/li&gt;
&lt;li&gt;对长期知识建立“可更新知识库”而不是仅靠对话上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步决定 Agent 是否能“连续工作”，而不是“单次对话”。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-5从单智能体走向协作体"&gt;步骤 5：从“单智能体”走向“协作体”&lt;/h3&gt;
&lt;p&gt;当任务复杂时，一个 Agent 不够用。你可以引入多智能体架构：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划 Agent&lt;/strong&gt;：负责拆解任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行 Agent&lt;/strong&gt;：负责具体操作（写作、编码、调用工具）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;校验 Agent&lt;/strong&gt;：负责质量控制与审计&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种分工让系统更稳定、更可扩展，也更接近真实团队协作模式。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-6建立质量评估与交付标准"&gt;步骤 6：建立“质量评估与交付标准”&lt;/h3&gt;
&lt;p&gt;没有质量标准的 Agent 只能用来“玩”。工程落地必须有标准：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;输出格式标准（文件结构、元数据、命名规范）&lt;/li&gt;
&lt;li&gt;内容质量标准（字数、逻辑、引用来源）&lt;/li&gt;
&lt;li&gt;可回溯标准（日志、引用、工具调用记录）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步决定 Agent 能否进入生产环境。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结ai-的下一个拐点不是模型规模而是交付能力"&gt;升华总结：AI 的下一个拐点，不是模型规模，而是“交付能力”&lt;/h2&gt;
&lt;p&gt;AI Agents 成为 2026 年的热点，并不是因为它比大模型“更酷”，而是因为它满足了一个更现实的问题：&lt;strong&gt;人们不想要“会聊天的 AI”，而是想要“能交付的 AI”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当模型能力逐渐趋同，决定胜负的将是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;谁能让 AI 持续完成任务&lt;/li&gt;
&lt;li&gt;谁能让 AI 形成可复用流程&lt;/li&gt;
&lt;li&gt;谁能让 AI 产出可验证结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是一个模型能力的竞赛，而是一场系统工程的比赛。&lt;strong&gt;AI 的未来不是“模型更大”，而是“系统更完整”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果说上一阶段 AI 的关键词是“生成”，那么这一阶段真正的关键词是“交付”。而 AI Agents，就是这条道路上的核心引擎。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：arXiv｜A Comprehensive Review of AI Agents: Transforming Possibilities in Technology and Beyond：&lt;a href="https://arxiv.org/html/2508.11957v1"&gt;https://arxiv.org/html/2508.11957v1&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：Nature (npj Artificial Intelligence)｜AI-enabled scientific revolution in the age of generative AI: second NSF workshop report：&lt;a href="https://www.nature.com/articles/s44387-025-00018-6"&gt;https://www.nature.com/articles/s44387-025-00018-6&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：OpenAI｜OpenAI News：&lt;a href="https://openai.com/news/"&gt;https://openai.com/news/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：Poorops：&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>MolmoWeb：开源网页智能体把“可执行”带回社区</title><link>https://blog.20231106.xyz/posts/2026-03-26/molmoweb-open-web-agent/</link><pubDate>Thu, 26 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-26/molmoweb-open-web-agent/</guid><description>&lt;p&gt;凌晨的项目群里跳出一条链接：&lt;strong&gt;“Ai2 发布 MolmoWeb，开源网页智能体”&lt;/strong&gt;。我点开后，第一反应不是兴奋，而是松了一口气——过去一年里，网页智能体像一场“黑盒竞赛”，能力在提升，细节却被遮住。开发者只能看见演示视频，却摸不到训练数据、流程设计与评测细节。&lt;/p&gt;
&lt;p&gt;而 MolmoWeb 的出现，让这一切有了“可复盘”的可能。
那一刻我脑子里浮现的，是上周团队做的一个小实验：让智能体去后台系统批量更新商品标题。它能跑，但每隔十几次就会“卡壳”——弹窗广告、页面慢加载、按钮轻微改名……任何一个细节都足够让流程中断。&lt;/p&gt;
&lt;p&gt;当时我们只能一边录屏、一边手动修补。问题不在模型本身，而在缺乏“可复盘的工程栈”。MolmoWeb 的开源动作，像是给这种日常尴尬找到了出口：&lt;strong&gt;把问题摊开，让全社区一起修。&lt;/strong&gt;
它不仅给出模型权重，还附带训练数据、评测工具与工程流程——&lt;strong&gt;这是一次把“可执行”能力带回社区的动作&lt;/strong&gt;。本文按 &lt;strong&gt;效果展示 → 问题描述 → 步骤教学 → 升华总结&lt;/strong&gt; 的结构，拆解 MolmoWeb 为什么能成为 2026 年 3 月最值得关注的 AI 热点之一。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当网页智能体不再是黑盒演示"&gt;效果展示：当网页智能体不再是“黑盒演示”&lt;/h2&gt;
&lt;p&gt;Ai2（Allen Institute for AI）在官方博客宣布：&lt;strong&gt;MolmoWeb 是基于 Molmo 2 的开源视觉网页智能体&lt;/strong&gt;，提供 4B/8B 两个模型规模，并同步开放了权重、训练数据、评测与工具链。这意味着：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;模型权重开源&lt;/strong&gt;：开发者可以直接部署、微调或复现实验。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;训练数据开放&lt;/strong&gt;：包含大量人类网页操作轨迹，让“从人类操作到智能体执行”的学习过程可见。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评测与工具链公开&lt;/strong&gt;：让不同团队能在同一基线上对比，避免“只会演示不会落地”的问题。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;官方发布页中展示了 MolmoWeb 的核心视觉信息（截图来自 Ai2 官方博客）：&lt;/p&gt;
&lt;p&gt;
&lt;img src="https://blog.20231106.xyz/posts/2026-03-26/images/molmoweb-official.png" alt="MolmoWeb 官方发布页配图"&gt;&lt;/p&gt;
&lt;p&gt;这不仅是一个新模型的发布，更像是一次“完整工程堆栈”的开放。换句话说，&lt;strong&gt;MolmoWeb 给的是“可以复用的能力”，而不是“只能看不能改的神秘演示”&lt;/strong&gt;。
在这条发布里，有两个细节格外值得注意：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;不是只开源模型，而是开放“全流程”&lt;/strong&gt;：权重、数据、评测、工具链同时出现，意味着社区可以把能力“拆开看”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不是只追求单点效果，而是强调可复现&lt;/strong&gt;：当你能复刻训练过程，你就能判断“为什么它成功”，并把改进路径写进工程决策。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你做过网页自动化，就会理解这两点的意义——真正难的不是“能点到按钮”，而是“能稳定地反复点对按钮”。开源让稳定性变成可被讨论、可被修正的工程问题。&lt;/p&gt;
&lt;p&gt;更具体地说，MolmoWeb 的能力表现为：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以根据屏幕截图规划下一步操作（点击、输入、滚动）。&lt;/li&gt;
&lt;li&gt;可以处理多步骤网页任务，比如表单填写、信息检索、页面导航。&lt;/li&gt;
&lt;li&gt;能在通用网页环境中复用，不需要为每个网站写 API 适配层。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在当前“Agent 竞赛”里，&lt;strong&gt;真正稀缺的不是演示效果，而是可落地的工程化能力&lt;/strong&gt;。
想象这样一个场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你让智能体“帮我在三家供应商网站上比价并生成表格”。&lt;/li&gt;
&lt;li&gt;它进入网页、检索商品、抓取价格、填进表格，最后回传一份结构化结果。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;过去，这类任务要么需要定制爬虫，要么依赖脚本+RPA。现在，网页智能体让“自然语言任务”直接变成“可执行动作”。这一点看似简单，却意味着工程入口发生了变化。
MolmoWeb 把这件事推到了一个新的可验证层级。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么开源网页智能体突然变成热点"&gt;问题描述：为什么“开源网页智能体”突然变成热点？&lt;/h2&gt;
&lt;p&gt;过去一年，网页智能体成为大模型应用最火的方向之一，但也暴露出三个痛点：&lt;/p&gt;
&lt;h3 id="1能力强但不可复制"&gt;1）能力强，但不可复制&lt;/h3&gt;
&lt;p&gt;很多闭源系统只能通过演示视频感知能力，但开发者无法验证其训练过程与稳定性。&lt;strong&gt;结果是：大家看到了“能做”，却无法确定“能不能复用”。&lt;/strong&gt;&lt;/p&gt;</description><content>&lt;p&gt;凌晨的项目群里跳出一条链接：&lt;strong&gt;“Ai2 发布 MolmoWeb，开源网页智能体”&lt;/strong&gt;。我点开后，第一反应不是兴奋，而是松了一口气——过去一年里，网页智能体像一场“黑盒竞赛”，能力在提升，细节却被遮住。开发者只能看见演示视频，却摸不到训练数据、流程设计与评测细节。&lt;/p&gt;
&lt;p&gt;而 MolmoWeb 的出现，让这一切有了“可复盘”的可能。
那一刻我脑子里浮现的，是上周团队做的一个小实验：让智能体去后台系统批量更新商品标题。它能跑，但每隔十几次就会“卡壳”——弹窗广告、页面慢加载、按钮轻微改名……任何一个细节都足够让流程中断。&lt;/p&gt;
&lt;p&gt;当时我们只能一边录屏、一边手动修补。问题不在模型本身，而在缺乏“可复盘的工程栈”。MolmoWeb 的开源动作，像是给这种日常尴尬找到了出口：&lt;strong&gt;把问题摊开，让全社区一起修。&lt;/strong&gt;
它不仅给出模型权重，还附带训练数据、评测工具与工程流程——&lt;strong&gt;这是一次把“可执行”能力带回社区的动作&lt;/strong&gt;。本文按 &lt;strong&gt;效果展示 → 问题描述 → 步骤教学 → 升华总结&lt;/strong&gt; 的结构，拆解 MolmoWeb 为什么能成为 2026 年 3 月最值得关注的 AI 热点之一。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当网页智能体不再是黑盒演示"&gt;效果展示：当网页智能体不再是“黑盒演示”&lt;/h2&gt;
&lt;p&gt;Ai2（Allen Institute for AI）在官方博客宣布：&lt;strong&gt;MolmoWeb 是基于 Molmo 2 的开源视觉网页智能体&lt;/strong&gt;，提供 4B/8B 两个模型规模，并同步开放了权重、训练数据、评测与工具链。这意味着：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;模型权重开源&lt;/strong&gt;：开发者可以直接部署、微调或复现实验。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;训练数据开放&lt;/strong&gt;：包含大量人类网页操作轨迹，让“从人类操作到智能体执行”的学习过程可见。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评测与工具链公开&lt;/strong&gt;：让不同团队能在同一基线上对比，避免“只会演示不会落地”的问题。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;官方发布页中展示了 MolmoWeb 的核心视觉信息（截图来自 Ai2 官方博客）：&lt;/p&gt;
&lt;p&gt;
&lt;img src="https://blog.20231106.xyz/posts/2026-03-26/images/molmoweb-official.png" alt="MolmoWeb 官方发布页配图"&gt;&lt;/p&gt;
&lt;p&gt;这不仅是一个新模型的发布，更像是一次“完整工程堆栈”的开放。换句话说，&lt;strong&gt;MolmoWeb 给的是“可以复用的能力”，而不是“只能看不能改的神秘演示”&lt;/strong&gt;。
在这条发布里，有两个细节格外值得注意：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;不是只开源模型，而是开放“全流程”&lt;/strong&gt;：权重、数据、评测、工具链同时出现，意味着社区可以把能力“拆开看”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不是只追求单点效果，而是强调可复现&lt;/strong&gt;：当你能复刻训练过程，你就能判断“为什么它成功”，并把改进路径写进工程决策。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你做过网页自动化，就会理解这两点的意义——真正难的不是“能点到按钮”，而是“能稳定地反复点对按钮”。开源让稳定性变成可被讨论、可被修正的工程问题。&lt;/p&gt;
&lt;p&gt;更具体地说，MolmoWeb 的能力表现为：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以根据屏幕截图规划下一步操作（点击、输入、滚动）。&lt;/li&gt;
&lt;li&gt;可以处理多步骤网页任务，比如表单填写、信息检索、页面导航。&lt;/li&gt;
&lt;li&gt;能在通用网页环境中复用，不需要为每个网站写 API 适配层。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在当前“Agent 竞赛”里，&lt;strong&gt;真正稀缺的不是演示效果，而是可落地的工程化能力&lt;/strong&gt;。
想象这样一个场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你让智能体“帮我在三家供应商网站上比价并生成表格”。&lt;/li&gt;
&lt;li&gt;它进入网页、检索商品、抓取价格、填进表格，最后回传一份结构化结果。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;过去，这类任务要么需要定制爬虫，要么依赖脚本+RPA。现在，网页智能体让“自然语言任务”直接变成“可执行动作”。这一点看似简单，却意味着工程入口发生了变化。
MolmoWeb 把这件事推到了一个新的可验证层级。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么开源网页智能体突然变成热点"&gt;问题描述：为什么“开源网页智能体”突然变成热点？&lt;/h2&gt;
&lt;p&gt;过去一年，网页智能体成为大模型应用最火的方向之一，但也暴露出三个痛点：&lt;/p&gt;
&lt;h3 id="1能力强但不可复制"&gt;1）能力强，但不可复制&lt;/h3&gt;
&lt;p&gt;很多闭源系统只能通过演示视频感知能力，但开发者无法验证其训练过程与稳定性。&lt;strong&gt;结果是：大家看到了“能做”，却无法确定“能不能复用”。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="2工程落地成本高"&gt;2）工程落地成本高&lt;/h3&gt;
&lt;p&gt;没有开源堆栈，就意味着每个团队都要从零开始搭建：采集数据、定义任务、训练模型、评测系统。成本极高，速度极慢。&lt;/p&gt;
&lt;h3 id="3评测缺乏统一基线"&gt;3）评测缺乏统一基线&lt;/h3&gt;
&lt;p&gt;不同团队的评测方法各异，导致“效果好”难以对比。&lt;strong&gt;没有公开基线，就没有真正的工程共识。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;MolmoWeb 的价值就在这里：它把“网页智能体”从演示级别拉回到“可工程化复用”的路径。&lt;/p&gt;
&lt;h3 id="4闭源代理与开源代理的可控差异"&gt;4）闭源代理与开源代理的“可控差异”&lt;/h3&gt;
&lt;p&gt;闭源系统给的是“能力”，开源系统给的是“可控”。真正落地时，团队更关心：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;我能否知道模型为什么失败？&lt;/li&gt;
&lt;li&gt;我能否针对特定网站做微调？&lt;/li&gt;
&lt;li&gt;我能否在合规边界内运行它？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些问题如果无法回答，智能体就很难从试验走向生产。
它告诉社区：&lt;strong&gt;网页智能体不是神话，而是一条可以被验证、被扩展、被落地的工程链路。&lt;/strong&gt;
再往下看，你会发现网页智能体真正的复杂度来自三个“隐形成本”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;界面变化成本&lt;/strong&gt;：按钮位置、弹窗提示、字段名称随时会变，导致模型需要“视觉鲁棒性”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;网络环境成本&lt;/strong&gt;：加载延迟、登录状态失效，会把本来简单的流程变成多分支决策。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;合规与风险成本&lt;/strong&gt;：一旦智能体具备“执行权”，谁来承担错误操作的责任？这要求治理与审核机制先行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些成本过去被隐藏在演示背后，而 MolmoWeb 的价值在于让它们“可见、可测、可改”。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学如何把-molmoweb-用成可落地的网页智能体"&gt;步骤教学：如何把 MolmoWeb 用成可落地的网页智能体&lt;/h2&gt;
&lt;p&gt;如果你准备把 MolmoWeb 引入自己的产品或研究流程，建议遵循以下路径：&lt;/p&gt;
&lt;h3 id="第一步锁定场景避免万事皆可"&gt;第一步：锁定场景，避免“万事皆可”&lt;/h3&gt;
&lt;p&gt;MolmoWeb 擅长的是多步骤网页任务，但并不是所有网页场景都适合。优先选择：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;高重复、低风险&lt;/strong&gt;的后台操作（例如表单录入、信息查询）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;步骤清晰、可回滚&lt;/strong&gt;的流程&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;有明确成功/失败标准&lt;/strong&gt;的任务&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;场景越清晰，智能体成功率越高。&lt;/p&gt;
&lt;h3 id="第二步建立任务拆解模板"&gt;第二步：建立任务拆解模板&lt;/h3&gt;
&lt;p&gt;在正式调用前，先把任务拆成固定结构：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;输入目标（用户想完成什么）&lt;/li&gt;
&lt;li&gt;列出网页路径（需要进入哪些页面）&lt;/li&gt;
&lt;li&gt;定义关键动作（点击、输入、确认）&lt;/li&gt;
&lt;li&gt;设定成功标志（页面出现什么才算完成）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;MolmoWeb 的优势是“能做”，但想要它“稳定做”，就需要模板化路径。&lt;/p&gt;
&lt;h3 id="第三步引入人工确认闸门"&gt;第三步：引入人工确认闸门&lt;/h3&gt;
&lt;p&gt;任何涉及提交、付款、删除等高风险动作，必须插入人工确认。&lt;strong&gt;可执行能力越强，治理越关键。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;最简单的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;在关键步骤前输出截图&lt;/li&gt;
&lt;li&gt;列出即将执行的动作&lt;/li&gt;
&lt;li&gt;等待人工确认再执行&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="第四步建立失败样本库"&gt;第四步：建立失败样本库&lt;/h3&gt;
&lt;p&gt;网页智能体的失败往往是“细节偏航”：按钮变更、页面加载延迟、弹窗遮挡。建议建立失败样本库：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;记录失败页面截图&lt;/li&gt;
&lt;li&gt;记录模型的动作序列&lt;/li&gt;
&lt;li&gt;标注失败原因&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些失败样本会成为后续优化策略的燃料。&lt;/p&gt;
&lt;h3 id="第五步以流程资产思路复用"&gt;第五步：以“流程资产”思路复用&lt;/h3&gt;
&lt;p&gt;当任务跑通一次后，不要止步于“能用”。把流程沉淀成模板：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;固定化输入字段&lt;/li&gt;
&lt;li&gt;标准化步骤&lt;/li&gt;
&lt;li&gt;统一化输出格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样每一次成功执行都会变成“流程资产”，而不是一次性演示。&lt;/p&gt;
&lt;h3 id="第六步加入可解释日志与指标体系"&gt;第六步：加入“可解释日志”与指标体系&lt;/h3&gt;
&lt;p&gt;在真实场景中，老板关心的不只是“能不能做”，而是“可不可以追责、可不可以优化”。建议建立两类指标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;执行类指标&lt;/strong&gt;：成功率、平均耗时、人工干预次数。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;风险类指标&lt;/strong&gt;：高风险动作次数、被拦截次数、异常回滚次数。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同时要求智能体输出“可解释日志”：每一步操作、页面截图、动作理由。这样才能让智能体真正进入生产流程。&lt;/p&gt;
&lt;h3 id="第七步从单点任务过渡到任务链"&gt;第七步：从“单点任务”过渡到“任务链”&lt;/h3&gt;
&lt;p&gt;网页智能体的价值，不止是完成一个动作，而是把多个动作串成链：检索 → 填写 → 提交 → 归档。&lt;/p&gt;
&lt;p&gt;如果你能把任务链沉淀为模板，就能让智能体成为“业务流程的执行模块”，而不是“单次演示工具”。&lt;/p&gt;
&lt;h3 id="第八步做好权限与身份隔离"&gt;第八步：做好“权限与身份隔离”&lt;/h3&gt;
&lt;p&gt;智能体能操作网页之后，&lt;strong&gt;账号体系就是安全底座&lt;/strong&gt;。建议：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;为智能体创建专用账号（权限最小化）&lt;/li&gt;
&lt;li&gt;所有关键动作记录日志并保留截图&lt;/li&gt;
&lt;li&gt;对高频操作进行限流，避免“暴力点击”触发风控&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="第九步把人类意图写成清晰约束"&gt;第九步：把“人类意图”写成清晰约束&lt;/h3&gt;
&lt;p&gt;不少失败来自“需求描述过于模糊”。把任务描述写成约束条件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;允许访问哪些页面&lt;/li&gt;
&lt;li&gt;只能修改哪些字段&lt;/li&gt;
&lt;li&gt;遇到异常时如何暂停&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这会显著减少智能体的“随意性”。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结开源让可执行变成集体资产"&gt;升华总结：开源让“可执行”变成集体资产&lt;/h2&gt;
&lt;p&gt;网页智能体的竞争焦点从来不是“谁的演示更炫”，而是&lt;strong&gt;谁能让能力真正可复用、可验证、可工程化&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;MolmoWeb 的意义在于：它把“网页智能体”从黑盒状态拉回到开源社区，让开发者可以拆解、改进、复用。这让智能体不再是少数大公司的专利，而变成一种&lt;strong&gt;可以被集体迭代的工程能力&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;当一项能力被开源，它的价值不只是“能用”，而是“能被更多人扩展”。这就是 MolmoWeb 成为热点的原因：它不是一个新模型的发布，而是一次&lt;strong&gt;智能体工程范式的开放&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;再看大背景：过去两年，智能体生态一直卡在一个悖论——&lt;strong&gt;模型越来越强，但落地越来越难&lt;/strong&gt;。原因不是能力不足，而是“缺乏可控的工程路径”。MolmoWeb 把路径摊开，意味着：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;研究者可以围绕公开数据构建更透明的评测体系；&lt;/li&gt;
&lt;li&gt;工程团队可以基于开源堆栈快速迭代；&lt;/li&gt;
&lt;li&gt;产品团队可以把“执行能力”纳入更长期的业务规划。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这让网页智能体从“热闹的演示”变成“可持续的生产力工程”。&lt;/p&gt;
&lt;p&gt;下一阶段，我们会看到更多团队在 MolmoWeb 之上做两件事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;把网页智能体嵌入真实业务流程&lt;/strong&gt;，从内部系统开始自动化。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;把评测和治理标准化&lt;/strong&gt;，让“可靠执行”成为行业共识。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;真正的分水岭不是“模型会不会操作网页”，而是“整个社区能不能共同把它变成可复制的生产力”。MolmoWeb 的出现，让这条路径变得清晰可见。
最后想强调的是：网页智能体不是一个“取代人”的按钮，而是一种“把执行权转化为可编排能力”的技术。它会让组织重新思考：哪些流程值得自动化？哪些动作必须留给人？在这个过程中，&lt;strong&gt;治理与透明度会比纯粹的模型能力更重要&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：Ai2 官方博客《MolmoWeb: An open agent for automating web tasks》https://allenai.org/blog/molmoweb&lt;/li&gt;
&lt;li&gt;来源：GeekWire《Ai2 releases open-source web agent to rival closed systems from OpenAI, Google, and Anthropic》https://www.geekwire.com/2026/ai2-releases-open-source-web-agent-to-rival-closed-systems-from-openai-google-and-anthropic/&lt;/li&gt;
&lt;li&gt;来源：PoorOps &lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;图片来源&lt;/strong&gt;：Ai2 官方博客《MolmoWeb: An open agent for automating web tasks》https://allenai.org/blog/molmoweb&lt;/p&gt;</content></item><item><title>Claude Sonnet 4.6：AI 电脑操作迈过实用门槛</title><link>https://blog.20231106.xyz/posts/2026-03-25/claude-sonnet-4-6-computer-use/</link><pubDate>Wed, 25 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-25/claude-sonnet-4-6-computer-use/</guid><description>&lt;p&gt;凌晨 2 点，我盯着桌面上一排密密麻麻的应用窗口：日历、表格、招聘后台、文档系统。真正让人疲惫的不是“思考”，而是重复操作：复制、粘贴、切换、确认、保存。你可能也经历过这种夜晚——不是没能力，而是被流程耗到精疲力尽。&lt;/p&gt;
&lt;p&gt;就在这个时刻，AI 热点里蹦出了一个词：&lt;strong&gt;“computer use（电脑操作）”&lt;/strong&gt;。Anthropic 发布的 Claude Sonnet 4.6，把电脑操作能力推到一个新的实用层级：它不只是更聪明的聊天模型，而是能像人一样在屏幕上完成点击、输入与跨应用流程的执行者。&lt;/p&gt;
&lt;p&gt;这不是噱头，而是 AI 进入真实工作流的关键节点。本文将按清晰结构展开：&lt;strong&gt;效果展示 → 问题描述 → 步骤教学 → 升华总结&lt;/strong&gt;，带你看清这件事真正的价值。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示从文本助手到桌面执行者"&gt;效果展示：从“文本助手”到“桌面执行者”&lt;/h2&gt;
&lt;p&gt;Anthropic 在官方公告中强调，Claude Sonnet 4.6 在多个维度取得提升，尤其突出“computer use”。这意味着：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;电脑操作能力显著提升&lt;/strong&gt;：官方明确表示，相比以往 Sonnet 模型，4.6 在电脑操作上有明显改进。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;任务能力跨过实用门槛&lt;/strong&gt;：过去需要 Opus 级别模型才能胜任的“真实办公室任务”，现在在 Sonnet 4.6 上也能完成。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长上下文带来稳定性&lt;/strong&gt;：1M token 上下文窗口（beta）让模型在更长流程中保持一致性，降低“走偏”概率。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;官方还特别指出，AI 过去需要为旧系统定制连接器，但&lt;strong&gt;能像人一样操作电脑的模型&lt;/strong&gt;，可以直接在屏幕上完成流程，绕过接口成本。这对大量“没有 API 的软件”是巨大突破。&lt;/p&gt;
&lt;p&gt;下面这张图来自 Anthropic 官方发布页（Sonnet 4.6 公告页），展示了这次发布的官方视觉信息：&lt;/p&gt;
&lt;p&gt;
&lt;img src="https://blog.20231106.xyz/posts/2026-03-25/claude-sonnet-4-6.png" alt="Claude Sonnet 4.6 官方配图"&gt;&lt;/p&gt;
&lt;p&gt;更关键的是，Anthropic 提到 OSWorld（电脑操作领域的标准基准）显示了模型的持续进步。换句话说，这不是孤立的营销，而是模型在“真实操作任务”上的能力积累。&lt;/p&gt;
&lt;p&gt;如果把它放进真实团队里，你会看到一个非常具体的变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;过去：模型能写“更新招聘表”的说明，但人还得打开系统、复制粘贴、逐格确认。&lt;/li&gt;
&lt;li&gt;现在：模型可以直接打开系统、定位字段、填入内容、保存，并在最后把变更结果回报给你。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种变化并不只是“节省时间”。它让 AI 能够跨越“建议 → 执行”的鸿沟，成为流程链条里真正的一环。&lt;strong&gt;这意味着 AI 开始具备“执行层”的能力&lt;/strong&gt;：不仅能告诉你怎么做，还能动手完成它。&lt;/p&gt;
&lt;p&gt;如果把它放在几个常见场景里，你会更直观地感受到差异：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;人力运营&lt;/strong&gt;：AI 直接在招聘系统里批量更新岗位信息，而不是只生成一份“更新建议”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;财务内控&lt;/strong&gt;：它能打开报销系统，核对字段并提交草稿，等待人工最终确认。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;市场协作&lt;/strong&gt;：它能把活动数据从多个后台拉到统一表格，并自动生成日报草稿。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更值得注意的是，这类能力正在把传统 RPA（规则驱动的自动化）和大模型结合起来：&lt;/p&gt;</description><content>&lt;p&gt;凌晨 2 点，我盯着桌面上一排密密麻麻的应用窗口：日历、表格、招聘后台、文档系统。真正让人疲惫的不是“思考”，而是重复操作：复制、粘贴、切换、确认、保存。你可能也经历过这种夜晚——不是没能力，而是被流程耗到精疲力尽。&lt;/p&gt;
&lt;p&gt;就在这个时刻，AI 热点里蹦出了一个词：&lt;strong&gt;“computer use（电脑操作）”&lt;/strong&gt;。Anthropic 发布的 Claude Sonnet 4.6，把电脑操作能力推到一个新的实用层级：它不只是更聪明的聊天模型，而是能像人一样在屏幕上完成点击、输入与跨应用流程的执行者。&lt;/p&gt;
&lt;p&gt;这不是噱头，而是 AI 进入真实工作流的关键节点。本文将按清晰结构展开：&lt;strong&gt;效果展示 → 问题描述 → 步骤教学 → 升华总结&lt;/strong&gt;，带你看清这件事真正的价值。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示从文本助手到桌面执行者"&gt;效果展示：从“文本助手”到“桌面执行者”&lt;/h2&gt;
&lt;p&gt;Anthropic 在官方公告中强调，Claude Sonnet 4.6 在多个维度取得提升，尤其突出“computer use”。这意味着：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;电脑操作能力显著提升&lt;/strong&gt;：官方明确表示，相比以往 Sonnet 模型，4.6 在电脑操作上有明显改进。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;任务能力跨过实用门槛&lt;/strong&gt;：过去需要 Opus 级别模型才能胜任的“真实办公室任务”，现在在 Sonnet 4.6 上也能完成。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长上下文带来稳定性&lt;/strong&gt;：1M token 上下文窗口（beta）让模型在更长流程中保持一致性，降低“走偏”概率。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;官方还特别指出，AI 过去需要为旧系统定制连接器，但&lt;strong&gt;能像人一样操作电脑的模型&lt;/strong&gt;，可以直接在屏幕上完成流程，绕过接口成本。这对大量“没有 API 的软件”是巨大突破。&lt;/p&gt;
&lt;p&gt;下面这张图来自 Anthropic 官方发布页（Sonnet 4.6 公告页），展示了这次发布的官方视觉信息：&lt;/p&gt;
&lt;p&gt;
&lt;img src="https://blog.20231106.xyz/posts/2026-03-25/claude-sonnet-4-6.png" alt="Claude Sonnet 4.6 官方配图"&gt;&lt;/p&gt;
&lt;p&gt;更关键的是，Anthropic 提到 OSWorld（电脑操作领域的标准基准）显示了模型的持续进步。换句话说，这不是孤立的营销，而是模型在“真实操作任务”上的能力积累。&lt;/p&gt;
&lt;p&gt;如果把它放进真实团队里，你会看到一个非常具体的变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;过去：模型能写“更新招聘表”的说明，但人还得打开系统、复制粘贴、逐格确认。&lt;/li&gt;
&lt;li&gt;现在：模型可以直接打开系统、定位字段、填入内容、保存，并在最后把变更结果回报给你。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种变化并不只是“节省时间”。它让 AI 能够跨越“建议 → 执行”的鸿沟，成为流程链条里真正的一环。&lt;strong&gt;这意味着 AI 开始具备“执行层”的能力&lt;/strong&gt;：不仅能告诉你怎么做，还能动手完成它。&lt;/p&gt;
&lt;p&gt;如果把它放在几个常见场景里，你会更直观地感受到差异：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;人力运营&lt;/strong&gt;：AI 直接在招聘系统里批量更新岗位信息，而不是只生成一份“更新建议”。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;财务内控&lt;/strong&gt;：它能打开报销系统，核对字段并提交草稿，等待人工最终确认。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;市场协作&lt;/strong&gt;：它能把活动数据从多个后台拉到统一表格，并自动生成日报草稿。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更值得注意的是，这类能力正在把传统 RPA（规则驱动的自动化）和大模型结合起来：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;RPA 擅长固定流程，但对变化无能为力。&lt;/li&gt;
&lt;li&gt;大模型擅长理解语义，但过去缺少执行手。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;电脑操作能力把两者连在一起，让“理解 + 执行”成为一个闭环。这是推动 agentic AI 真正走进办公室的关键一步。&lt;/p&gt;
&lt;p&gt;此外，这一代 Sonnet 4.6 的意义还在于“可扩展性”：它不是为某一个业务定制的工具，而是一个&lt;strong&gt;可以跨系统迁移的通用执行能力&lt;/strong&gt;。当模型的电脑操作变得可靠，企业不必为每个系统都写一套 API 或 RPA 流程，这会显著降低自动化成本。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么电脑操作比聊天更重要"&gt;问题描述：为什么“电脑操作”比聊天更重要？&lt;/h2&gt;
&lt;p&gt;很多人会问：模型已经很聪明了，为什么还需要“电脑操作”？原因很现实：&lt;strong&gt;真实工作流不在聊天框里，而在 UI 的海洋中。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="1工作流被界面分割"&gt;1）工作流被界面分割&lt;/h3&gt;
&lt;p&gt;企业系统、内部后台、旧版工具，几乎都以 UI 为入口。没有电脑操作能力，AI 只能停留在“建议层”，无法真正完成任务。&lt;/p&gt;
&lt;h3 id="2api-不可能覆盖所有系统"&gt;2）API 不可能覆盖所有系统&lt;/h3&gt;
&lt;p&gt;要让 AI 参与一个旧系统流程，过去必须写接口，这成本极高。能“像人一样操作电脑”的模型，让 AI 绕过接口限制，直接进入现场。&lt;/p&gt;
&lt;h3 id="3流程是连续链条而非一次输出"&gt;3）流程是连续链条而非一次输出&lt;/h3&gt;
&lt;p&gt;真实操作往往是多步骤：打开页面 → 登录 → 选择菜单 → 填表 → 保存。中间任何一步偏航，就会导致任务失败。电脑操作能力意味着 AI 可以保持连续执行。&lt;/p&gt;
&lt;h3 id="4反馈闭环决定可靠性"&gt;4）反馈闭环决定可靠性&lt;/h3&gt;
&lt;p&gt;真正完成任务的标准，不是“写出答案”，而是“执行成功”。电脑操作让 AI 能看到屏幕反馈，从而形成闭环。&lt;/p&gt;
&lt;p&gt;因此，电脑操作不是一个锦上添花的功能，而是 AI 走向“可交付生产力”的核心门槛。&lt;/p&gt;
&lt;p&gt;在真正落地前，还需要注意一个现实：**电脑操作能力越强，治理要求就越高。**许多团队会忽略“组织层面”的准备，结果不是 AI 不好用，而是流程没有接住它。你需要提前准备三类“底座能力”。&lt;/p&gt;
&lt;h3 id="小结落地前的三项准备"&gt;小结：落地前的三项准备&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;权限治理&lt;/strong&gt;：为 AI 准备专用账号，权限要“够用但不过度”，避免它误触高风险动作。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可观测性&lt;/strong&gt;：要求 AI 输出操作日志（截图、步骤列表、结果确认），让每一次动作都可追溯。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可回滚机制&lt;/strong&gt;：流程中预留“撤销路径”，比如表格版本回退、发布前灰度、关键字段变更记录。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这三项准备看起来不直接“提升效率”，但它们决定了电脑操作能力能否长期稳定运行。没有治理，就没有生产力。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学把电脑操作能力转化为可用流程"&gt;步骤教学：把“电脑操作能力”转化为可用流程&lt;/h2&gt;
&lt;p&gt;如果你想在团队中真正使用这类能力，可以参考以下路径。它强调“可控、可复核、可持续”。&lt;/p&gt;
&lt;h3 id="第一步从低风险高重复任务起步"&gt;第一步：从低风险高重复任务起步&lt;/h3&gt;
&lt;p&gt;适合起点的任务包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;批量更新表格字段&lt;/li&gt;
&lt;li&gt;归档会议纪要、整理会议记录&lt;/li&gt;
&lt;li&gt;将公开信息录入系统&lt;/li&gt;
&lt;li&gt;在后台批量更新文案或图片&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些任务的共同特征是：&lt;strong&gt;重复、可复核、风险低&lt;/strong&gt;，适合模型先积累“稳定性经验”。&lt;/p&gt;
&lt;p&gt;此外，可以在起步阶段强制让 AI “边做边解释”，例如每完成一步就口头或文本说明“我刚做了什么、下一步要做什么”。这不仅便于人类监督，也能减少模型迷失方向的概率。&lt;/p&gt;
&lt;h3 id="第二步给-ai-设定执行节拍"&gt;第二步：给 AI 设定“执行节拍”&lt;/h3&gt;
&lt;p&gt;让 AI 按固定节奏执行，避免随机游走：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;明确目标与输出&lt;/li&gt;
&lt;li&gt;规划步骤（列出要操作的页面/按钮）&lt;/li&gt;
&lt;li&gt;执行操作（逐步推进）&lt;/li&gt;
&lt;li&gt;输出结果（截图/日志）&lt;/li&gt;
&lt;li&gt;等待确认&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;节拍不是限制，而是稳定性。&lt;strong&gt;长流程的可靠执行靠的不是灵感，而是节奏。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第三步关键动作必须人工确认"&gt;第三步：关键动作必须人工确认&lt;/h3&gt;
&lt;p&gt;涉及提交、删除、支付、外发的动作必须触发确认。AI 能操作桌面之后，风险成倍放大。&lt;strong&gt;执行能力越强，安全阀越重要。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第四步建立失败样本库"&gt;第四步：建立“失败样本库”&lt;/h3&gt;
&lt;p&gt;任何失败都要记录：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;卡在什么步骤&lt;/li&gt;
&lt;li&gt;屏幕提示了什么&lt;/li&gt;
&lt;li&gt;如何恢复&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些失败样本是优化流程的指南针，长期积累后会形成“自动化知识库”。&lt;/p&gt;
&lt;h3 id="第五步建立人机协同的责任边界"&gt;第五步：建立人机协同的责任边界&lt;/h3&gt;
&lt;p&gt;现实中最可持续的模式是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI 执行“重复操作”&lt;/li&gt;
&lt;li&gt;人负责“关键判断与最终确认”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样能在效率和风险之间取得平衡，也让 AI 真正成为生产力伙伴，而不是“偶尔能用的 demo”。&lt;/p&gt;
&lt;h3 id="第六步建立流程模板库"&gt;第六步：建立“流程模板库”&lt;/h3&gt;
&lt;p&gt;电脑操作的价值，不只是“能做”，而是“可复用”。建议把验证过的流程沉淀成模板：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;标准化入口（任务描述模板、操作边界）&lt;/li&gt;
&lt;li&gt;固定化步骤（按钮路径、检查点、确认点）&lt;/li&gt;
&lt;li&gt;结果格式化（输出清单、异常提示、截图存档）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样做的好处是：团队可以在不同业务线快速复用，避免每次都从零开始。&lt;strong&gt;模板库是让 AI 规模化落地的关键基础设施。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第七步把结果纳入指标体系"&gt;第七步：把“结果”纳入指标体系&lt;/h3&gt;
&lt;p&gt;不要只看“完成与否”，而要跟踪：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;平均完成时长&lt;/li&gt;
&lt;li&gt;成功率与失败率&lt;/li&gt;
&lt;li&gt;人工干预次数&lt;/li&gt;
&lt;li&gt;单次流程成本&lt;/li&gt;
&lt;li&gt;自动化覆盖率（哪些流程已被纳入可执行清单）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些指标决定了 AI 是否真正进入生产流程，而不是停留在实验阶段。&lt;/p&gt;
&lt;p&gt;如果你把这些流程搭建起来，就会发现一个意外的结果：&lt;strong&gt;AI 不只是提高效率，它也在改变组织的协作结构。&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;过去：很多团队靠“人的记忆”和“口口相传”来维持流程。&lt;/li&gt;
&lt;li&gt;现在：流程被写成“可执行的脚本 + 可解释的步骤”，组织开始拥有“流程记忆”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着，即便某个关键员工离开，流程也不会完全断裂；即便业务增长，流程也更容易被复制扩展。&lt;strong&gt;电脑操作能力让“隐性流程”变成了“显性资产”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当组织开始积累这些“流程资产”，它会逐渐形成一个新的竞争优势：&lt;strong&gt;流程的可复制性本身成为护城河&lt;/strong&gt;。这也是为什么“电脑操作能力”不是单点技术，而是组织效率升级的基础设施。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结真正的分水岭是执行权"&gt;升华总结：真正的分水岭是“执行权”&lt;/h2&gt;
&lt;p&gt;过去几年，AI 的突破大多发生在“语言层”，我们习惯了它能写、能总结、能回答。但这些能力终究是“建议层”。&lt;/p&gt;
&lt;p&gt;**电脑操作意味着执行权的转移。**当 AI 可以在屏幕上完成步骤，它就开始成为流程的执行者，而不是仅仅是一个顾问。&lt;/p&gt;
&lt;p&gt;Claude Sonnet 4.6 的意义，不在于它又多聪明了一点，而在于它把“电脑操作能力”推过实用门槛，让 AI 开始真正进入真实工作流。它让我们第一次清晰地看到：AI 可以把“理解语言”与“执行动作”连成一条链路。&lt;/p&gt;
&lt;p&gt;未来的竞争点不再只是“模型更大”，而是：&lt;strong&gt;谁能让 AI 更稳定、更可控、更可靠地完成任务&lt;/strong&gt;。能做到这一点的组织，将拥有更快的执行速度、更低的运营成本、更强的流程复制能力。&lt;/p&gt;
&lt;h2 id="简而言之sonnet-46-带来的不是一项孤立功能而是一种新的工作方式当-ai-真正能操作电脑工作流的重心将从人执行ai辅助转向人设计ai执行这就是它之所以成为热点的核心原因"&gt;简而言之，Sonnet 4.6 带来的不是一项孤立功能，而是一种“新的工作方式”。当 AI 真正能操作电脑，工作流的重心将从“人执行、AI辅助”转向“人设计、AI执行”。这就是它之所以成为热点的核心原因。&lt;/h2&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：Anthropic 官方博客《Introducing Claude Sonnet 4.6》https://www.anthropic.com/news/claude-sonnet-4-6&lt;/li&gt;
&lt;li&gt;来源：Axios《Anthropic&amp;rsquo;s Claude Sonnet 4.6 is faster, cheaper》https://www.axios.com/2026/02/17/anthropic-new-claude-sonnet-faster-cheaper&lt;/li&gt;
&lt;li&gt;来源：PoorOps &lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;图片来源&lt;/strong&gt;：Anthropic 官方博客《Introducing Claude Sonnet 4.6》https://www.anthropic.com/news/claude-sonnet-4-6&lt;/p&gt;</content></item><item><title>AI代理爆发元年：从“能自动做”到“敢交给它”</title><link>https://blog.20231106.xyz/posts/2026-03-10/ai%E4%BB%A3%E7%90%86%E7%88%86%E5%8F%91%E5%85%83%E5%B9%B4%E4%BB%8E%E8%83%BD%E8%87%AA%E5%8A%A8%E5%81%9A%E5%88%B0%E6%95%A2%E4%BA%A4%E7%BB%99%E5%AE%83/</link><pubDate>Tue, 10 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-10/ai%E4%BB%A3%E7%90%86%E7%88%86%E5%8F%91%E5%85%83%E5%B9%B4%E4%BB%8E%E8%83%BD%E8%87%AA%E5%8A%A8%E5%81%9A%E5%88%B0%E6%95%A2%E4%BA%A4%E7%BB%99%E5%AE%83/</guid><description>&lt;p&gt;那天我在电梯里刷到一条新闻——“2026 年或成 AI 代理爆发元年”。原本只是顺手一看，结果在公司群里炸开了锅。有人兴奋地贴出截图：“这不就是我们一直想要的‘数字同事’吗？”也有人更谨慎：“Agent 真能上生产？还是又一次热闹的 Demo？”&lt;/p&gt;
&lt;p&gt;我想起前几周的一次通宵：一个“自动写周报+同步看板”的智能体在演示台上跑得飞快，但上线后却因为权限、流程、异常处理无法闭环，最终被降级成半自动工具。&lt;strong&gt;那一刻，我意识到“Agent 热度”的真正分水岭，不是模型更强，而是工程更稳。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;下面这篇文章，就从“爆发元年”的热度切入，拆解 AI 代理从“能自动做”到“敢交给它”的关键路径。&lt;/p&gt;
&lt;h2 id="效果展示ai-代理带来的不是更快而是更完整"&gt;效果展示：AI 代理带来的不是“更快”，而是“更完整”&lt;/h2&gt;
&lt;p&gt;相比传统自动化，AI 代理最大的变化在于：&lt;strong&gt;它不只执行单一指令，而是能理解目标、拆解步骤、调用工具、迭代优化&lt;/strong&gt;。这意味着它真正接近“数字同事”的角色：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;能跨系统协作&lt;/strong&gt;：从邮件、日历到项目管理工具，Agent 可以主动拉通流程；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能处理不确定性&lt;/strong&gt;：遇到异常会尝试替代方案，而不是直接失败；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能持续追踪目标&lt;/strong&gt;：任务不是一次性执行，而是以目标为中心的持续推进。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;当这些能力被组合起来，一个看似“简单”的业务流程就能被彻底重构——比如：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;过去要写日报：查数据 → 填模板 → 发群里&lt;/p&gt;
&lt;p&gt;现在：Agent 自动拉取数据 → 生成摘要 → 推送到对应频道 → 提醒负责人确认&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;不是简单“快一点”，而是“整条链条更完整、更可追踪”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么-ai-代理仍然卡在演示门槛"&gt;问题描述：为什么 AI 代理仍然卡在“演示门槛”？&lt;/h2&gt;
&lt;p&gt;热度之下，很多团队在落地时踩了同样的坑：&lt;/p&gt;
&lt;h3 id="1-任务太大agent-失控"&gt;1) 任务太大，Agent 失控&lt;/h3&gt;
&lt;p&gt;很多人把“流程”交给 Agent，却没有把“边界”交给系统。结果就是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一次对话里要完成十几步操作，失败就全盘重来；&lt;/li&gt;
&lt;li&gt;工具调用缺少校验，出现“误操作”风险；&lt;/li&gt;
&lt;li&gt;Agent 能做什么、不能做什么没有工程约束。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;“聪明”是第一步，“可控”才是走进生产的关键。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="2-工具链散乱无法复用"&gt;2) 工具链散乱，无法复用&lt;/h3&gt;
&lt;p&gt;Demo 阶段常见做法是“快速拼接脚本”。但一旦任务变多，问题立即暴露：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;接口输入输出不统一，无法编排；&lt;/li&gt;
&lt;li&gt;没有统一日志，难以排查问题；&lt;/li&gt;
&lt;li&gt;运行环境不可复现，新人接手成本极高。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一旦缺少可复用的工具链，Agent 就永远停留在“实验室”里。&lt;/p&gt;
&lt;h3 id="3-缺少运营视角无法长期跑"&gt;3) 缺少运营视角，无法长期跑&lt;/h3&gt;
&lt;p&gt;不少团队在上线后才发现：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;失败率、调用成本完全不可见；&lt;/li&gt;
&lt;li&gt;没有 KPI 也没有复盘机制；&lt;/li&gt;
&lt;li&gt;只要人员变动，项目就“死机”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Agent 不是“功能”，而是“持续运行的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学把-ai-代理做成敢交给它的生产系统"&gt;步骤教学：把 AI 代理做成“敢交给它”的生产系统&lt;/h2&gt;
&lt;p&gt;想让 Agent 走向生产，需要从“能做”升级到“能管”。这里给出一条可落地的四步路径：&lt;/p&gt;</description><content>&lt;p&gt;那天我在电梯里刷到一条新闻——“2026 年或成 AI 代理爆发元年”。原本只是顺手一看，结果在公司群里炸开了锅。有人兴奋地贴出截图：“这不就是我们一直想要的‘数字同事’吗？”也有人更谨慎：“Agent 真能上生产？还是又一次热闹的 Demo？”&lt;/p&gt;
&lt;p&gt;我想起前几周的一次通宵：一个“自动写周报+同步看板”的智能体在演示台上跑得飞快，但上线后却因为权限、流程、异常处理无法闭环，最终被降级成半自动工具。&lt;strong&gt;那一刻，我意识到“Agent 热度”的真正分水岭，不是模型更强，而是工程更稳。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;下面这篇文章，就从“爆发元年”的热度切入，拆解 AI 代理从“能自动做”到“敢交给它”的关键路径。&lt;/p&gt;
&lt;h2 id="效果展示ai-代理带来的不是更快而是更完整"&gt;效果展示：AI 代理带来的不是“更快”，而是“更完整”&lt;/h2&gt;
&lt;p&gt;相比传统自动化，AI 代理最大的变化在于：&lt;strong&gt;它不只执行单一指令，而是能理解目标、拆解步骤、调用工具、迭代优化&lt;/strong&gt;。这意味着它真正接近“数字同事”的角色：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;能跨系统协作&lt;/strong&gt;：从邮件、日历到项目管理工具，Agent 可以主动拉通流程；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能处理不确定性&lt;/strong&gt;：遇到异常会尝试替代方案，而不是直接失败；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能持续追踪目标&lt;/strong&gt;：任务不是一次性执行，而是以目标为中心的持续推进。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;当这些能力被组合起来，一个看似“简单”的业务流程就能被彻底重构——比如：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;过去要写日报：查数据 → 填模板 → 发群里&lt;/p&gt;
&lt;p&gt;现在：Agent 自动拉取数据 → 生成摘要 → 推送到对应频道 → 提醒负责人确认&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;不是简单“快一点”，而是“整条链条更完整、更可追踪”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么-ai-代理仍然卡在演示门槛"&gt;问题描述：为什么 AI 代理仍然卡在“演示门槛”？&lt;/h2&gt;
&lt;p&gt;热度之下，很多团队在落地时踩了同样的坑：&lt;/p&gt;
&lt;h3 id="1-任务太大agent-失控"&gt;1) 任务太大，Agent 失控&lt;/h3&gt;
&lt;p&gt;很多人把“流程”交给 Agent，却没有把“边界”交给系统。结果就是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一次对话里要完成十几步操作，失败就全盘重来；&lt;/li&gt;
&lt;li&gt;工具调用缺少校验，出现“误操作”风险；&lt;/li&gt;
&lt;li&gt;Agent 能做什么、不能做什么没有工程约束。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;“聪明”是第一步，“可控”才是走进生产的关键。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="2-工具链散乱无法复用"&gt;2) 工具链散乱，无法复用&lt;/h3&gt;
&lt;p&gt;Demo 阶段常见做法是“快速拼接脚本”。但一旦任务变多，问题立即暴露：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;接口输入输出不统一，无法编排；&lt;/li&gt;
&lt;li&gt;没有统一日志，难以排查问题；&lt;/li&gt;
&lt;li&gt;运行环境不可复现，新人接手成本极高。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一旦缺少可复用的工具链，Agent 就永远停留在“实验室”里。&lt;/p&gt;
&lt;h3 id="3-缺少运营视角无法长期跑"&gt;3) 缺少运营视角，无法长期跑&lt;/h3&gt;
&lt;p&gt;不少团队在上线后才发现：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;失败率、调用成本完全不可见；&lt;/li&gt;
&lt;li&gt;没有 KPI 也没有复盘机制；&lt;/li&gt;
&lt;li&gt;只要人员变动，项目就“死机”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Agent 不是“功能”，而是“持续运行的系统”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学把-ai-代理做成敢交给它的生产系统"&gt;步骤教学：把 AI 代理做成“敢交给它”的生产系统&lt;/h2&gt;
&lt;p&gt;想让 Agent 走向生产，需要从“能做”升级到“能管”。这里给出一条可落地的四步路径：&lt;/p&gt;
&lt;h3 id="step-1先把任务切成可控的最小单元"&gt;Step 1：先把任务切成“可控的最小单元”&lt;/h3&gt;
&lt;p&gt;与其让 Agent 一口气完成复杂任务，不如拆成可验证的步骤：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一步都要有明确输入/输出；&lt;/li&gt;
&lt;li&gt;每一步都能被独立回放；&lt;/li&gt;
&lt;li&gt;每一步失败都有降级方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;拆分的目的不是让流程更慢，而是让流程“可以被治理”。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="step-2建立统一工具链与调用规范"&gt;Step 2：建立统一工具链与调用规范&lt;/h3&gt;
&lt;p&gt;AI 代理最怕“散装工具”。你需要一个统一的工具层：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;标准化接口（统一参数与返回格式）；&lt;/li&gt;
&lt;li&gt;统一日志与追踪 ID；&lt;/li&gt;
&lt;li&gt;统一错误处理与重试策略。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样即便模型升级、任务变化，Agent 的底层执行仍然稳定。&lt;/p&gt;
&lt;h3 id="step-3引入权限与边界控制"&gt;Step 3：引入权限与边界控制&lt;/h3&gt;
&lt;p&gt;在生产场景里，Agent 的权限必须被工程化约束：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;分级权限（只读、可写、需确认）；&lt;/li&gt;
&lt;li&gt;关键操作设置双重验证；&lt;/li&gt;
&lt;li&gt;敏感数据脱敏或限制访问。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;边界不是限制 Agent，而是让它在安全范围内发挥最大价值。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="step-4把运营纳入设计"&gt;Step 4：把“运营”纳入设计&lt;/h3&gt;
&lt;p&gt;Agent 上线后，不是“跑起来就行”，而是“跑得下去”。你需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;关键指标可视化（成功率、成本、耗时）；&lt;/li&gt;
&lt;li&gt;定期复盘与优化（失败原因分析、工具替换）；&lt;/li&gt;
&lt;li&gt;模板化沉淀（可复用的任务流程）。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;当运营成为设计的一部分，Agent 才真正具备持续价值。&lt;/p&gt;
&lt;h2 id="升华总结ai-代理爆发的拐点不是能力而是可信度"&gt;升华总结：AI 代理爆发的拐点，不是能力，而是可信度&lt;/h2&gt;
&lt;p&gt;“2026 是 AI 代理爆发元年”并不只意味着模型更强，更意味着&lt;strong&gt;市场终于开始把 Agent 当作生产力，而不是演示玩具&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;真正的拐点是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从“能自动做”到“敢交给它”；&lt;/li&gt;
&lt;li&gt;从“任务脚本”到“可治理系统”；&lt;/li&gt;
&lt;li&gt;从“热度驱动”到“可信度驱动”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果说过去的 AI 让我们看到“可能性”，那么接下来的时代，需要我们回答一个更重要的问题：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;我们是否敢把关键流程交给它？&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;答案不在模型，而在工程。&lt;strong&gt;AI 代理爆发的真正根基，是可控、可追踪、可持续。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href="https://finance.sina.com.cn/stock/hkstock/hkstocknews/2026-03-04/doc-inhpusks6942302.shtml"&gt;https://finance.sina.com.cn/stock/hkstock/hkstocknews/2026-03-04/doc-inhpusks6942302.shtml&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://36kr.com/p/3705442276897280"&gt;https://36kr.com/p/3705442276897280&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;</content></item><item><title>多智能体协作成 2026 年 AI 热点：从工具到可交付系统</title><link>https://blog.20231106.xyz/posts/2026-03-06/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%8D%8F%E4%BD%9C%E6%88%902026%E5%B9%B4ai%E7%83%AD%E7%82%B9%E4%BB%8E%E5%B7%A5%E5%85%B7%E5%88%B0%E5%8F%AF%E4%BA%A4%E4%BB%98%E7%B3%BB%E7%BB%9F/</link><pubDate>Fri, 06 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-06/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%8D%8F%E4%BD%9C%E6%88%902026%E5%B9%B4ai%E7%83%AD%E7%82%B9%E4%BB%8E%E5%B7%A5%E5%85%B7%E5%88%B0%E5%8F%AF%E4%BA%A4%E4%BB%98%E7%B3%BB%E7%BB%9F/</guid><description>&lt;p&gt;凌晨 2 点，我盯着项目群里那句“明早 9 点前把竞品报告发我”，手心一凉。不是因为写不出来，而是因为&lt;strong&gt;这件事根本不是“写一段话”&lt;/strong&gt;：你需要找资料、筛趋势、做结构、补证据、排版输出。就在这周，“多智能体协作”成了大家讨论的 AI 热点——它的意义不是让模型更会聊天，而是&lt;strong&gt;让系统能把事情交付完&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="效果展示从会回答到会交付"&gt;效果展示：从“会回答”到“会交付”&lt;/h2&gt;
&lt;p&gt;过去一年，很多团队用大模型写文案、总结会议，但到了 2026，真正的热度来自另一种能力：&lt;strong&gt;多智能体分工协作&lt;/strong&gt;。它让“交付一件事”变成可控流程：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务拆解&lt;/strong&gt;：资料搜集、结构化整理、撰写输出、校验修订，各司其职&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;并行执行&lt;/strong&gt;：多个 Agent 同时工作，整体耗时明显下降&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量可控&lt;/strong&gt;：有专门的“校验 Agent”负责检查逻辑与来源一致性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;输出可复用&lt;/strong&gt;：流程一旦跑通，就能稳定产出同类内容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这也是为什么“多智能体协作”会成为今年的热点：它把 AI 从工具变成系统，把“回答问题”升级为“交付结果”。&lt;/p&gt;
&lt;h2 id="问题描述为什么单模型已经不够用"&gt;问题描述：为什么“单模型”已经不够用？&lt;/h2&gt;
&lt;p&gt;很多团队在实践中踩过同样的坑：&lt;/p&gt;
&lt;h3 id="1-任务链条太长"&gt;1) 任务链条太长&lt;/h3&gt;
&lt;p&gt;一个模型再聪明，也很难同时做好“找资料、筛证据、写文章、改格式”。&lt;strong&gt;链条越长，错误越多&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-上下文负担过重"&gt;2) 上下文负担过重&lt;/h3&gt;
&lt;p&gt;复杂任务涉及多个阶段和信息源，单一对话容易丢失上下文，结果只能“像样但不稳”。&lt;/p&gt;
&lt;h3 id="3-结果不可持续"&gt;3) 结果不可持续&lt;/h3&gt;
&lt;p&gt;如果每次都靠“临时提示词”，就只能一次性产出，很难形成稳定生产力。&lt;/p&gt;
&lt;p&gt;这就是多智能体协作兴起的原因：&lt;strong&gt;它解决的不是“回答”，而是“交付”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学落地多智能体协作的-4-个关键步骤"&gt;步骤教学：落地多智能体协作的 4 个关键步骤&lt;/h2&gt;
&lt;p&gt;如果你想把热度变成可交付能力，下面这套流程更实用：&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成明确角色"&gt;步骤 1：把任务拆成“明确角色”&lt;/h3&gt;
&lt;p&gt;不要让一个 Agent 做所有事，先把流程拆清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;资料搜集 Agent：负责检索与收集&lt;/li&gt;
&lt;li&gt;结构化整理 Agent：负责提炼框架&lt;/li&gt;
&lt;li&gt;写作输出 Agent：负责成文&lt;/li&gt;
&lt;li&gt;质量校验 Agent：负责核对与修订&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;角色越清晰，结果越稳定。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2给每个-agent-配可调用工具"&gt;步骤 2：给每个 Agent 配“可调用工具”&lt;/h3&gt;
&lt;p&gt;多智能体的价值在于“分工 + 工具”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;搜索接口、数据库、内部知识库&lt;/li&gt;
&lt;li&gt;代码执行、文件生成、模板排版&lt;/li&gt;
&lt;li&gt;规则校验、逻辑一致性检查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;没有工具，Agent 只是“会说话的角色”；有工具，才能“干活”。&lt;/p&gt;
&lt;h3 id="步骤-3让流程可追踪可回放"&gt;步骤 3：让流程可追踪、可回放&lt;/h3&gt;
&lt;p&gt;企业场景不怕失败，怕的是“失败不可解释”。你需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;步骤日志&lt;/strong&gt;：记录每一步输入与输出&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;中间产物&lt;/strong&gt;：保留草稿与引用来源&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;回滚机制&lt;/strong&gt;：错误时能重跑某一步&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一点决定了系统能不能进入生产环境。&lt;/p&gt;
&lt;h3 id="步骤-4先小规模跑通再复制扩展"&gt;步骤 4：先小规模跑通，再复制扩展&lt;/h3&gt;
&lt;p&gt;不要一上来做“大而全”。先选一个可量化 ROI 的场景：&lt;/p&gt;</description><content>&lt;p&gt;凌晨 2 点，我盯着项目群里那句“明早 9 点前把竞品报告发我”，手心一凉。不是因为写不出来，而是因为&lt;strong&gt;这件事根本不是“写一段话”&lt;/strong&gt;：你需要找资料、筛趋势、做结构、补证据、排版输出。就在这周，“多智能体协作”成了大家讨论的 AI 热点——它的意义不是让模型更会聊天，而是&lt;strong&gt;让系统能把事情交付完&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="效果展示从会回答到会交付"&gt;效果展示：从“会回答”到“会交付”&lt;/h2&gt;
&lt;p&gt;过去一年，很多团队用大模型写文案、总结会议，但到了 2026，真正的热度来自另一种能力：&lt;strong&gt;多智能体分工协作&lt;/strong&gt;。它让“交付一件事”变成可控流程：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务拆解&lt;/strong&gt;：资料搜集、结构化整理、撰写输出、校验修订，各司其职&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;并行执行&lt;/strong&gt;：多个 Agent 同时工作，整体耗时明显下降&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量可控&lt;/strong&gt;：有专门的“校验 Agent”负责检查逻辑与来源一致性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;输出可复用&lt;/strong&gt;：流程一旦跑通，就能稳定产出同类内容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这也是为什么“多智能体协作”会成为今年的热点：它把 AI 从工具变成系统，把“回答问题”升级为“交付结果”。&lt;/p&gt;
&lt;h2 id="问题描述为什么单模型已经不够用"&gt;问题描述：为什么“单模型”已经不够用？&lt;/h2&gt;
&lt;p&gt;很多团队在实践中踩过同样的坑：&lt;/p&gt;
&lt;h3 id="1-任务链条太长"&gt;1) 任务链条太长&lt;/h3&gt;
&lt;p&gt;一个模型再聪明，也很难同时做好“找资料、筛证据、写文章、改格式”。&lt;strong&gt;链条越长，错误越多&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="2-上下文负担过重"&gt;2) 上下文负担过重&lt;/h3&gt;
&lt;p&gt;复杂任务涉及多个阶段和信息源，单一对话容易丢失上下文，结果只能“像样但不稳”。&lt;/p&gt;
&lt;h3 id="3-结果不可持续"&gt;3) 结果不可持续&lt;/h3&gt;
&lt;p&gt;如果每次都靠“临时提示词”，就只能一次性产出，很难形成稳定生产力。&lt;/p&gt;
&lt;p&gt;这就是多智能体协作兴起的原因：&lt;strong&gt;它解决的不是“回答”，而是“交付”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学落地多智能体协作的-4-个关键步骤"&gt;步骤教学：落地多智能体协作的 4 个关键步骤&lt;/h2&gt;
&lt;p&gt;如果你想把热度变成可交付能力，下面这套流程更实用：&lt;/p&gt;
&lt;h3 id="步骤-1把任务拆成明确角色"&gt;步骤 1：把任务拆成“明确角色”&lt;/h3&gt;
&lt;p&gt;不要让一个 Agent 做所有事，先把流程拆清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;资料搜集 Agent：负责检索与收集&lt;/li&gt;
&lt;li&gt;结构化整理 Agent：负责提炼框架&lt;/li&gt;
&lt;li&gt;写作输出 Agent：负责成文&lt;/li&gt;
&lt;li&gt;质量校验 Agent：负责核对与修订&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;角色越清晰，结果越稳定。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2给每个-agent-配可调用工具"&gt;步骤 2：给每个 Agent 配“可调用工具”&lt;/h3&gt;
&lt;p&gt;多智能体的价值在于“分工 + 工具”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;搜索接口、数据库、内部知识库&lt;/li&gt;
&lt;li&gt;代码执行、文件生成、模板排版&lt;/li&gt;
&lt;li&gt;规则校验、逻辑一致性检查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;没有工具，Agent 只是“会说话的角色”；有工具，才能“干活”。&lt;/p&gt;
&lt;h3 id="步骤-3让流程可追踪可回放"&gt;步骤 3：让流程可追踪、可回放&lt;/h3&gt;
&lt;p&gt;企业场景不怕失败，怕的是“失败不可解释”。你需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;步骤日志&lt;/strong&gt;：记录每一步输入与输出&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;中间产物&lt;/strong&gt;：保留草稿与引用来源&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;回滚机制&lt;/strong&gt;：错误时能重跑某一步&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一点决定了系统能不能进入生产环境。&lt;/p&gt;
&lt;h3 id="步骤-4先小规模跑通再复制扩展"&gt;步骤 4：先小规模跑通，再复制扩展&lt;/h3&gt;
&lt;p&gt;不要一上来做“大而全”。先选一个可量化 ROI 的场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;竞品周报自动化&lt;/li&gt;
&lt;li&gt;会议纪要与行动项提取&lt;/li&gt;
&lt;li&gt;标准化项目方案输出&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;跑通一个场景后，再复制到相邻场景。&lt;strong&gt;多智能体的价值在于可复制，而不是一次性炫技。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="升华总结热点背后是交付方式的升级"&gt;升华总结：热点背后，是“交付方式”的升级&lt;/h2&gt;
&lt;p&gt;2026 年“多智能体协作”的热度，表面是技术趋势，深层是交付方式的变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从“回答问题”到“完成任务”&lt;/li&gt;
&lt;li&gt;从“单次生成”到“流程化交付”&lt;/li&gt;
&lt;li&gt;从“工具型 AI”到“系统型 AI”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;当 AI 能分工、能协作、能追踪，才真正进入生产力阶段。&lt;strong&gt;热点会过去，但交付方式的升级才是长期价值&lt;/strong&gt;。如果你正在布局 AI 应用，别只盯着模型指标，先把“可交付系统”的路线图跑通。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://36kr.com/p/3578453650479235"&gt;https://36kr.com/p/3578453650479235&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://k.sina.com.cn/article_7857201856_1d45362c001902p73e.html"&gt;https://k.sina.com.cn/article_7857201856_1d45362c001902p73e.html&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>