<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>数据标注 on POOROPS</title><link>https://blog.20231106.xyz/tags/%E6%95%B0%E6%8D%AE%E6%A0%87%E6%B3%A8/</link><description>Recent content in 数据标注 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Fri, 20 Mar 2026 18:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/%E6%95%B0%E6%8D%AE%E6%A0%87%E6%B3%A8/index.xml" rel="self" type="application/rss+xml"/><item><title>外卖骑手成了AI训练师？DoorDash“Tasks”背后的数据新战场</title><link>https://blog.20231106.xyz/posts/2026-03-20/doordash-tasks-physical-world-data/</link><pubDate>Fri, 20 Mar 2026 18:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-20/doordash-tasks-physical-world-data/</guid><description>&lt;p&gt;凌晨 3:17，我刷到一条提醒：“你今天又多赚了 42 美元，来源：Tasks。”&lt;/p&gt;
&lt;p&gt;我以为是接单红包，点开一看，才发现是“录一段短视频、描述环境、拍几张物体照片”。这不是外卖配送——这是一种全新的工作：&lt;strong&gt;在真实世界里，为 AI 采集训练数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;据 NBC News 报道，DoorDash 推出面向配送员的独立应用 Tasks，让骑手在送单之外完成数据采集任务，并将数据用于训练 AI 与机器人模型，使它们更好地“理解物理世界”。这一动作在短时间内刷屏，成为近期 AI 热点之一。&lt;/p&gt;
&lt;p&gt;这不只是一个“赚钱新入口”，它更像是&lt;strong&gt;现实世界数据争夺战&lt;/strong&gt;的前哨：当模型在语言与图像上越来越强，真正难的部分开始从屏幕走向街道。&lt;/p&gt;
&lt;p&gt;下面按清晰结构展开：先看它带来的效果，再解释为什么它成为热点，最后给出一条可落地的步骤路线。&lt;/p&gt;
&lt;h2 id="效果展示当真实世界被接入模型发生了什么"&gt;效果展示：当“真实世界”被接入模型，发生了什么？&lt;/h2&gt;
&lt;p&gt;DoorDash 的动作，表面上是“给骑手多一个赚钱工具”，本质上却是&lt;strong&gt;让 AI 进入真实世界的观察位&lt;/strong&gt;。它带来的变化可以概括为五点：&lt;/p&gt;
&lt;h3 id="1-真实场景数据变得可规模化"&gt;1) 真实场景数据变得可规模化&lt;/h3&gt;
&lt;p&gt;过去，机器人和自动驾驶最缺的不是算法，而是&lt;strong&gt;真实场景数据&lt;/strong&gt;：街角的路障、外卖放置的门槛高度、不同城市的通道结构……这些细节是纸面数据学不到的。&lt;/p&gt;
&lt;p&gt;当大量骑手成为分布式“数据采集员”，&lt;strong&gt;真实世界变成了可被规模化记录的训练场&lt;/strong&gt;。模型不再只在实验室里学习，而是在日常生活中“持续被喂养”。&lt;/p&gt;
&lt;h3 id="2-数据从实验室采集变成运营级采集"&gt;2) 数据从“实验室采集”变成“运营级采集”&lt;/h3&gt;
&lt;p&gt;传统数据采集往往依赖研究机构或小规模外包，成本高、更新慢、场景单一。&lt;/p&gt;
&lt;p&gt;DoorDash 这种做法把采集变成&lt;strong&gt;运营层的日常流程&lt;/strong&gt;：任务分发、奖励结算、质检回收，形成可持续的数据管线。数据不再是一次性项目，而是“流水线”。&lt;/p&gt;
&lt;h3 id="3-ai-与机器人训练从模拟走向街头"&gt;3) AI 与机器人训练从“模拟”走向“街头”&lt;/h3&gt;
&lt;p&gt;许多机器人项目一直卡在“模拟很强、现实很弱”。真正的问题是：&lt;strong&gt;现实世界太复杂、变化太快&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;当 AI 能持续接入真实街景、真实配送动线、真实用户行为，模型训练就不再是静态的，而是逐步贴近现实的动态过程。&lt;/p&gt;
&lt;h3 id="4-长尾场景开始被系统性覆盖"&gt;4) “长尾场景”开始被系统性覆盖&lt;/h3&gt;
&lt;p&gt;最难的不是常规道路，而是&lt;strong&gt;长尾场景&lt;/strong&gt;：临时施工、雨天积水、临时摆放的杂物、门口被挡住的通道。&lt;/p&gt;
&lt;p&gt;当采集变成“高频日常工作”，长尾场景可以被逐步覆盖，这对机器人可靠性是决定性的。&lt;/p&gt;
&lt;h3 id="5-数据价值变成可计价资产"&gt;5) 数据价值变成“可计价资产”&lt;/h3&gt;
&lt;p&gt;当平台把任务拆解成可量化的小步骤，数据被清晰标价，它就从“隐形成本”变成&lt;strong&gt;可计价资产&lt;/strong&gt;。这意味着 AI 训练不再只是成本中心，而是可被运营优化的业务模块。&lt;/p&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;DoorDash 不是在做一款“骑手副业工具”，而是在构建物理世界数据的可持续生产线。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么外卖骑手会成为-ai-热点"&gt;问题描述：为什么“外卖骑手”会成为 AI 热点？&lt;/h2&gt;
&lt;p&gt;这个热点不是偶然，它击中了 AI 产业当前的核心痛点。&lt;/p&gt;
&lt;h3 id="1-语言模型越强现实世界数据越显不足"&gt;1) 语言模型越强，现实世界数据越显不足&lt;/h3&gt;
&lt;p&gt;过去几年，模型能力大幅提升，更多来自“互联网文字与图片”的规模增长。但当 AI 进入机器人、自动驾驶、物流自动化等领域时，&lt;strong&gt;缺的不是算力，而是现实世界的反馈数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;能描述“现实世界”的数据，远比“文字”难获得。这让任何拥有线下触达能力的公司都成了关键节点。&lt;/p&gt;
&lt;h3 id="2-物理世界的长尾场景才是最难的"&gt;2) 物理世界的“长尾场景”才是最难的&lt;/h3&gt;
&lt;p&gt;真正难的是那些看似不起眼的细节：雨天湿滑的门口、被施工挡住的通道、被路边停放车挤压的行人道……&lt;/p&gt;
&lt;p&gt;这些长尾场景决定了机器人是否可靠，但它们几乎无法靠传统采集一次性覆盖。&lt;strong&gt;只有持续的日常采集，才能把长尾变成可训练的数据。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-数据供给模式正在重构"&gt;3) 数据供给模式正在重构&lt;/h3&gt;
&lt;p&gt;过去数据来源集中在少数大平台或研究机构，现在变成**“每一个线下工作者都可能成为数据供应者”**。&lt;/p&gt;</description><content>&lt;p&gt;凌晨 3:17，我刷到一条提醒：“你今天又多赚了 42 美元，来源：Tasks。”&lt;/p&gt;
&lt;p&gt;我以为是接单红包，点开一看，才发现是“录一段短视频、描述环境、拍几张物体照片”。这不是外卖配送——这是一种全新的工作：&lt;strong&gt;在真实世界里，为 AI 采集训练数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;据 NBC News 报道，DoorDash 推出面向配送员的独立应用 Tasks，让骑手在送单之外完成数据采集任务，并将数据用于训练 AI 与机器人模型，使它们更好地“理解物理世界”。这一动作在短时间内刷屏，成为近期 AI 热点之一。&lt;/p&gt;
&lt;p&gt;这不只是一个“赚钱新入口”，它更像是&lt;strong&gt;现实世界数据争夺战&lt;/strong&gt;的前哨：当模型在语言与图像上越来越强，真正难的部分开始从屏幕走向街道。&lt;/p&gt;
&lt;p&gt;下面按清晰结构展开：先看它带来的效果，再解释为什么它成为热点，最后给出一条可落地的步骤路线。&lt;/p&gt;
&lt;h2 id="效果展示当真实世界被接入模型发生了什么"&gt;效果展示：当“真实世界”被接入模型，发生了什么？&lt;/h2&gt;
&lt;p&gt;DoorDash 的动作，表面上是“给骑手多一个赚钱工具”，本质上却是&lt;strong&gt;让 AI 进入真实世界的观察位&lt;/strong&gt;。它带来的变化可以概括为五点：&lt;/p&gt;
&lt;h3 id="1-真实场景数据变得可规模化"&gt;1) 真实场景数据变得可规模化&lt;/h3&gt;
&lt;p&gt;过去，机器人和自动驾驶最缺的不是算法，而是&lt;strong&gt;真实场景数据&lt;/strong&gt;：街角的路障、外卖放置的门槛高度、不同城市的通道结构……这些细节是纸面数据学不到的。&lt;/p&gt;
&lt;p&gt;当大量骑手成为分布式“数据采集员”，&lt;strong&gt;真实世界变成了可被规模化记录的训练场&lt;/strong&gt;。模型不再只在实验室里学习，而是在日常生活中“持续被喂养”。&lt;/p&gt;
&lt;h3 id="2-数据从实验室采集变成运营级采集"&gt;2) 数据从“实验室采集”变成“运营级采集”&lt;/h3&gt;
&lt;p&gt;传统数据采集往往依赖研究机构或小规模外包，成本高、更新慢、场景单一。&lt;/p&gt;
&lt;p&gt;DoorDash 这种做法把采集变成&lt;strong&gt;运营层的日常流程&lt;/strong&gt;：任务分发、奖励结算、质检回收，形成可持续的数据管线。数据不再是一次性项目，而是“流水线”。&lt;/p&gt;
&lt;h3 id="3-ai-与机器人训练从模拟走向街头"&gt;3) AI 与机器人训练从“模拟”走向“街头”&lt;/h3&gt;
&lt;p&gt;许多机器人项目一直卡在“模拟很强、现实很弱”。真正的问题是：&lt;strong&gt;现实世界太复杂、变化太快&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;当 AI 能持续接入真实街景、真实配送动线、真实用户行为，模型训练就不再是静态的，而是逐步贴近现实的动态过程。&lt;/p&gt;
&lt;h3 id="4-长尾场景开始被系统性覆盖"&gt;4) “长尾场景”开始被系统性覆盖&lt;/h3&gt;
&lt;p&gt;最难的不是常规道路，而是&lt;strong&gt;长尾场景&lt;/strong&gt;：临时施工、雨天积水、临时摆放的杂物、门口被挡住的通道。&lt;/p&gt;
&lt;p&gt;当采集变成“高频日常工作”，长尾场景可以被逐步覆盖，这对机器人可靠性是决定性的。&lt;/p&gt;
&lt;h3 id="5-数据价值变成可计价资产"&gt;5) 数据价值变成“可计价资产”&lt;/h3&gt;
&lt;p&gt;当平台把任务拆解成可量化的小步骤，数据被清晰标价，它就从“隐形成本”变成&lt;strong&gt;可计价资产&lt;/strong&gt;。这意味着 AI 训练不再只是成本中心，而是可被运营优化的业务模块。&lt;/p&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;DoorDash 不是在做一款“骑手副业工具”，而是在构建物理世界数据的可持续生产线。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="问题描述为什么外卖骑手会成为-ai-热点"&gt;问题描述：为什么“外卖骑手”会成为 AI 热点？&lt;/h2&gt;
&lt;p&gt;这个热点不是偶然，它击中了 AI 产业当前的核心痛点。&lt;/p&gt;
&lt;h3 id="1-语言模型越强现实世界数据越显不足"&gt;1) 语言模型越强，现实世界数据越显不足&lt;/h3&gt;
&lt;p&gt;过去几年，模型能力大幅提升，更多来自“互联网文字与图片”的规模增长。但当 AI 进入机器人、自动驾驶、物流自动化等领域时，&lt;strong&gt;缺的不是算力，而是现实世界的反馈数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;能描述“现实世界”的数据，远比“文字”难获得。这让任何拥有线下触达能力的公司都成了关键节点。&lt;/p&gt;
&lt;h3 id="2-物理世界的长尾场景才是最难的"&gt;2) 物理世界的“长尾场景”才是最难的&lt;/h3&gt;
&lt;p&gt;真正难的是那些看似不起眼的细节：雨天湿滑的门口、被施工挡住的通道、被路边停放车挤压的行人道……&lt;/p&gt;
&lt;p&gt;这些长尾场景决定了机器人是否可靠，但它们几乎无法靠传统采集一次性覆盖。&lt;strong&gt;只有持续的日常采集，才能把长尾变成可训练的数据。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-数据供给模式正在重构"&gt;3) 数据供给模式正在重构&lt;/h3&gt;
&lt;p&gt;过去数据来源集中在少数大平台或研究机构，现在变成**“每一个线下工作者都可能成为数据供应者”**。&lt;/p&gt;
&lt;p&gt;这不仅改变了数据采集方式，也改变了商业关系：从“平台提供服务”转为“平台与劳动者共同产出 AI 资产”。&lt;/p&gt;
&lt;h3 id="4-现实世界数据的更新速度成为壁垒"&gt;4) 现实世界数据的“更新速度”成为壁垒&lt;/h3&gt;
&lt;p&gt;现实环境变化极快，靠半年一次的采集项目根本跟不上。谁能建立“每日更新”的数据管线，谁就能更快迭代模型。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;更新速度，就是新的护城河。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="5-ai-产品化需要运营能力而非仅靠研发能力"&gt;5) AI 产品化需要“运营能力”，而非仅靠研发能力&lt;/h3&gt;
&lt;p&gt;当 AI 走出实验室，最大的挑战不再是模型，而是&lt;strong&gt;能否把数据获取、质量控制、合规治理做成日常运营&lt;/strong&gt;。DoorDash 的做法恰好说明：运营平台本身就是 AI 的关键基础设施。&lt;/p&gt;
&lt;p&gt;这就是 DoorDash 事件成为热点的根本原因：&lt;strong&gt;它把 AI 的数据之争带进了普通人的日常工作里。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学如果你是企业如何搭建真实世界数据闭环"&gt;步骤教学：如果你是企业，如何搭建“真实世界数据闭环”？&lt;/h2&gt;
&lt;p&gt;DoorDash 的案例给了一个可参考的范式。如果你是做机器人、物流、零售、工厂自动化的企业，想建立类似的数据闭环，可以按以下步骤执行。&lt;/p&gt;
&lt;h3 id="步骤-1从失败清单反推采集目标"&gt;步骤 1：从“失败清单”反推采集目标&lt;/h3&gt;
&lt;p&gt;不要从“我要更多数据”开始，而是从失败开始：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;机器人在哪些场景最容易卡住？&lt;/li&gt;
&lt;li&gt;自动化流程在哪些环节出错率最高？&lt;/li&gt;
&lt;li&gt;你的模型在哪些类别上“看不见”？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;把这些失败模式转化为“可采集的任务”，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;拍摄不同光照下的门槛高度&lt;/li&gt;
&lt;li&gt;记录电梯入口的真实通道尺寸&lt;/li&gt;
&lt;li&gt;标注障碍物位置与材质&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;问题越明确，采集效率越高。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-2把任务拆成低门槛--高频"&gt;步骤 2：把任务拆成“低门槛 + 高频”&lt;/h3&gt;
&lt;p&gt;现实世界采集不能太复杂，否则无法规模化。要做到：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务步骤简短（拍、录、标注三步以内）&lt;/li&gt;
&lt;li&gt;时长可控（1–3 分钟完成）&lt;/li&gt;
&lt;li&gt;奖励清晰（即时可见、可结算）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同时保证高频分发：让任务与日常工作自然融合，&lt;strong&gt;不需要额外专门时间&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="步骤-3设计场景标签体系"&gt;步骤 3：设计“场景标签体系”&lt;/h3&gt;
&lt;p&gt;采集数据如果没有统一标签，就会变成难以训练的“图像堆”。建议提前设定：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;场景类别（室内/室外/商业/住宅）&lt;/li&gt;
&lt;li&gt;障碍类型（软障碍/硬障碍/临时/固定）&lt;/li&gt;
&lt;li&gt;光照与天气（夜间/雨天/逆光）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;标签是训练的语言，没有标签就没有可用数据。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-4建立质量筛选--多重验证机制"&gt;步骤 4：建立“质量筛选 + 多重验证”机制&lt;/h3&gt;
&lt;p&gt;真实世界数据最大的风险是“噪声高、质量不稳定”。必须做质量闭环：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动质量检测（清晰度、时间地点、格式）&lt;/li&gt;
&lt;li&gt;多人交叉验证（同一场景多份数据）&lt;/li&gt;
&lt;li&gt;异常样本回退与再采集&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不要指望一次采集就完美，关键在于持续迭代。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-5把隐私与安全设计成系统能力"&gt;步骤 5：把隐私与安全设计成“系统能力”&lt;/h3&gt;
&lt;p&gt;现实世界数据往往涉及用户隐私与公共空间，必须在流程里内置：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;数据脱敏（模糊人脸、车牌）&lt;/li&gt;
&lt;li&gt;权限控制（谁能访问、谁能标注）&lt;/li&gt;
&lt;li&gt;合规审计（数据采集的法律边界）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这是“规模化采集”能否长期运行的关键。&lt;/p&gt;
&lt;h3 id="步骤-6建立成本收益模型"&gt;步骤 6：建立“成本—收益模型”&lt;/h3&gt;
&lt;p&gt;数据采集如果没有经济模型，很快会变成成本黑洞。你需要明确：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每类数据的采集成本&lt;/li&gt;
&lt;li&gt;每轮模型迭代带来的业务收益&lt;/li&gt;
&lt;li&gt;数据更新频率与收益之间的最优点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;把数据当作资产管理，而不是当作消耗品。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="步骤-7把数据反馈回业务系统形成闭环"&gt;步骤 7：把数据反馈回业务系统，形成闭环&lt;/h3&gt;
&lt;p&gt;采集不是目的，&lt;strong&gt;模型改善才是目的&lt;/strong&gt;。所以必须有闭环：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;数据进入训练 → 模型更新 → 业务效果提升&lt;/li&gt;
&lt;li&gt;业务效果提升 → 任务再优化 → 采集更精准&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果没有业务闭环，采集就会停在“好看但没用”的阶段。&lt;/p&gt;
&lt;h3 id="步骤-8让贡献者得到稳定收益与成长感"&gt;步骤 8：让“贡献者”得到稳定收益与成长感&lt;/h3&gt;
&lt;p&gt;DoorDash 的案例之所以有吸引力，是因为它让骑手看到“副业收入”与“任务完成感”。&lt;/p&gt;
&lt;p&gt;企业如果想长期运行这类机制，必须：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设定可持续的奖励机制&lt;/li&gt;
&lt;li&gt;给出贡献可视化（排行榜、成长路径）&lt;/li&gt;
&lt;li&gt;保障任务公平性与透明度&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;当贡献者愿意长期参与，数据生产线才有生命力。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="升华总结真正的-ai-竞争已经从算力转向现实世界数据"&gt;升华总结：真正的 AI 竞争，已经从算力转向“现实世界数据”&lt;/h2&gt;
&lt;p&gt;过去，AI 的竞争是模型参数、算力预算；现在，它正在进入新的阶段：&lt;strong&gt;谁能更快、更稳定地获取现实世界数据，谁就能更快把 AI 变成可靠产品&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;DoorDash 的动作提醒我们：AI 的未来不是只在云端，而是深深嵌入街头巷尾——在每一个门口、每一次配送、每一次真实互动中积累。&lt;/p&gt;
&lt;p&gt;当外卖骑手成为数据采集者，AI 产业就进入了一个新的现实：&lt;strong&gt;现实世界，不再是 AI 的“测试场”，而是 AI 的“训练场”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这也是今天这个热点值得关注的原因：它不仅是一次商业创新，更是一次产业范式的转折。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;NBC News：DoorDash is now letting its drivers train AI on the side &lt;a href="https://www.nbcnews.com/tech/tech-news/doordash-now-letting-drivers-train-ai-rcna264387"&gt;https://www.nbcnews.com/tech/tech-news/doordash-now-letting-drivers-train-ai-rcna264387&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WHEC：State starts commission to help workers and businesses to adapt to rise in AI &lt;a href="https://www.whec.com/top-news/state-starts-commission-to-help-workers-and-businesses-to-adapt-to-rise-in-ai/"&gt;https://www.whec.com/top-news/state-starts-commission-to-help-workers-and-businesses-to-adapt-to-rise-in-ai/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Poorops：https://www.poorops.com/&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>