<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>调度 on POOROPS</title><link>https://blog.20231106.xyz/tags/%E8%B0%83%E5%BA%A6/</link><description>Recent content in 调度 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Wed, 08 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/%E8%B0%83%E5%BA%A6/index.xml" rel="self" type="application/rss+xml"/><item><title>当数据中心学会自我调度：MIT两级控制让AI训练效率翻倍</title><link>https://blog.20231106.xyz/posts/2026-04-08/mit-datacenter-two-tier-control-ai-training/</link><pubDate>Wed, 08 Apr 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-04-08/mit-datacenter-two-tier-control-ai-training/</guid><description>&lt;p&gt;凌晨一点，训练集群的报警像雨点一样落下。磁盘延迟飙升、GPU 在等数据、任务队列越堆越长。值班同事发来一句话：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“不是算力不够，是&lt;strong&gt;存储在拖后腿&lt;/strong&gt;。”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;我盯着监控图表突然意识到：我们正被一种看不见的瓶颈卡住——&lt;strong&gt;同样的硬件，因为性能波动，实际只发挥了一半&lt;/strong&gt;。而这正是最新的 AI 热点之一：&lt;strong&gt;MIT 发布了一套数据中心两级控制系统，让存储设备在不换硬件的情况下几乎实现性能翻倍&lt;/strong&gt;。它不是一个“模型算法”，而是“让 AI 训练更快”的基础设施级解法。&lt;/p&gt;
&lt;p&gt;本文按照“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构，拆解这项研究的核心思想，并给出一条可落地的工程路线，告诉你：为什么它会成为热点，以及你能如何在现有系统里复用这种思路。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示不换硬件性能几乎翻倍"&gt;效果展示：不换硬件，性能几乎翻倍&lt;/h2&gt;
&lt;p&gt;这项工作来自 MIT News 最新报道：研究团队提出了一个&lt;strong&gt;两级控制架构&lt;/strong&gt;，在不更换 SSD、服务器或网络的前提下，通过软件调度让数据中心整体存储性能显著提升。实验中，该方法在真实工作负载（包括 AI 训练与图像压缩）上&lt;strong&gt;接近实现性能翻倍&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这种效果之所以值得关注，是因为它击中了数据中心的两个现实痛点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;不再“靠堆硬件”解决瓶颈&lt;/strong&gt;：增购硬件越来越贵，也越来越慢。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;让 AI 训练更稳定&lt;/strong&gt;：性能波动减少，训练吞吐更可预测。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延长存储寿命、降低能耗&lt;/strong&gt;：高效使用现有设备，比一味扩容更可持续。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;通过更聪明的调度，让“已有硬件”释放出更多生产力。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么存储波动会让-ai-训练变慢"&gt;问题描述：为什么“存储波动”会让 AI 训练变慢？&lt;/h2&gt;
&lt;p&gt;在数据中心里，存储设备（尤其是 SSD）性能并不稳定，具体原因大致分为三类：&lt;/p&gt;
&lt;h3 id="1-设备间性能差异"&gt;1) 设备间性能差异&lt;/h3&gt;
&lt;p&gt;即使是同型号 SSD，由于磨损或工作状态不同，&lt;strong&gt;性能表现可能相差很大&lt;/strong&gt;。任务调度如果一视同仁，就会被最慢的设备拖累。&lt;/p&gt;
&lt;h3 id="2-设备内性能波动"&gt;2) 设备内性能波动&lt;/h3&gt;
&lt;p&gt;同一台设备在不同时间段的性能会波动（例如垃圾回收、写放大、温度变化），导致吞吐不稳定。&lt;/p&gt;
&lt;h3 id="3-工作负载瞬时变化"&gt;3) 工作负载瞬时变化&lt;/h3&gt;
&lt;p&gt;AI 训练或大规模数据处理任务具有“爆发式 I/O”特点，短时间内负载集中，极易触发排队和拥塞。&lt;/p&gt;
&lt;p&gt;传统方法往往只解决其中一个问题：比如只优化设备间差异，或只做静态分配。但现实是，&lt;strong&gt;这三类波动会叠加&lt;/strong&gt;，让系统整体效率持续被拉低。&lt;/p&gt;
&lt;p&gt;MIT 的贡献就在于：&lt;strong&gt;用一个“全局 + 局部”的双层控制机制，把这三种波动同时消解掉。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学落地两级控制的工程路线"&gt;步骤教学：落地“两级控制”的工程路线&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的路线，帮助工程团队在现有数据中心中复用类似思路。&lt;/p&gt;
&lt;h3 id="步骤-1建立波动地图"&gt;步骤 1：建立“波动地图”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：量化设备性能差异和波动幅度。&lt;/p&gt;
&lt;p&gt;做法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;定期采集 SSD 延迟、吞吐、队列深度等指标&lt;/li&gt;
&lt;li&gt;按设备生成“性能分布曲线”&lt;/li&gt;
&lt;li&gt;识别“稳定设备”和“波动设备”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步类似于在系统里生成一张“性能地形图”，为后续调度提供依据。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2搭建全局控制器global-controller"&gt;步骤 2：搭建全局控制器（Global Controller）&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：负责跨设备的任务分配与容量平衡。&lt;/p&gt;
&lt;p&gt;关键职责：&lt;/p&gt;</description><content>&lt;p&gt;凌晨一点，训练集群的报警像雨点一样落下。磁盘延迟飙升、GPU 在等数据、任务队列越堆越长。值班同事发来一句话：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“不是算力不够，是&lt;strong&gt;存储在拖后腿&lt;/strong&gt;。”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;我盯着监控图表突然意识到：我们正被一种看不见的瓶颈卡住——&lt;strong&gt;同样的硬件，因为性能波动，实际只发挥了一半&lt;/strong&gt;。而这正是最新的 AI 热点之一：&lt;strong&gt;MIT 发布了一套数据中心两级控制系统，让存储设备在不换硬件的情况下几乎实现性能翻倍&lt;/strong&gt;。它不是一个“模型算法”，而是“让 AI 训练更快”的基础设施级解法。&lt;/p&gt;
&lt;p&gt;本文按照“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构，拆解这项研究的核心思想，并给出一条可落地的工程路线，告诉你：为什么它会成为热点，以及你能如何在现有系统里复用这种思路。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示不换硬件性能几乎翻倍"&gt;效果展示：不换硬件，性能几乎翻倍&lt;/h2&gt;
&lt;p&gt;这项工作来自 MIT News 最新报道：研究团队提出了一个&lt;strong&gt;两级控制架构&lt;/strong&gt;，在不更换 SSD、服务器或网络的前提下，通过软件调度让数据中心整体存储性能显著提升。实验中，该方法在真实工作负载（包括 AI 训练与图像压缩）上&lt;strong&gt;接近实现性能翻倍&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这种效果之所以值得关注，是因为它击中了数据中心的两个现实痛点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;不再“靠堆硬件”解决瓶颈&lt;/strong&gt;：增购硬件越来越贵，也越来越慢。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;让 AI 训练更稳定&lt;/strong&gt;：性能波动减少，训练吞吐更可预测。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延长存储寿命、降低能耗&lt;/strong&gt;：高效使用现有设备，比一味扩容更可持续。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;一句话总结：&lt;strong&gt;通过更聪明的调度，让“已有硬件”释放出更多生产力。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么存储波动会让-ai-训练变慢"&gt;问题描述：为什么“存储波动”会让 AI 训练变慢？&lt;/h2&gt;
&lt;p&gt;在数据中心里，存储设备（尤其是 SSD）性能并不稳定，具体原因大致分为三类：&lt;/p&gt;
&lt;h3 id="1-设备间性能差异"&gt;1) 设备间性能差异&lt;/h3&gt;
&lt;p&gt;即使是同型号 SSD，由于磨损或工作状态不同，&lt;strong&gt;性能表现可能相差很大&lt;/strong&gt;。任务调度如果一视同仁，就会被最慢的设备拖累。&lt;/p&gt;
&lt;h3 id="2-设备内性能波动"&gt;2) 设备内性能波动&lt;/h3&gt;
&lt;p&gt;同一台设备在不同时间段的性能会波动（例如垃圾回收、写放大、温度变化），导致吞吐不稳定。&lt;/p&gt;
&lt;h3 id="3-工作负载瞬时变化"&gt;3) 工作负载瞬时变化&lt;/h3&gt;
&lt;p&gt;AI 训练或大规模数据处理任务具有“爆发式 I/O”特点，短时间内负载集中，极易触发排队和拥塞。&lt;/p&gt;
&lt;p&gt;传统方法往往只解决其中一个问题：比如只优化设备间差异，或只做静态分配。但现实是，&lt;strong&gt;这三类波动会叠加&lt;/strong&gt;，让系统整体效率持续被拉低。&lt;/p&gt;
&lt;p&gt;MIT 的贡献就在于：&lt;strong&gt;用一个“全局 + 局部”的双层控制机制，把这三种波动同时消解掉。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学落地两级控制的工程路线"&gt;步骤教学：落地“两级控制”的工程路线&lt;/h2&gt;
&lt;p&gt;下面是一条可执行的路线，帮助工程团队在现有数据中心中复用类似思路。&lt;/p&gt;
&lt;h3 id="步骤-1建立波动地图"&gt;步骤 1：建立“波动地图”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：量化设备性能差异和波动幅度。&lt;/p&gt;
&lt;p&gt;做法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;定期采集 SSD 延迟、吞吐、队列深度等指标&lt;/li&gt;
&lt;li&gt;按设备生成“性能分布曲线”&lt;/li&gt;
&lt;li&gt;识别“稳定设备”和“波动设备”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步类似于在系统里生成一张“性能地形图”，为后续调度提供依据。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2搭建全局控制器global-controller"&gt;步骤 2：搭建全局控制器（Global Controller）&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：负责跨设备的任务分配与容量平衡。&lt;/p&gt;
&lt;p&gt;关键职责：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;识别哪些设备更适合承载重负载&lt;/li&gt;
&lt;li&gt;动态调整任务分布，避免“慢设备成为瓶颈”&lt;/li&gt;
&lt;li&gt;控制系统整体的负载均衡策略&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这相当于“总调度室”，在系统层面做全局优化。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-3部署本地控制器local-controller"&gt;步骤 3：部署本地控制器（Local Controller）&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：在设备或服务器内快速应对波动。&lt;/p&gt;
&lt;p&gt;关键职责：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;实时监测设备局部延迟变化&lt;/li&gt;
&lt;li&gt;当设备状态变差时快速重路由&lt;/li&gt;
&lt;li&gt;保证短时间内的吞吐稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这是“现场执行层”，它解决的是秒级别的波动问题。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-4引入实时反馈回路"&gt;步骤 4：引入“实时反馈回路”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：让全局决策与局部反馈形成闭环。&lt;/p&gt;
&lt;p&gt;做法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地控制器持续上报设备状态&lt;/li&gt;
&lt;li&gt;全局控制器动态调整资源分配&lt;/li&gt;
&lt;li&gt;实现“慢设备退场、快设备顶上”的实时机制&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一点是 MIT 方案中的关键：&lt;strong&gt;控制系统随负载变化实时学习与适配&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-5在-ai-训练场景做灰度验证"&gt;步骤 5：在 AI 训练场景做灰度验证&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：用最具代表性的工作负载测试效果。&lt;/p&gt;
&lt;p&gt;推荐流程：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;选取典型 AI 训练任务作为基准&lt;/li&gt;
&lt;li&gt;对比“传统静态调度”与“两级控制”性能&lt;/li&gt;
&lt;li&gt;记录吞吐提升、延迟改善和资源利用率变化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;注意：MIT 的实验显示，在 AI 训练与图像压缩任务上，性能接近翻倍。这说明该方案对 AI 负载尤为有效。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-6形成可推广的基础设施能力"&gt;步骤 6：形成可推广的基础设施能力&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;目标&lt;/strong&gt;：把调度能力产品化，而不是一次性优化。&lt;/p&gt;
&lt;p&gt;关键动作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;将调度策略内嵌到存储或调度平台&lt;/li&gt;
&lt;li&gt;做成可配置模块（不同业务可设置不同策略）&lt;/li&gt;
&lt;li&gt;与监控系统联动，形成持续优化闭环&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;真正的价值不在一次性性能提升，而在形成可持续演进的系统能力。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结ai-的瓶颈越来越像系统问题"&gt;升华总结：AI 的瓶颈，越来越像“系统问题”&lt;/h2&gt;
&lt;p&gt;这项 MIT 研究成为 AI 热点的原因并不是“算法多聪明”，而是它揭示了一个新的现实：&lt;strong&gt;在 AI 规模化时代，性能瓶颈往往不在模型，而在系统。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当算力越来越贵、能耗越来越高、供应越来越紧张，最可持续的路线不是“继续堆硬件”，而是&lt;strong&gt;让现有硬件发挥出更多价值&lt;/strong&gt;。两级控制的思路，就是在系统层面做“聪明的调度”，从而把 AI 训练变得更快、更稳、更省。&lt;/p&gt;
&lt;p&gt;这类技术会成为未来 AI 基础设施的核心竞争力。&lt;strong&gt;谁能把基础设施调得更聪明，谁就能跑得更快。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="配图"&gt;配图&lt;/h2&gt;
&lt;p&gt;
&lt;img src="https://blog.20231106.xyz/posts/2026-04-08/mit-data-center.jpg" alt="MIT 数据中心研究示意图"&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：MIT News｜Helping data centers deliver higher performance with less hardware：&lt;a href="https://news.mit.edu/2026/helping-data-centers-deliver-higher-performance-less-hardware-0407"&gt;https://news.mit.edu/2026/helping-data-centers-deliver-higher-performance-less-hardware-0407&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：论文 PDF｜Sandook: Two-tier control for storage variability (NSDI 2026)：&lt;a href="https://goharirfan.me/publications/sandook_nsdi_2026.pdf"&gt;https://goharirfan.me/publications/sandook_nsdi_2026.pdf&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：Poorops：&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>