<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>系统共设计 on POOROPS</title><link>https://blog.20231106.xyz/tags/%E7%B3%BB%E7%BB%9F%E5%85%B1%E8%AE%BE%E8%AE%A1/</link><description>Recent content in 系统共设计 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Tue, 07 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/%E7%B3%BB%E7%BB%9F%E5%85%B1%E8%AE%BE%E8%AE%A1/index.xml" rel="self" type="application/rss+xml"/><item><title>定制AI芯片热潮：从GPU不够用到系统级共设计的工程路线</title><link>https://blog.20231106.xyz/posts/2026-04-07/custom-ai-chips-system-co-design/</link><pubDate>Tue, 07 Apr 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-04-07/custom-ai-chips-system-co-design/</guid><description>&lt;p&gt;凌晨三点，机房里只剩风扇的嗡鸣。值班同事发来一条消息：“又一批训练任务排队到下周了，GPU 已经被挤爆。”我盯着监控面板上的功耗曲线，突然意识到一个事实：&lt;strong&gt;这轮 AI 竞争，不再只是谁的模型更聪明，而是谁能更稳定、更便宜地把算力变成生产力。&lt;/strong&gt; 这也是为什么最近一条消息引发行业强烈关注——&lt;strong&gt;大型公司正在与芯片厂商签长期协议，做自己的定制 AI 芯片&lt;/strong&gt;。一旦算力成本和供应链被重新定义，整个产业格局都会被改写。&lt;/p&gt;
&lt;p&gt;这篇文章就围绕“定制 AI 芯片热潮”拆解技术路线，按“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构展开，帮你看清：&lt;strong&gt;为什么 GPU 不够用、为什么定制芯片会变成热点，以及怎样把这件事做成一条可落地的工程路线。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当专用芯片把算力变成规模化生产"&gt;效果展示：当“专用芯片”把算力变成规模化生产&lt;/h2&gt;
&lt;p&gt;定制 AI 芯片的价值不在“更快一点”，而在&lt;strong&gt;把算力从稀缺资源变成可复制的产能&lt;/strong&gt;。当系统不再完全依赖通用 GPU，你会看到三个明显变化：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：同样的推理吞吐，功耗下降、单位成本下降，服务规模更容易扩大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;供应更稳定&lt;/strong&gt;：减少对单一硬件生态的依赖，避免“排队等卡”的停摆风险。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;系统效率提升&lt;/strong&gt;：从芯片到网络再到软件栈全链路优化，吞吐与延迟同时改善。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;换句话说，定制 AI 芯片的价值不是“跑分快”，而是“&lt;strong&gt;能长期稳定供给&lt;/strong&gt;”。这正是热点的核心：当 AI 进入基础设施阶段，谁能把算力变成可预测的产能，谁就能控制下一轮竞争节奏。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么只靠-gpu开始显得吃力"&gt;问题描述：为什么“只靠 GPU”开始显得吃力？&lt;/h2&gt;
&lt;p&gt;GPU 仍是 AI 训练与推理的主力，但随着模型规模与调用量飞涨，传统路径越来越难支撑业务增长。主要痛点集中在四个方向：&lt;/p&gt;
&lt;h3 id="1-供给风险卡不是你想要就有"&gt;1) 供给风险：卡不是你想要就有&lt;/h3&gt;
&lt;p&gt;全球算力需求暴涨，GPU 供应链高度集中。哪怕预算充足，&lt;strong&gt;也可能在交付周期上被卡住&lt;/strong&gt;。这对依赖稳定 SLA 的产品来说是致命的。&lt;/p&gt;
&lt;h3 id="2-功耗与散热性能增长被能耗墙限制"&gt;2) 功耗与散热：性能增长被能耗墙限制&lt;/h3&gt;
&lt;p&gt;模型迭代让训练成本暴涨。功耗上升不仅意味着电费增加，还意味着散热系统重建、机房密度受限。&lt;strong&gt;“能耗墙”正在成为算力增长的新天花板。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-工作负载分化训练和推理不是一件事"&gt;3) 工作负载分化：训练和推理不是一件事&lt;/h3&gt;
&lt;p&gt;训练强调吞吐，推理强调延迟与成本。GPU 是通用方案，但在推理场景常常显得“过于昂贵”。当业务规模扩大，&lt;strong&gt;推理的成本压力比训练更突出。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="4-软件栈复杂通用硬件不等于通用效率"&gt;4) 软件栈复杂：通用硬件不等于通用效率&lt;/h3&gt;
&lt;p&gt;模型、框架、编译器、网络拓扑都在快速变化。GPU 能适配很多框架，但&lt;strong&gt;并不意味着它在所有任务上效率最优&lt;/strong&gt;。软件栈并非“万能钥匙”。&lt;/p&gt;
&lt;p&gt;这些问题让很多团队意识到：&lt;strong&gt;单靠通用 GPU 已经不是最优解&lt;/strong&gt;，尤其是在推理规模化阶段。于是，定制芯片的热潮出现——这不是潮流，而是现实压力的必然结果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学打造定制-ai-芯片--系统共设计的工程路线"&gt;步骤教学：打造“定制 AI 芯片 + 系统共设计”的工程路线&lt;/h2&gt;
&lt;p&gt;如果要把定制芯片真正落地，必须从“业务需求”反推“硬件设计”，再反推“软件栈”，最终形成完整闭环。下面是一条可操作的路线图：&lt;/p&gt;
&lt;h3 id="步骤-1明确负载画像训练-vs-推理"&gt;步骤 1：明确负载画像（训练 vs 推理）&lt;/h3&gt;
&lt;p&gt;先别谈芯片，先谈业务。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练：吞吐优先，追求大批量并行与高带宽。&lt;/li&gt;
&lt;li&gt;推理：延迟与成本优先，追求高并发与低功耗。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;如果你的业务 80% 是推理，定制芯片更可能带来巨大收益。&lt;/strong&gt;&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，机房里只剩风扇的嗡鸣。值班同事发来一条消息：“又一批训练任务排队到下周了，GPU 已经被挤爆。”我盯着监控面板上的功耗曲线，突然意识到一个事实：&lt;strong&gt;这轮 AI 竞争，不再只是谁的模型更聪明，而是谁能更稳定、更便宜地把算力变成生产力。&lt;/strong&gt; 这也是为什么最近一条消息引发行业强烈关注——&lt;strong&gt;大型公司正在与芯片厂商签长期协议，做自己的定制 AI 芯片&lt;/strong&gt;。一旦算力成本和供应链被重新定义，整个产业格局都会被改写。&lt;/p&gt;
&lt;p&gt;这篇文章就围绕“定制 AI 芯片热潮”拆解技术路线，按“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构展开，帮你看清：&lt;strong&gt;为什么 GPU 不够用、为什么定制芯片会变成热点，以及怎样把这件事做成一条可落地的工程路线。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当专用芯片把算力变成规模化生产"&gt;效果展示：当“专用芯片”把算力变成规模化生产&lt;/h2&gt;
&lt;p&gt;定制 AI 芯片的价值不在“更快一点”，而在&lt;strong&gt;把算力从稀缺资源变成可复制的产能&lt;/strong&gt;。当系统不再完全依赖通用 GPU，你会看到三个明显变化：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：同样的推理吞吐，功耗下降、单位成本下降，服务规模更容易扩大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;供应更稳定&lt;/strong&gt;：减少对单一硬件生态的依赖，避免“排队等卡”的停摆风险。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;系统效率提升&lt;/strong&gt;：从芯片到网络再到软件栈全链路优化，吞吐与延迟同时改善。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;换句话说，定制 AI 芯片的价值不是“跑分快”，而是“&lt;strong&gt;能长期稳定供给&lt;/strong&gt;”。这正是热点的核心：当 AI 进入基础设施阶段，谁能把算力变成可预测的产能，谁就能控制下一轮竞争节奏。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么只靠-gpu开始显得吃力"&gt;问题描述：为什么“只靠 GPU”开始显得吃力？&lt;/h2&gt;
&lt;p&gt;GPU 仍是 AI 训练与推理的主力，但随着模型规模与调用量飞涨，传统路径越来越难支撑业务增长。主要痛点集中在四个方向：&lt;/p&gt;
&lt;h3 id="1-供给风险卡不是你想要就有"&gt;1) 供给风险：卡不是你想要就有&lt;/h3&gt;
&lt;p&gt;全球算力需求暴涨，GPU 供应链高度集中。哪怕预算充足，&lt;strong&gt;也可能在交付周期上被卡住&lt;/strong&gt;。这对依赖稳定 SLA 的产品来说是致命的。&lt;/p&gt;
&lt;h3 id="2-功耗与散热性能增长被能耗墙限制"&gt;2) 功耗与散热：性能增长被能耗墙限制&lt;/h3&gt;
&lt;p&gt;模型迭代让训练成本暴涨。功耗上升不仅意味着电费增加，还意味着散热系统重建、机房密度受限。&lt;strong&gt;“能耗墙”正在成为算力增长的新天花板。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-工作负载分化训练和推理不是一件事"&gt;3) 工作负载分化：训练和推理不是一件事&lt;/h3&gt;
&lt;p&gt;训练强调吞吐，推理强调延迟与成本。GPU 是通用方案，但在推理场景常常显得“过于昂贵”。当业务规模扩大，&lt;strong&gt;推理的成本压力比训练更突出。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="4-软件栈复杂通用硬件不等于通用效率"&gt;4) 软件栈复杂：通用硬件不等于通用效率&lt;/h3&gt;
&lt;p&gt;模型、框架、编译器、网络拓扑都在快速变化。GPU 能适配很多框架，但&lt;strong&gt;并不意味着它在所有任务上效率最优&lt;/strong&gt;。软件栈并非“万能钥匙”。&lt;/p&gt;
&lt;p&gt;这些问题让很多团队意识到：&lt;strong&gt;单靠通用 GPU 已经不是最优解&lt;/strong&gt;，尤其是在推理规模化阶段。于是，定制芯片的热潮出现——这不是潮流，而是现实压力的必然结果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学打造定制-ai-芯片--系统共设计的工程路线"&gt;步骤教学：打造“定制 AI 芯片 + 系统共设计”的工程路线&lt;/h2&gt;
&lt;p&gt;如果要把定制芯片真正落地，必须从“业务需求”反推“硬件设计”，再反推“软件栈”，最终形成完整闭环。下面是一条可操作的路线图：&lt;/p&gt;
&lt;h3 id="步骤-1明确负载画像训练-vs-推理"&gt;步骤 1：明确负载画像（训练 vs 推理）&lt;/h3&gt;
&lt;p&gt;先别谈芯片，先谈业务。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练：吞吐优先，追求大批量并行与高带宽。&lt;/li&gt;
&lt;li&gt;推理：延迟与成本优先，追求高并发与低功耗。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;如果你的业务 80% 是推理，定制芯片更可能带来巨大收益。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;关键动作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对典型任务做 profiling（计算密度、显存占用、带宽需求）&lt;/li&gt;
&lt;li&gt;给每类工作负载定义“成本/延迟/吞吐”三维目标&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2定义性能指标与功耗目标"&gt;步骤 2：定义性能指标与功耗目标&lt;/h3&gt;
&lt;p&gt;定制芯片不是追求“绝对性能”，而是追求“&lt;strong&gt;性能/功耗比&lt;/strong&gt;”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设定峰值吞吐（例如 tokens/s 或 samples/s）&lt;/li&gt;
&lt;li&gt;设定功耗上限（TDP）&lt;/li&gt;
&lt;li&gt;设定单位成本（每次推理/训练的美元成本）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;指标清晰，才能避免“做出来但不划算”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-3确定架构策略专用加速--可编程性"&gt;步骤 3：确定架构策略（专用加速 + 可编程性）&lt;/h3&gt;
&lt;p&gt;定制芯片不是“写死”某个模型，而是&lt;strong&gt;对高频算子做硬化&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;常见策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;专用矩阵乘法单元（Tensor Core 类）&lt;/li&gt;
&lt;li&gt;高带宽内存（HBM）+ 高速互连&lt;/li&gt;
&lt;li&gt;对注意力机制、稀疏计算等优化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同时保留一定的可编程性，确保模型迭代不至于“硬件被淘汰”。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-4建立软件-硬件协同的开发流程"&gt;步骤 4：建立“软件-硬件协同”的开发流程&lt;/h3&gt;
&lt;p&gt;定制芯片的成功关键在于 &lt;strong&gt;软件栈能否真正用起来&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;你需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;编译器与算子库（确保框架可调用）&lt;/li&gt;
&lt;li&gt;模型编译优化（图优化、算子融合）&lt;/li&gt;
&lt;li&gt;性能回归工具（每次更新都可对比）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;硬件做得再好，软件栈跟不上，仍然无法落地。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-5网络与系统级设计别只盯芯片"&gt;步骤 5：网络与系统级设计（别只盯芯片）&lt;/h3&gt;
&lt;p&gt;AI 不只是单卡问题，而是系统问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高速互连（降低节点间通信瓶颈）&lt;/li&gt;
&lt;li&gt;机架拓扑设计（优化带宽与延迟）&lt;/li&gt;
&lt;li&gt;机房功耗与散热布局&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多性能损耗发生在“芯片外”。如果系统级设计缺失，你的定制芯片收益会被吞噬。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-6灰度验证与规模化交付"&gt;步骤 6：灰度验证与规模化交付&lt;/h3&gt;
&lt;p&gt;不要一上来就“全量迁移”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;先在低风险推理场景验证（内部服务或非核心业务）&lt;/li&gt;
&lt;li&gt;与 GPU 并行运行一段时间，做稳定性与成本对比&lt;/li&gt;
&lt;li&gt;形成标准化部署手册与容灾方案&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;定制芯片是基础设施，不是一次性项目。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结定制-ai-芯片不是卷硬件而是卷系统能力"&gt;升华总结：定制 AI 芯片不是“卷硬件”，而是“卷系统能力”&lt;/h2&gt;
&lt;p&gt;这轮“定制 AI 芯片热潮”之所以成为热点，不是因为行业突然迷信硬件，而是因为&lt;strong&gt;AI 进入了基础设施竞争阶段&lt;/strong&gt;。当模型能力趋同，真正决定胜负的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你的算力成本能否长期稳定下降？&lt;/li&gt;
&lt;li&gt;你的供应链是否能抵抗波动？&lt;/li&gt;
&lt;li&gt;你的系统能否承受持续扩张？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;换句话说，&lt;strong&gt;真正的差距是系统能力，而不是单一芯片性能。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从 GPU 到定制芯片，本质上是一次“工程思维”的回归：把 AI 当成产业，而不是当成 Demo。谁能把这条系统级路线走顺，谁就有机会在下一轮 AI 竞争中领先一步。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：Simply Wall St｜Broadcom’s New AI Chip Deals With Google And Anthropic Shape Valuation：&lt;a href="https://simplywall.st/stocks/us/semiconductors/nasdaq-avgo/broadcom/news/broadcoms-new-ai-chip-deals-with-google-and-anthropic-shape"&gt;https://simplywall.st/stocks/us/semiconductors/nasdaq-avgo/broadcom/news/broadcoms-new-ai-chip-deals-with-google-and-anthropic-shape&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：The Motley Fool｜Which Artificial Intelligence (AI) Supercycle Stock Will Make You Richer Over the Next 10 Years?：&lt;a href="https://www.fool.com/investing/2026/04/06/which-artificial-intelligence-ai-supercycle-growth/"&gt;https://www.fool.com/investing/2026/04/06/which-artificial-intelligence-ai-supercycle-growth/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：Poorops：&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>