<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI芯片 on POOROPS</title><link>https://blog.20231106.xyz/tags/ai%E8%8A%AF%E7%89%87/</link><description>Recent content in AI芯片 on POOROPS</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>poorops@163.com (poorops)</managingEditor><webMaster>poorops@163.com (poorops)</webMaster><lastBuildDate>Tue, 07 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.20231106.xyz/tags/ai%E8%8A%AF%E7%89%87/index.xml" rel="self" type="application/rss+xml"/><item><title>定制AI芯片热潮：从GPU不够用到系统级共设计的工程路线</title><link>https://blog.20231106.xyz/posts/2026-04-07/custom-ai-chips-system-co-design/</link><pubDate>Tue, 07 Apr 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-04-07/custom-ai-chips-system-co-design/</guid><description>&lt;p&gt;凌晨三点，机房里只剩风扇的嗡鸣。值班同事发来一条消息：“又一批训练任务排队到下周了，GPU 已经被挤爆。”我盯着监控面板上的功耗曲线，突然意识到一个事实：&lt;strong&gt;这轮 AI 竞争，不再只是谁的模型更聪明，而是谁能更稳定、更便宜地把算力变成生产力。&lt;/strong&gt; 这也是为什么最近一条消息引发行业强烈关注——&lt;strong&gt;大型公司正在与芯片厂商签长期协议，做自己的定制 AI 芯片&lt;/strong&gt;。一旦算力成本和供应链被重新定义，整个产业格局都会被改写。&lt;/p&gt;
&lt;p&gt;这篇文章就围绕“定制 AI 芯片热潮”拆解技术路线，按“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构展开，帮你看清：&lt;strong&gt;为什么 GPU 不够用、为什么定制芯片会变成热点，以及怎样把这件事做成一条可落地的工程路线。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当专用芯片把算力变成规模化生产"&gt;效果展示：当“专用芯片”把算力变成规模化生产&lt;/h2&gt;
&lt;p&gt;定制 AI 芯片的价值不在“更快一点”，而在&lt;strong&gt;把算力从稀缺资源变成可复制的产能&lt;/strong&gt;。当系统不再完全依赖通用 GPU，你会看到三个明显变化：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：同样的推理吞吐，功耗下降、单位成本下降，服务规模更容易扩大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;供应更稳定&lt;/strong&gt;：减少对单一硬件生态的依赖，避免“排队等卡”的停摆风险。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;系统效率提升&lt;/strong&gt;：从芯片到网络再到软件栈全链路优化，吞吐与延迟同时改善。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;换句话说，定制 AI 芯片的价值不是“跑分快”，而是“&lt;strong&gt;能长期稳定供给&lt;/strong&gt;”。这正是热点的核心：当 AI 进入基础设施阶段，谁能把算力变成可预测的产能，谁就能控制下一轮竞争节奏。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么只靠-gpu开始显得吃力"&gt;问题描述：为什么“只靠 GPU”开始显得吃力？&lt;/h2&gt;
&lt;p&gt;GPU 仍是 AI 训练与推理的主力，但随着模型规模与调用量飞涨，传统路径越来越难支撑业务增长。主要痛点集中在四个方向：&lt;/p&gt;
&lt;h3 id="1-供给风险卡不是你想要就有"&gt;1) 供给风险：卡不是你想要就有&lt;/h3&gt;
&lt;p&gt;全球算力需求暴涨，GPU 供应链高度集中。哪怕预算充足，&lt;strong&gt;也可能在交付周期上被卡住&lt;/strong&gt;。这对依赖稳定 SLA 的产品来说是致命的。&lt;/p&gt;
&lt;h3 id="2-功耗与散热性能增长被能耗墙限制"&gt;2) 功耗与散热：性能增长被能耗墙限制&lt;/h3&gt;
&lt;p&gt;模型迭代让训练成本暴涨。功耗上升不仅意味着电费增加，还意味着散热系统重建、机房密度受限。&lt;strong&gt;“能耗墙”正在成为算力增长的新天花板。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-工作负载分化训练和推理不是一件事"&gt;3) 工作负载分化：训练和推理不是一件事&lt;/h3&gt;
&lt;p&gt;训练强调吞吐，推理强调延迟与成本。GPU 是通用方案，但在推理场景常常显得“过于昂贵”。当业务规模扩大，&lt;strong&gt;推理的成本压力比训练更突出。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="4-软件栈复杂通用硬件不等于通用效率"&gt;4) 软件栈复杂：通用硬件不等于通用效率&lt;/h3&gt;
&lt;p&gt;模型、框架、编译器、网络拓扑都在快速变化。GPU 能适配很多框架，但&lt;strong&gt;并不意味着它在所有任务上效率最优&lt;/strong&gt;。软件栈并非“万能钥匙”。&lt;/p&gt;
&lt;p&gt;这些问题让很多团队意识到：&lt;strong&gt;单靠通用 GPU 已经不是最优解&lt;/strong&gt;，尤其是在推理规模化阶段。于是，定制芯片的热潮出现——这不是潮流，而是现实压力的必然结果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学打造定制-ai-芯片--系统共设计的工程路线"&gt;步骤教学：打造“定制 AI 芯片 + 系统共设计”的工程路线&lt;/h2&gt;
&lt;p&gt;如果要把定制芯片真正落地，必须从“业务需求”反推“硬件设计”，再反推“软件栈”，最终形成完整闭环。下面是一条可操作的路线图：&lt;/p&gt;
&lt;h3 id="步骤-1明确负载画像训练-vs-推理"&gt;步骤 1：明确负载画像（训练 vs 推理）&lt;/h3&gt;
&lt;p&gt;先别谈芯片，先谈业务。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练：吞吐优先，追求大批量并行与高带宽。&lt;/li&gt;
&lt;li&gt;推理：延迟与成本优先，追求高并发与低功耗。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;如果你的业务 80% 是推理，定制芯片更可能带来巨大收益。&lt;/strong&gt;&lt;/p&gt;</description><content>&lt;p&gt;凌晨三点，机房里只剩风扇的嗡鸣。值班同事发来一条消息：“又一批训练任务排队到下周了，GPU 已经被挤爆。”我盯着监控面板上的功耗曲线，突然意识到一个事实：&lt;strong&gt;这轮 AI 竞争，不再只是谁的模型更聪明，而是谁能更稳定、更便宜地把算力变成生产力。&lt;/strong&gt; 这也是为什么最近一条消息引发行业强烈关注——&lt;strong&gt;大型公司正在与芯片厂商签长期协议，做自己的定制 AI 芯片&lt;/strong&gt;。一旦算力成本和供应链被重新定义，整个产业格局都会被改写。&lt;/p&gt;
&lt;p&gt;这篇文章就围绕“定制 AI 芯片热潮”拆解技术路线，按“效果展示 → 问题描述 → 步骤教学 → 升华总结”结构展开，帮你看清：&lt;strong&gt;为什么 GPU 不够用、为什么定制芯片会变成热点，以及怎样把这件事做成一条可落地的工程路线。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="效果展示当专用芯片把算力变成规模化生产"&gt;效果展示：当“专用芯片”把算力变成规模化生产&lt;/h2&gt;
&lt;p&gt;定制 AI 芯片的价值不在“更快一点”，而在&lt;strong&gt;把算力从稀缺资源变成可复制的产能&lt;/strong&gt;。当系统不再完全依赖通用 GPU，你会看到三个明显变化：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：同样的推理吞吐，功耗下降、单位成本下降，服务规模更容易扩大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;供应更稳定&lt;/strong&gt;：减少对单一硬件生态的依赖，避免“排队等卡”的停摆风险。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;系统效率提升&lt;/strong&gt;：从芯片到网络再到软件栈全链路优化，吞吐与延迟同时改善。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;换句话说，定制 AI 芯片的价值不是“跑分快”，而是“&lt;strong&gt;能长期稳定供给&lt;/strong&gt;”。这正是热点的核心：当 AI 进入基础设施阶段，谁能把算力变成可预测的产能，谁就能控制下一轮竞争节奏。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="问题描述为什么只靠-gpu开始显得吃力"&gt;问题描述：为什么“只靠 GPU”开始显得吃力？&lt;/h2&gt;
&lt;p&gt;GPU 仍是 AI 训练与推理的主力，但随着模型规模与调用量飞涨，传统路径越来越难支撑业务增长。主要痛点集中在四个方向：&lt;/p&gt;
&lt;h3 id="1-供给风险卡不是你想要就有"&gt;1) 供给风险：卡不是你想要就有&lt;/h3&gt;
&lt;p&gt;全球算力需求暴涨，GPU 供应链高度集中。哪怕预算充足，&lt;strong&gt;也可能在交付周期上被卡住&lt;/strong&gt;。这对依赖稳定 SLA 的产品来说是致命的。&lt;/p&gt;
&lt;h3 id="2-功耗与散热性能增长被能耗墙限制"&gt;2) 功耗与散热：性能增长被能耗墙限制&lt;/h3&gt;
&lt;p&gt;模型迭代让训练成本暴涨。功耗上升不仅意味着电费增加，还意味着散热系统重建、机房密度受限。&lt;strong&gt;“能耗墙”正在成为算力增长的新天花板。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="3-工作负载分化训练和推理不是一件事"&gt;3) 工作负载分化：训练和推理不是一件事&lt;/h3&gt;
&lt;p&gt;训练强调吞吐，推理强调延迟与成本。GPU 是通用方案，但在推理场景常常显得“过于昂贵”。当业务规模扩大，&lt;strong&gt;推理的成本压力比训练更突出。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="4-软件栈复杂通用硬件不等于通用效率"&gt;4) 软件栈复杂：通用硬件不等于通用效率&lt;/h3&gt;
&lt;p&gt;模型、框架、编译器、网络拓扑都在快速变化。GPU 能适配很多框架，但&lt;strong&gt;并不意味着它在所有任务上效率最优&lt;/strong&gt;。软件栈并非“万能钥匙”。&lt;/p&gt;
&lt;p&gt;这些问题让很多团队意识到：&lt;strong&gt;单靠通用 GPU 已经不是最优解&lt;/strong&gt;，尤其是在推理规模化阶段。于是，定制芯片的热潮出现——这不是潮流，而是现实压力的必然结果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="步骤教学打造定制-ai-芯片--系统共设计的工程路线"&gt;步骤教学：打造“定制 AI 芯片 + 系统共设计”的工程路线&lt;/h2&gt;
&lt;p&gt;如果要把定制芯片真正落地，必须从“业务需求”反推“硬件设计”，再反推“软件栈”，最终形成完整闭环。下面是一条可操作的路线图：&lt;/p&gt;
&lt;h3 id="步骤-1明确负载画像训练-vs-推理"&gt;步骤 1：明确负载画像（训练 vs 推理）&lt;/h3&gt;
&lt;p&gt;先别谈芯片，先谈业务。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练：吞吐优先，追求大批量并行与高带宽。&lt;/li&gt;
&lt;li&gt;推理：延迟与成本优先，追求高并发与低功耗。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;如果你的业务 80% 是推理，定制芯片更可能带来巨大收益。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;关键动作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对典型任务做 profiling（计算密度、显存占用、带宽需求）&lt;/li&gt;
&lt;li&gt;给每类工作负载定义“成本/延迟/吞吐”三维目标&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id="步骤-2定义性能指标与功耗目标"&gt;步骤 2：定义性能指标与功耗目标&lt;/h3&gt;
&lt;p&gt;定制芯片不是追求“绝对性能”，而是追求“&lt;strong&gt;性能/功耗比&lt;/strong&gt;”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;设定峰值吞吐（例如 tokens/s 或 samples/s）&lt;/li&gt;
&lt;li&gt;设定功耗上限（TDP）&lt;/li&gt;
&lt;li&gt;设定单位成本（每次推理/训练的美元成本）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;指标清晰，才能避免“做出来但不划算”。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-3确定架构策略专用加速--可编程性"&gt;步骤 3：确定架构策略（专用加速 + 可编程性）&lt;/h3&gt;
&lt;p&gt;定制芯片不是“写死”某个模型，而是&lt;strong&gt;对高频算子做硬化&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;常见策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;专用矩阵乘法单元（Tensor Core 类）&lt;/li&gt;
&lt;li&gt;高带宽内存（HBM）+ 高速互连&lt;/li&gt;
&lt;li&gt;对注意力机制、稀疏计算等优化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同时保留一定的可编程性，确保模型迭代不至于“硬件被淘汰”。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-4建立软件-硬件协同的开发流程"&gt;步骤 4：建立“软件-硬件协同”的开发流程&lt;/h3&gt;
&lt;p&gt;定制芯片的成功关键在于 &lt;strong&gt;软件栈能否真正用起来&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;你需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;编译器与算子库（确保框架可调用）&lt;/li&gt;
&lt;li&gt;模型编译优化（图优化、算子融合）&lt;/li&gt;
&lt;li&gt;性能回归工具（每次更新都可对比）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;硬件做得再好，软件栈跟不上，仍然无法落地。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-5网络与系统级设计别只盯芯片"&gt;步骤 5：网络与系统级设计（别只盯芯片）&lt;/h3&gt;
&lt;p&gt;AI 不只是单卡问题，而是系统问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高速互连（降低节点间通信瓶颈）&lt;/li&gt;
&lt;li&gt;机架拓扑设计（优化带宽与延迟）&lt;/li&gt;
&lt;li&gt;机房功耗与散热布局&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多性能损耗发生在“芯片外”。如果系统级设计缺失，你的定制芯片收益会被吞噬。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="步骤-6灰度验证与规模化交付"&gt;步骤 6：灰度验证与规模化交付&lt;/h3&gt;
&lt;p&gt;不要一上来就“全量迁移”。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;先在低风险推理场景验证（内部服务或非核心业务）&lt;/li&gt;
&lt;li&gt;与 GPU 并行运行一段时间，做稳定性与成本对比&lt;/li&gt;
&lt;li&gt;形成标准化部署手册与容灾方案&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;定制芯片是基础设施，不是一次性项目。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="升华总结定制-ai-芯片不是卷硬件而是卷系统能力"&gt;升华总结：定制 AI 芯片不是“卷硬件”，而是“卷系统能力”&lt;/h2&gt;
&lt;p&gt;这轮“定制 AI 芯片热潮”之所以成为热点，不是因为行业突然迷信硬件，而是因为&lt;strong&gt;AI 进入了基础设施竞争阶段&lt;/strong&gt;。当模型能力趋同，真正决定胜负的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你的算力成本能否长期稳定下降？&lt;/li&gt;
&lt;li&gt;你的供应链是否能抵抗波动？&lt;/li&gt;
&lt;li&gt;你的系统能否承受持续扩张？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;换句话说，&lt;strong&gt;真正的差距是系统能力，而不是单一芯片性能。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从 GPU 到定制芯片，本质上是一次“工程思维”的回归：把 AI 当成产业，而不是当成 Demo。谁能把这条系统级路线走顺，谁就有机会在下一轮 AI 竞争中领先一步。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;来源：Simply Wall St｜Broadcom’s New AI Chip Deals With Google And Anthropic Shape Valuation：&lt;a href="https://simplywall.st/stocks/us/semiconductors/nasdaq-avgo/broadcom/news/broadcoms-new-ai-chip-deals-with-google-and-anthropic-shape"&gt;https://simplywall.st/stocks/us/semiconductors/nasdaq-avgo/broadcom/news/broadcoms-new-ai-chip-deals-with-google-and-anthropic-shape&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;来源：The Motley Fool｜Which Artificial Intelligence (AI) Supercycle Stock Will Make You Richer Over the Next 10 Years?：&lt;a href="https://www.fool.com/investing/2026/04/06/which-artificial-intelligence-ai-supercycle-growth/"&gt;https://www.fool.com/investing/2026/04/06/which-artificial-intelligence-ai-supercycle-growth/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：Poorops：&lt;a href="https://www.poorops.com/"&gt;https://www.poorops.com/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</content></item><item><title>AI芯片自研潮：从Terafab到算力瓶颈的破局路径</title><link>https://blog.20231106.xyz/posts/2026-03-23/ai-chip-inhouse-terafab-compute-bottleneck/</link><pubDate>Mon, 23 Mar 2026 09:00:00 +0800</pubDate><author>poorops@163.com (poorops)</author><guid>https://blog.20231106.xyz/posts/2026-03-23/ai-chip-inhouse-terafab-compute-bottleneck/</guid><description>&lt;p&gt;凌晨 1 点半，业务线还在开会。客服、搜索、风控三个团队都在抢同一池 GPU。数据中心的电费像水龙头一样开着，模型越大、上下文越长，系统就越像被拉紧的橡皮筋，随时可能断。&lt;/p&gt;
&lt;p&gt;就在这时候，&lt;strong&gt;“Terafab 自研 AI 芯片工厂”&lt;strong&gt;的新闻刷出来了。那一瞬间，我第一次认真思考：&lt;/strong&gt;“也许，真正的瓶颈不是模型，而是我们对算力的依赖方式。”&lt;/strong&gt; 这篇文章就围绕这个热点展开：为什么 AI 芯片自研突然成为 2026 的主旋律？如果你是企业技术负责人，如何判断是否该走这条路？&lt;/p&gt;
&lt;p&gt;我会按照一个清晰的结构来讲：&lt;strong&gt;先看效果展示，再拆痛点，然后给出落地步骤，最后回到趋势总结。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="效果展示算力不是更快而是更可控"&gt;效果展示：算力不是“更快”，而是“更可控”&lt;/h2&gt;
&lt;p&gt;当行业开始谈“自研芯片”，本质上是追求 &lt;strong&gt;三件事的同时成立&lt;/strong&gt;：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：推理成本不再随 GPU 价格波动；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;吞吐可控&lt;/strong&gt;：峰值请求不需要靠“限流+排队”硬扛；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;路线可控&lt;/strong&gt;：核心业务不再被供应链节奏左右。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Terafab 的信号在于，它代表 &lt;strong&gt;“算力工业化”&lt;/strong&gt; 的进一步延伸：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从采购 GPU 变成自建“算力工厂”；&lt;/li&gt;
&lt;li&gt;从被动等待下一代卡，变成主动设计适配自己工作负载的架构；&lt;/li&gt;
&lt;li&gt;从单点性能追逐，变成系统级效率优化（能耗、带宽、调度一体化）。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是“更快”的故事，而是**“更可控”**。当控制权回到自己手里，业务的上限就被重新定义了。&lt;/p&gt;
&lt;h2 id="问题描述为什么再买更多-gpu已经不够了"&gt;问题描述：为什么“再买更多 GPU”已经不够了？&lt;/h2&gt;
&lt;p&gt;很多团队把瓶颈理解成“GPU 不够多”，但真正的问题更复杂：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;算力成本结构失衡&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;训练与推理的比例已经彻底反转。过去“训练为王”，现在“推理才是消耗大头”。当推理成为持续性成本，&lt;strong&gt;一次性采购 GPU 已经不是最优解&lt;/strong&gt;。&lt;/p&gt;
&lt;ol start="2"&gt;
&lt;li&gt;&lt;strong&gt;供应链与扩容节奏不可控&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;当市场热度上升时，GPU 的交期像潮汐一样反复。&lt;strong&gt;“等卡”成为增长天花板&lt;/strong&gt;，而不是工程能力的体现。&lt;/p&gt;
&lt;ol start="3"&gt;
&lt;li&gt;&lt;strong&gt;工作负载高度定制化&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;很多业务并不需要“最强通用 GPU”，而需要对某些算子、模型结构、I/O 形态做优化。&lt;strong&gt;用通用芯片跑专用负载，其实是结构性浪费&lt;/strong&gt;。&lt;/p&gt;
&lt;ol start="4"&gt;
&lt;li&gt;&lt;strong&gt;系统瓶颈并不在芯片单点&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;推理链路的瓶颈常常在内存带宽、通信延迟、请求调度。&lt;strong&gt;单卡再快，也可能被系统层面的“堵车”拖慢&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;所以，当越来越多公司谈自研芯片，其实是在回答一个现实问题：&lt;strong&gt;如果继续被动追随通用 GPU 的节奏，我们的业务增长就会变成“供应链函数”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学如何评估自研-ai-芯片是否值得做"&gt;步骤教学：如何评估“自研 AI 芯片”是否值得做？&lt;/h2&gt;
&lt;p&gt;下面是一套可落地的评估与行动路径。不是每家公司都该自研，但每家公司都该看懂这套逻辑。&lt;/p&gt;
&lt;h3 id="第一步确认你的算力画像"&gt;第一步：确认你的“算力画像”&lt;/h3&gt;
&lt;p&gt;先把负载结构做清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;推理占比&lt;/strong&gt;：真实成本里推理占多少？是否已超过训练成本？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型结构&lt;/strong&gt;：是 Transformer 大模型、还是多模态/稀疏专家模型？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算子热点&lt;/strong&gt;：大部分时间卡在矩阵乘、注意力、还是 IO？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;峰值并发&lt;/strong&gt;：业务峰值是否远高于平均值？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;只有当你的负载结构足够稳定，并且具备明显“热点”算子，才可能通过自研得到结构性收益。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第二步算清买-vs-做的真实成本"&gt;第二步：算清“买 vs 做”的真实成本&lt;/h3&gt;
&lt;p&gt;自研芯片从来不只是芯片本身，还包括：&lt;/p&gt;</description><content>&lt;p&gt;凌晨 1 点半，业务线还在开会。客服、搜索、风控三个团队都在抢同一池 GPU。数据中心的电费像水龙头一样开着，模型越大、上下文越长，系统就越像被拉紧的橡皮筋，随时可能断。&lt;/p&gt;
&lt;p&gt;就在这时候，&lt;strong&gt;“Terafab 自研 AI 芯片工厂”&lt;strong&gt;的新闻刷出来了。那一瞬间，我第一次认真思考：&lt;/strong&gt;“也许，真正的瓶颈不是模型，而是我们对算力的依赖方式。”&lt;/strong&gt; 这篇文章就围绕这个热点展开：为什么 AI 芯片自研突然成为 2026 的主旋律？如果你是企业技术负责人，如何判断是否该走这条路？&lt;/p&gt;
&lt;p&gt;我会按照一个清晰的结构来讲：&lt;strong&gt;先看效果展示，再拆痛点，然后给出落地步骤，最后回到趋势总结。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="效果展示算力不是更快而是更可控"&gt;效果展示：算力不是“更快”，而是“更可控”&lt;/h2&gt;
&lt;p&gt;当行业开始谈“自研芯片”，本质上是追求 &lt;strong&gt;三件事的同时成立&lt;/strong&gt;：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：推理成本不再随 GPU 价格波动；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;吞吐可控&lt;/strong&gt;：峰值请求不需要靠“限流+排队”硬扛；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;路线可控&lt;/strong&gt;：核心业务不再被供应链节奏左右。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Terafab 的信号在于，它代表 &lt;strong&gt;“算力工业化”&lt;/strong&gt; 的进一步延伸：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从采购 GPU 变成自建“算力工厂”；&lt;/li&gt;
&lt;li&gt;从被动等待下一代卡，变成主动设计适配自己工作负载的架构；&lt;/li&gt;
&lt;li&gt;从单点性能追逐，变成系统级效率优化（能耗、带宽、调度一体化）。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是“更快”的故事，而是**“更可控”**。当控制权回到自己手里，业务的上限就被重新定义了。&lt;/p&gt;
&lt;h2 id="问题描述为什么再买更多-gpu已经不够了"&gt;问题描述：为什么“再买更多 GPU”已经不够了？&lt;/h2&gt;
&lt;p&gt;很多团队把瓶颈理解成“GPU 不够多”，但真正的问题更复杂：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;算力成本结构失衡&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;训练与推理的比例已经彻底反转。过去“训练为王”，现在“推理才是消耗大头”。当推理成为持续性成本，&lt;strong&gt;一次性采购 GPU 已经不是最优解&lt;/strong&gt;。&lt;/p&gt;
&lt;ol start="2"&gt;
&lt;li&gt;&lt;strong&gt;供应链与扩容节奏不可控&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;当市场热度上升时，GPU 的交期像潮汐一样反复。&lt;strong&gt;“等卡”成为增长天花板&lt;/strong&gt;，而不是工程能力的体现。&lt;/p&gt;
&lt;ol start="3"&gt;
&lt;li&gt;&lt;strong&gt;工作负载高度定制化&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;很多业务并不需要“最强通用 GPU”，而需要对某些算子、模型结构、I/O 形态做优化。&lt;strong&gt;用通用芯片跑专用负载，其实是结构性浪费&lt;/strong&gt;。&lt;/p&gt;
&lt;ol start="4"&gt;
&lt;li&gt;&lt;strong&gt;系统瓶颈并不在芯片单点&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;推理链路的瓶颈常常在内存带宽、通信延迟、请求调度。&lt;strong&gt;单卡再快，也可能被系统层面的“堵车”拖慢&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;所以，当越来越多公司谈自研芯片，其实是在回答一个现实问题：&lt;strong&gt;如果继续被动追随通用 GPU 的节奏，我们的业务增长就会变成“供应链函数”。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="步骤教学如何评估自研-ai-芯片是否值得做"&gt;步骤教学：如何评估“自研 AI 芯片”是否值得做？&lt;/h2&gt;
&lt;p&gt;下面是一套可落地的评估与行动路径。不是每家公司都该自研，但每家公司都该看懂这套逻辑。&lt;/p&gt;
&lt;h3 id="第一步确认你的算力画像"&gt;第一步：确认你的“算力画像”&lt;/h3&gt;
&lt;p&gt;先把负载结构做清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;推理占比&lt;/strong&gt;：真实成本里推理占多少？是否已超过训练成本？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型结构&lt;/strong&gt;：是 Transformer 大模型、还是多模态/稀疏专家模型？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算子热点&lt;/strong&gt;：大部分时间卡在矩阵乘、注意力、还是 IO？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;峰值并发&lt;/strong&gt;：业务峰值是否远高于平均值？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;只有当你的负载结构足够稳定，并且具备明显“热点”算子，才可能通过自研得到结构性收益。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第二步算清买-vs-做的真实成本"&gt;第二步：算清“买 vs 做”的真实成本&lt;/h3&gt;
&lt;p&gt;自研芯片从来不只是芯片本身，还包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;EDA 工具与设计团队成本&lt;/li&gt;
&lt;li&gt;流片与封装周期&lt;/li&gt;
&lt;li&gt;软件栈与编译器适配&lt;/li&gt;
&lt;li&gt;生态工具链（监控、调度、推理框架）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多公司低估的不是成本本身，而是&lt;strong&gt;周期风险&lt;/strong&gt;。如果业务节奏以月为单位，芯片节奏以年为单位，&lt;strong&gt;错配才是最大成本&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;一个实用的判断指标是：&lt;strong&gt;当你能持续确认 3~5 年内的负载稳定增长，自研才真正可能收回成本。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第三步确认自研的边界"&gt;第三步：确认“自研的边界”&lt;/h3&gt;
&lt;p&gt;现实中更多公司选择“半自研”或“定制化协作”，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;只做推理加速器&lt;/strong&gt;，把训练仍然交给通用 GPU；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;只定制关键模块&lt;/strong&gt;（比如注意力模块、KV 缓存加速），其余复用现成架构；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;与代工厂/供应链伙伴共建&lt;/strong&gt;，减轻全栈负担。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这是更可行的路径：&lt;strong&gt;不是所有公司都要做“全栈芯片厂”，但可以做“可控的关键模块”。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第四步构建软件栈与部署能力"&gt;第四步：构建软件栈与部署能力&lt;/h3&gt;
&lt;p&gt;自研的价值必须被软件释放。关键动作包括：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;推理框架适配&lt;/strong&gt;：确保模型编译链路可控&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算子优化与融合&lt;/strong&gt;：把“热点算子”变成自研芯片的最大收益点&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;调度与编排&lt;/strong&gt;：让资源分配围绕业务峰值而不是硬件指标&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;观测体系&lt;/strong&gt;：把吞吐、延迟、能耗作为核心 KPI 持续迭代&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;如果软件栈没有跟上，自研硬件只会成为昂贵的“孤岛”。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="第五步从-poc-到算力工厂"&gt;第五步：从 PoC 到“算力工厂”&lt;/h3&gt;
&lt;p&gt;最后一步才是规模化。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;先用小规模 PoC 验证一到两个关键负载&lt;/li&gt;
&lt;li&gt;再扩展到一个业务线的主推理链路&lt;/li&gt;
&lt;li&gt;最后形成“算力工厂”：硬件、调度、业务策略一体化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这才是 Terafab 类计划真正指向的终点：&lt;strong&gt;不是一块芯片，而是一整套可被持续经营的算力基础设施。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="升华总结ai-热点的下一阶段是算力主权"&gt;升华总结：AI 热点的下一阶段，是“算力主权”&lt;/h2&gt;
&lt;p&gt;回看这次“自研芯片”热潮，你会发现它不只是硬件升级，而是 AI 产业逻辑在变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;从模型竞争，走向基础设施竞争&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;从一次性采购，走向长期运营&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;从被动依赖供应链，走向算力主权的争夺&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Terafab 的出现，像是一枚信号弹：当 AI 真正进入规模化应用，&lt;strong&gt;算力不再是工具，而是业务命脉&lt;/strong&gt;。对很多公司来说，能否掌握这条命脉，决定了未来三年的增长空间。&lt;/p&gt;
&lt;p&gt;但这并不意味着所有人都要立刻自研芯片。更现实的答案是：&lt;strong&gt;看清自己的负载与瓶颈，做“正确层级”的控制权建设&lt;/strong&gt;。有的人从芯片开始，有的人从调度开始，有的人从推理成本开始。&lt;/p&gt;
&lt;p&gt;重要的是：&lt;strong&gt;不要再把“算力”当成天降资源，而是当成需要长期经营的生产力。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="参考链接"&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;CNBC：Spotify 押注 AI（行业对 AI 供给侧投入的信号）https://www.cnbc.com/2026/03/22/spotify-apple-amazon-streaming-music-ai.html&lt;/li&gt;
&lt;li&gt;The Hindu：Elon Musk 启动 Terafab AI 芯片项目 &lt;a href="https://www.thehindu.com/sci-tech/technology/elon-musk-launches-terafab-project-to-make-own-ai-chips/article70771715.ece"&gt;https://www.thehindu.com/sci-tech/technology/elon-musk-launches-terafab-project-to-make-own-ai-chips/article70771715.ece&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Seeking Alpha：Nvidia AI 需求结构性增长 &lt;a href="https://seekingalpha.com/article/4884808-nvidia-ai-is-here-to-stay-and-the-fear-is-misplaced-rating-upgrade"&gt;https://seekingalpha.com/article/4884808-nvidia-ai-is-here-to-stay-and-the-fear-is-misplaced-rating-upgrade&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;站点：https://www.poorops.com/&lt;/li&gt;
&lt;/ul&gt;</content></item></channel></rss>