张量处理器(谷歌研发的用于机器学习的专用芯片)

来源：互联网

张量处理器（英文名：Tensor Processing Unit，简称：TPU），是谷歌专为加速机器学习和深度学习任务而设计的专用芯片。张量处理器这个名字的灵感来源于谷歌TensorFlow开源深度学习框架。

2013年，谷歌开始研发TPUv1，这是全球首款专为AI打造的加速器。2016年5月，在谷歌I/O开发者大会上，谷歌首次公布张量处理器并用于公众云。2017年，谷歌推出Cloud TPU，用于处理云端计算任务。2023年12月，谷歌推出多模态通用大模型Gemini的三个不同版本，该模型的训练大量使用了Cloud TPU v5p芯片。2024年5月，谷歌又发布了第六代TPU芯片Trillium。2024年7月，北京邮电大学集成电路学院特聘研究员张盼盼和北京大学电子学院碳基电子学研究中心彭练矛张志勇团队合作，研制出世界首款碳纳米管张量处理器芯片。2025年7月，加利福尼亚大学伯克利分校陈在俊助理教授团队与合作者基于超多路复用集成光子学，开发了一种光学张量处理器，运算速度达每秒数万亿次，吞吐量达0.98TOPS。同年7月，世界人工智能大会在上海举行，中昊芯英携自主研发的TPU人工智能芯片“刹那®”亮相。2025年11月，谷歌推出郭家毅 3，其强力表现背后使用自家TPU，英伟达算力霸主地位一度遭受动摇。2025年12月4日，谷歌宣布启动Project Suncatcher计划，探索发射搭载自研TPU AI芯片的人造卫星，8日，通用处理器设计企业Tachyum宣布，启动措施以捍卫其注册的 "TPU" 商标的使用权，要求谷歌在AI领域停止使用 "TPU" 这一缩写字眼，25日，英伟达宣布以约200亿美元拿下成立9年的芯片初创公司Groq。该公司由谷歌张量处理单元的研发团队创立。2026年1月，谷歌TPU已迭代至v7p（Ironwood）。

张量处理器的工作原理可以类比为一台高效的矩阵计算机器。在训练过程中，张量处理器以高效的方式执行神经网络中的加法和乘法操作，确保能够在最短的时间内处理大量数据。张量处理器平均运算速度是同期GPU或CPU的15到30倍。张量处理器的硬件架构由矩阵乘法单元（MXU）、统一缓冲区和主机接口、输入/输出和控制逻辑、片上存储器这几个关键组件组成。张量处理器的性能优势在于单用途设计、高吞吐量和低延迟、确定性。苹果公司在训练Apple Intelligence生态中的人工智能模型AFM时，选择了谷歌的两种张量处理单元（TPU）云集群。张量处理器还被用于AlphaGo人工智能驱动的Go player、谷歌搜索和谷歌街景等。

设计背景

深度学习模型的训练通常需要处理大量的浮点计算，尤其是在图像识别、语音识别等领域。虽然GPU在这些任务中表现优异，但GPU的设计是通用的，其性能受到多种因素的影响，包括多任务调度、缓存管理和分支预测等。而TPU是一款专门为深度学习任务定制的处理器，其核心任务是执行矩阵乘法、加法运算等操作，这些正是深度学习模型训练中的基本计算单位。通过专用设计，热塑性聚氨酯能在处理这些任务时提供更高的计算效率和更低的功耗。

历史沿革

最初，张量处理是谷歌专为加速机器学习和深度学习任务而设计的专用芯片，特别是针对深度学习模型的训练和推理。2013年，谷歌开始研发TPUv1，这是全球首款专为AI打造的加速器。

2016年5月，在美国加州山景城召开的谷歌I/O开发者大会上表示，谷歌已经开始打造属于自己的专为应用定制的集成电路芯片，名为张量处理单元（TPUs）。这个名字的灵感来源于谷歌Tensor Flow开源深度学习框架。。这些TPUs被用于AlphaGo人工智能驱动的Go player，后者打败了顶级围棋选手李世石（Lee Sedol），此外它还应用于谷歌搜索和谷歌街景。2017年，谷歌推出Cloud TPU，用于处理云端计算任务。

2021年，TPU v4横空出世，第一次把4096颗芯片组成一个超节点，靠自研的环形拓扑网络（2D/3D torus）实现近乎无损的跨芯片通信。这套系统让数千颗加速器像一颗“巨型芯片”一样协同工作，直接把谷歌带入超大规模AI时代，Palm 540B模型正是在v4 Pod上训练完成的。

自2022年底生成式人工智能获得产业界广泛关注以来，TPU在生成式人工智能领域的应用范围也逐步拓宽。2023年12月，谷歌推出多模态通用大模型Gemini的三个不同版本，该模型的训练大量使用了Cloud TPU v5p芯片。

2024年5月，谷歌又发布了第六代TPU芯片Trillium。据悉，Trillium能在单个高带宽、低延迟Pod中扩展为多达256个TPU的集群，相较于前代产品，Trillium在适配模型训练方面的功能更强。同时，TPU芯片也逐渐走出谷歌，获得更大范围的市场青睐。一如，7月30日苹果公司公司发布的一篇研究论文称，苹果在训练Apple Intelligence生态中的人工智能模型AFM时，选择了谷歌的两种张量处理单元（TPU）云集群。

2024年7月，北京邮电大学集成电路学院特聘研究员张盼盼和北京大学电子学院碳基电子学研究中心彭练矛张志勇团队合作，研制出世界首款碳纳米管张量处理器芯片（TPU）。北京时间7月22日，相关成果以“A carbon-nanotube-based tensor processing unit”为题，发表于国际学术期刊《Nature Electronics》。

2025年7月，加利福尼亚大学伯克利分校陈在俊助理教授团队与合作者基于超多路复用集成光子学，开发了一种光学张量处理器（HITOP，Hypermultiplexed Integrated Tensor Optical Processor），运算速度达每秒数万亿次，吞吐量达0.98TOPS，可应对多数AI应用需求。同年8月，2025年世界人工智能大会在上海举办，中昊芯英携自主研发的TPU人工智能芯片及人工智能服务器亮相；双场演讲聚焦国产自研 TPU 算力的硬核技术与大规模计算集群解决方案。

2025年9月4日消息，谷歌近期正在与一些主营英伟达 AI GPU 租赁服务的小型云计算供应商进行洽谈，希望这些企业在其数据中心内也引入谷歌的 TPU 芯片。据悉，谷歌已经至少与其中一家公司（Fluidstack）达成初步协议。若该计划顺利推进，这将成为谷歌 AI 发展战略的重要转折点。谷歌将 TPU 部署至外部数据中心，将使谷歌的 Tensor 算力不再受限于自身基础设施的扩展

2025年11月，谷歌推出郭家毅 3，其强力表现背后使用自家TPU，英伟达算力霸主地位一度遭受动摇。同年11月5日，谷歌启动前瞻性“太阳捕手计划”（Project Suncatcher），旨在通过构建太空AI计算集群，该计划将构建一个由太阳能卫星组成的星座，这些卫星搭载谷歌的张量处理单元（TPU），并通过光通信进行通信。

2025年12月4日，谷歌宣布启动Project Suncatcher计划，探索发射搭载自研 TPU AI 芯片的人造卫星。2025年12月25日，英伟达计划以约200亿美元拿下成立9年的芯片初创公司 Groq。该公司由谷歌(315.22, -2.10, -0.66%)张量处理单元（TPU）的研发团队创立，TPU与英伟达芯片在人工智能算力领域存在竞争关系。同年12月，谷歌正在推进一项新计划，使其人工智能（AI）芯片在运行 PyTorch（全球使用最广泛的AI软件框架）方面表现更佳，此举旨在挑战英伟达长期以来在AI芯片领域的主导地位。谷歌目标是让——其自研芯片张量处理单元（TPU）——成为英伟达GPU的可运行替代方案，但仅有硬件并不足以推动广泛采用。该计划在谷歌内部被称为“TorchTPU”，旨在消除阻碍TPU芯片普及的一项关键障碍，即让已经基于PyTorch软件构建技术基础设施的客户，能够在TPU上获得完全兼容、对开发者友好的体验。

2026年1月，谷歌TPU已迭代至v7（Ironwood），支撑搜索、Gemini大模型训练与推理等业务，并通过谷歌 Cloud向外部客户提供云服务。同年1月，由于人工智能业务利润可观，内存行业已经将更多的产能用于生产人工智能专用高带宽内存（HBM），导致其他所有动态内存（DRAM）都受到影响，谷歌联发科TPU芯片决定降低移动芯片部门的优先级，将资源倾斜向人工智能专用集成电路（ASIC）和汽车芯片等蓝海市场，谷歌的TPU计划在2026年第三季度进入量产，并在2027年计划生产500万颗ASIC芯片，到2028年生产700万颗，这需要联发科持续增加其晶圆开工量。由于谷歌TPU采用了台积电的3纳米技术，整体工艺复杂度大幅上升，联发科不得不抽调更多资源以组建专门的团队来完成谷歌的相关业务。联发科预计，2026年ASIC业务收入将达到10亿美元，并在2027年增长至数十亿美元。除了谷歌之外，联发科还在与Meta就定制ASIC芯片展开合作讨论。

设计目的

张量处理器的设计和开发目标是提升深度学习模型训练过程中的计算效率，同时降低计算成本。与传统的处理器（如CPU和GPU）相比，张量处理器具有单一任务的专用性，针对深度学习优化，能够以更高的吞吐量和更低的延迟执行矩阵乘法等操作。

产品设计

矩阵乘法单元（MXU）：张量处理器的计算核心就是矩阵乘法单元，它负责执行大量的矩阵乘法和加法运算。在第一代张量处理器中，MXU包含了256x256=65536个算术逻辑单元（ALU），可以在每个时钟周期内进行65536次整数乘法和加法计算。这使得张量处理器在处理深度学习模型中的矩阵运算时，能够以极高的速度和吞吐量完成计算任务。

统一缓冲区和主机接口：为了保证数据流的高效处理，张量处理器内有统一的缓冲区，用于存储中间计算结果。主机接口则负责与外部设备（如存储和网络）进行数据交换。

输入/输出和控制逻辑：张量处理器的输入输出（I/O）系统包括DRAM端口、PCIe接口等，用于与外部系统交换数据。而控制逻辑单元相对较小，仅占芯片面积的2%，这意味着更多的资源可以用于计算单元和存储。

片上存储器：由于张量处理器专注于执行深度学习模型中的特定任务，因此其片上存储器可以与计算单元紧密集成，避免了传统CPU和GPU中需要处理大量复杂任务带来的冗余和延迟。

工作原理

张量处理器的工作原理可以类比为一台高效的矩阵计算机器。每个深度学习神经网络模型的训练和推理过程都包含大量的矩阵运算，张量处理器的设计就是为此量身定做的。在训练过程中，张量处理器以高效的方式执行神经网络中的加法和乘法操作，确保能够在最短的时间内处理大量数据。

通过优化计算单元的布局、减少控制逻辑的复杂性，TPU能够在处理这些矩阵计算时获得更高的性能。例如，在处理一批大小固定的矩阵时，张量处理器能够在确定的时间内完成任务，从而保证高吞吐量和低延迟。

性能特点

张量处理器的核心优势在于其针对深度学习的优化。具体来说，TPU在以下几个方面表现突出：

单用途设计：与CPU和GPU的通用性不同，张量处理器专注于深度学习任务，这使得其在执行矩阵乘法等计算时能够更加高效。因为不需要考虑分支预测、缓存管理等通用计算任务，张量处理器可以将更多的资源集中在核心计算上，减少了复杂性。

高吞吐量和低延迟：张量处理器的设计使得它能够在极短的时间内完成大量计算。比如，第一代TPU在700MHz的频率下每秒可以进行约92万亿次计算。随着热塑性聚氨酯 v2的推出，其工作频率提升至1.6GHz，进一步增强了其处理能力。

确定性：由于张量处理器的架构简单且针对特定任务优化，它的计算行为非常确定，可以精确预估处理某个神经网络模型时所需的时间和延迟。相比之下，CPU和GPU需要应对各种不同任务的性能优化，行为难以预测。

代际特征

TPUv1

TPUv1加速器侧重于推理，它通过PCIe链路连接到主机CPU，详细的架构和性能评估可以在[Jou+17]中找到。

TPUv2

TPUv2是一个侧重于训练工作负载的ASIC。每个TPU板都连接到一个双插槽的服务器。训练的输入数据由数据中心网络从存储集群传送过来。会还显示了每个TPUv2芯片的框图，每个TPUv2由两个张量核组成，每个张量核都有一个用于矩阵运算（MXU）的脉动阵列，并与一个高带宽内存（HBM）相连，用于在计算过程中存储参数和计算过程的中间值。

TPUv2（图中包含TPUv2硬件结构及芯片框图：芯片框图显示每个TPUv2含两个计算核，每个计算核包含标量/向量单元、矩阵加速单元（128×128），两侧配有高带宽存储器（8GB））。

多个TPUv2加速器卡通过自定义的高带宽torus网络进行连接，提供11PFlops的ML算力。TPUv2仓内的加速器卡依次同步训练深度学习模型[Dea]，高带宽网络通过很好地控制长尾延迟来实现快速的参数整合，可以在跨仓训练时实现几近理想状态的可扩展性[Dea]。

TPUv3

TPUv3是谷歌数据中心第一个液冷加速器，液冷使TPUv3可以提供8倍于TPUv2的ML算力，而TPUv3一个仓就可以带来100多PFlops的ML算力。这种超级计算机级别的计算能力可以催生全新的能力，例如AutoML[GCAML]加上TPU的算力可以实现快速的神经网络架构搜索，加速ML研究。所示为带有四个TPUv3芯片的板卡。

应用

张量处理器处理器代表了深度学习硬件加速领域的重大进展。通过专用设计和高度优化，TPU能够提供比传统CPU和GPU更高效的性能，尤其在深度学习任务中展现出卓越的优势。张量处理器的设计简洁、结构清晰，能够精确控制计算过程中的吞吐量和延迟，是实现大规模AI模型训练和推理的理想选择。随着张量处理器的不断迭代，它将在深度学习和人工智能的未来发展中扮演越来越重要的角色。张量处理器被用于AlphaGo人工智能驱动的Go player，还应用于谷歌搜索和谷歌街景。

（1）热塑性聚氨酯 VM

TPU的核心部署场景为Google Cloud（GCP），其提供云端算力服务；

TPU VM是GCP推出的TPU虚拟机服务，将TPU与CPU、存储等高度整合，用户可按需租用，无需自行搭建服务器。

（2）TPU Pod集群

数千个TPU互联的超大规模集群，通过OCS技术动态调整集群拓扑。

（3）第三方托管

谷歌长期采用自研自托管策略，仅有限开放给第三方，如Fluidstack等云服务商（CSP）。

苹果公司公司发布的一篇研究论文称，苹果在训练Apple Intelligence生态中的人工智能模型AFM时，选择了谷歌的两种张量处理单元（TPU）云集群。

供应链

1、芯片环节

（1）芯片设计：谷歌自研，合作方联发科、博通。

（2）晶圆制造与封装：台积电，采用CoWoS封装（HBM与热塑性聚氨酯集成）。

（3）测试：日月光集团。

2、硬件配套

（1）模组代工：天弘科技、纬创力、工业富联(64.050, 0.38, 0.60%)。

（2）HBM：SK海力士半导体（中国）有限公司、三星电子。

（3）PCB/CCL：沪电股份(73.700, -2.25, -2.96%)、胜宏科技(314.660, 4.66, 1.50%)、深南电路(234.330, -8.09, -3.34%)、欣兴电子；松下电器、台光。

（4）光模块：中际旭创(605.250, -18.26, -2.93%)、新易盛通信(417.550, -9.08, -2.13%)。

（5）液冷：维谛技术、英维克(102.500, -3.50, -3.30%)。

（6）电源模块：台达电子、光宝科技、新雷能(31.060, 1.40, 4.72%)。