News Center

以专业可见以品效说话

我们时刻观察全球动态

谷歌发布第六代TPU芯片
2024-05-15
阅读:320
来源:曲速超为

谷歌云今天宣布即将推出迄今为止最强大、最节能的张量处理单元 Trillium TPU

谷歌的 TPU Nvidia 公司的图形处理单元类似,后者已成为运行生成人工智能工作负载的最受欢迎的硬件。谷歌希望通过 Trillium 为企业提供 Nvidia GPU 的替代品。

Trillium今天在Google I/O 2024上推出,是该公司的第六代 TPU。它旨在为最苛刻的生成式人工智能模型和工作负载提供支持,提供比现有 TPU 显着增强的计算、内存和网络功能。

谷歌云机器学习、系统和云 AI 副总裁兼总经理 Amin Vadhat 表示,与谷歌宣布的目前最强大的芯片TPU v5e相比,Trillium TPU 的峰值计算性能提高了 4.7 倍。Cloud Next 去年八月。为了实现更高的性能,Google 投入了大量精力来扩展执行计算的矩阵乘法单元或 MXU 的大小,并提高了其整体时钟速度。

此外,Trillium GPU 的高带宽内存容量和带宽是原来的两倍,而芯片间互连带宽也增加了一倍。Amin 表示,这些增强功能将显着缩短大型语言模型的训练时间和服务延迟。

另一项新的创新是第三代SparseCore,它是一个专业加速器,用于处理先进的基于人工智能的排名和推荐系统中的超大嵌入。借此,Trillium TPU 将能够训练下一代基础人工智能模型,并以更低的延迟和成本为它们提供服务。Amin 表示,与此同时,它们的能效提升高达 67%,这意味着比 TPU v5e 更低的运行成本和更小的碳足迹。

谷歌表示,Trillium 将于今年晚些时候推出,能够在单个高带宽、低延迟 Pod 中扩展到超过 256 TPU。通过利用 Google Pod 级可扩展性、多切片技术和Titanium 智能处理单元方面的进步,用户将能够链接数百个 Trillium TPU 的单独 Pod,以构建 PB 级超级计算机和数据中心网络。

Google Cloud 的一些客户已经制定了使用 Trillium TPU 的计划。例如,谷歌DeepMind将使用新芯片来训练和服务下一代谷歌Gemini模型,并且比以前更快、更高效、延迟更低。此外,一家名为Deep Genomics Inc. 的公司正计划使用 Trillium TPU 来推进人工智能药物发现。

Deep Genomics 创始人兼首席信息官 Brendan Frey 表示:我们的使命是创建和应用先进的人工智能模型,以突破 RNA 治疗领域的可能性界限。他希望 Trillium TPU 能够改善其人工智能的训练和运行基础模型100倍。先进的人工智能模型突破了 RNA 治疗领域的可能性界限。

Trillium TPU 还将与Google Cloud AI 超级计算机项目集成,该项目是一个超级计算机平台,旨在运行尖端的 AI 工作负载。AI超级计算机将最先进的TPUGPU与开源软件框架和灵活的消费模型集成在一起,以支持极其强大的新型AI工作负载的开发。

Trillium 推出时,它将作为另一个硬件选项添加到 AI 超级计算机中,与谷歌的 TPU v5p Nvidia H100 GPU 一起。该公司还计划将 Nvidia 的新型 Blackwell GPU AI 超级计算机集成,但尚未透露具体时间,因此尚不清楚 Trillium TPU 是否会首先推出。

 

谷歌推出第六代 Google Cloud TPU Trillium

生成式人工智能正在改变我们与技术互动的方式,同时为业务影响带来巨大的效率机会。但这些进步需要更大的计算、内存和通信来训练和微调最有能力的模型,并以交互方式为全球用户群提供服务。十多年来,谷歌一直在开发定制的人工智能专用硬件、张量处理单元(TPU),以推动规模和效率的前沿发展。

该硬件支持我们今天在 Google I/O 上宣布的多项创新,包括Gemini 1.5 FlashImagen 3Gemma 2等新型号;所有这些模型都经过 TPU 训练并提供服务。为了提供下一代前沿模型并让您也能做到这一点,我们很高兴推出第六代 TPU Trillium,它是迄今为止性能最强、能效最高的 TPU

TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,令人印象深刻。我们将高带宽内存 (HBM) 容量和带宽增加了一倍,并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。此外,Trillium还配备了第三代SparseCore,这是一种专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,我们的第六代 TPU 也是最具可持续性的:Trillium TPU 的能效比 TPU v5e 高出 67% 以上。

Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和Titanium 智能处理单元 (IPU )Trillium TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络。

十多年前,谷歌认识到需要首款用于机器学习的芯片。2013 年,我们开始开发世界上第一个专用人工智能加速器 TPU v1,随后于 2017 年推出了第一个云 TPU。如果没有 TPUGoogle 的许多最受欢迎的服务(例如实时语音搜索、照片对象识别、交互式语言翻译以及 GeminiImagen Gemma 等最先进的基础模型都是不可能的。事实上,TPU 的规模和效率为 Google Research Transformers基础工作奠定了基础,而 Transformers 是现代生成人工智能的算法基础。

TPU 是专为神经网络而设计的,我们始终致力于改善 AI 工作负载的训练和服务时间。与 TPU v5e 相比,Trillium每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平,我们扩大了矩阵乘法单元 (MXU)的大小并提高了时钟速度。此外,SparseCores 通过战略性地卸载来自 TensorCores 的随机和细粒度访问来加速嵌入繁重的工作负载。

HBM 容量和带宽加倍使 Trillium 能够处理具有更多权重和更大键值缓存的更大模型。下一代 HBM 可实现更高的内存带宽、更高的能效以及灵活的通道架构,以提高内存吞吐量。这可以缩短大型模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍,访问速度更快,计算能力更强,可加速 ML 工作负载。ICI 带宽加倍使训练和推理作业能够扩展到数万个芯片,这得益于定制光学 ICI 互连与 Pod 256 个芯片的战略组合以及Google Jupiter Networking(将可扩展性扩展到集群中的数百个 Pod)。

Trillium TPU 将为下一波人工智能模型和代理提供动力,我们期待帮助我们的客户获得这些先进的功能。例如,自动驾驶汽车公司Nuro致力于通过机器人技术通过使用 Cloud TPU 训练模型来创造更美好的日常生活;Deep Genomics正在利用人工智能为药物发现的未来提供动力,并期待他们的下一个由 Trillium 提供支持的基础模型将如何改变患者的生活;谷歌云年度人工智能合作伙伴德勤将提供 Trillium,通过生成式人工智能实现业务转型。对 Trillium TPU 上长上下文、多模式模型的训练和服务的支持也将使Google DeepMind能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。

Trillium TPU Google Cloud人工智能超级计算机的一部分,这是一种专为尖端人工智能工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施(包括 Trillium TPU)、开源软件框架和灵活的消费模型。我们对 JAXPyTorch/XLA Keras 3 等开源库的承诺为开发人员提供支持。对 JAX XLA 的支持意味着为任何上一代 TPU 编写的声明性模型描述直接映射到 Trillium TPU 的新硬件和网络功能。我们还与 Hugging Face Optimum-TPU 上合作,以简化模型训练和服务。

我们与 Google Cloud 的合作使 Hugging Face 用户可以更轻松地在 Google Cloud AI 基础设施(包括 TPU)上微调和运行开放模型。我们很高兴能够通过即将推出的第六代Trillium TPU进一步加速开源 AI ,并且我们预计开放模型将继续提供最佳性能,因为与上一代相比,每个芯片的性能提高了 4.7 倍。我们将通过我们新的 Optimum-TPU 库,让所有 AI 构建者轻松获得 Trillium 的性能!” - Hugging Face 产品主管 Jeff Boudier说。

2017 年以来,Sada 每年都荣获年度合作伙伴奖,并提供 Google 云服务以实现最大影响。

作为值得骄傲的 Google Cloud 首要合作伙伴,SADA 与全球知名的 AI 先驱有着 20 年的悠久历史。我们正在为数千名不同的客户快速集成人工智能。凭借我们丰富的经验和人工智能超计算机架构,我们迫不及待地想帮助我们的客户利用 Trillium 释放生成人工智能模型的下一个前沿领域的价值。- Miles WardSada 首席技术官说

AI 超级计算机还提供 AI/ML 工作负载所需的灵活消费模型。动态工作负载调度程序 (DWS) 让访问 AI/ML 资源变得更加容易,并帮助客户优化支出。Flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载(例如训练、微调或批处理作业)的体验,无论您的入口点是什么:Vertex AI TrainingGoogle Kubernetes Engine (GKE) Google Cloud Compute引擎。

Lightricks 很高兴能够通过 AI 超级计算机的性能提升和效率提升来重新获得价值。

Cloud TPU v4 以来,我们一直在将 TPU 用于文本到图像和文本到视频模型。凭借 TPU v5p AI 超级计算机的效率,我们的训练速度实现了 2.5 倍的惊人提升!第六代 Trillium TPU 令人难以置信,与上一代相比,每芯片的计算性能提高了 4.7 倍,HBM 容量和带宽提高了 2 倍。当我们扩展文本到视频模型时,这对我们来说来得正是时候。我们还期待使用 Dynamic Workload Scheduler 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 TPU 预留。” - Lightricks 核心生成人工智能研究团队负责人Yoav HaCohen 博士说。

Google Cloud TPU 是人工智能加速领域的前沿技术,经过定制设计和优化,可为大规模人工智能模型提供支持。TPU 独家通过 Google Cloud 提供,为训练和服务 AI 解决方案提供无与伦比的性能和成本效益。无论是复杂的大型语言模型还是图像生成的创造性潜力,TPU 都有助于开发人员和研究人员突破人工智能世界的可能界限。

参考链接:https://siliconangle.com/2024/05/14/google-cloud-unveils-trillium-tpu-powerful-ai-processor-far/

 

文章转载自公众号半导体行业观察

原文链接:https://mp.weixin.qq.com/s/U_L4RnnQzRWdeiWPXbl6Mg

Copyright © 2025 曲速科技. All Rights Reserved.

浙ICP备19045871号-1