让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

这些芯片,干成了

发布日期:2024-12-04 08:55    点击次数:155

(原标题:这些芯片,干成了)

若是您但愿不错不时碰面,迎接标星保藏哦~

起首:内容编译自nextplatform,谢谢。

当超大范畴计较缔造和云计较构建者范畴较小、Arm 集体未能冲击数据中心且 AMD 尚未走上请问之路时,英特尔为止着新计较引擎进入数据中心的节律。

本周,英特尔首席践诺官帕特·基辛格被撤职,亚马逊相聚职业公司在拉斯维加斯举办了年度 re:Invent 大会,有 60,000 东谈主亲临现场,400,000 东谈主在线参会,由此不错看出,谁在超大范畴和云计较提供商的手艺推行速率上占据主导地位,这少许相当显著。

他们还能为止何时不推出新手艺,因为他们无谓像其他芯片计算公司那样有新址品不错出售。他们不像英特尔、AMD 和 Nvidia 那样向 ODM 和 OEM 销售计较引擎,而是创建捏造化实用体式并平直向客户出售原始容量的打听权限。从好多方面来看,这是一个愈加顺畅和容易的业务。

若是您昨晚半夜凝听了 AWS 公用计较高档副总裁 Peter DeSantis 的开幕主题演讲,以及今天 AWS 首席践诺官 Matt Garman 和母公司亚马逊首席践诺官 Andy Jassy 的主题演讲,那么您可能和咱们一样,正在恭候关系翌日计较引擎的一些公告,举例 Graviton5 职业器 CPU、Inferentia3 AI 推理加速器或 Trainium3 AI 试验加速器。

可惜的是,除了 Garman 的一张幻灯片展示了 Trainium3 采用 3 纳米工艺蚀刻而成(粗略是来自台湾半导体制造公司)除外,其性能是 Trainium2 的两倍,况兼每瓦性能比 Trainium2 逾越 40%,并没关系于翌日 AWS 将推出自主研发硅片的辩论。

Garman 补充说,Trainium3“将于来岁晚些时候推出”,这可能意味着它将在 2025 年 re:Invent 大会上推出。早在 6 月,就有传言称 AWS 高管证据 Trainium3 将冲突 1,000 瓦,这涓滴不会让咱们感到讶异。Nvidia 的顶级“Blackwell”B200 GPU 的峰值功率为 1,200 瓦。

这仍然比我家里其他东谈主使用的吹风机的瓦数要低,而且四十多年来我皆不需要吹风机了。是以咱们还莫得感到惊险失措。但它也有十几个白炽灯泡,这是一个奇怪的意见,特别是若是你从来莫得比及它们冷却充足长的时辰再把它们拿出来,而咱们频繁莫得这么作念。

咱们有点讶异,上个月的 SC24 超等计较会议上,咱们还莫得看到针对 HPC 期骗的 Graviton4E 深度分类,这将与 AWS在 2021 年 11 月对粗造 Graviton3和2022 年 11 月对增强型 Graviton3E所作念的一样。Graviton4 不错说是商场上最佳的基于 Arm 的职业器 CPU 之一,虽然亦然最安妥任何东谈主使用的 CPU,它于 2023 年 11 月问世,并于本年 9 月进行了内存进步。

AWS 对其 CPU、AI 加速器和 DPU 的年度发布节律简直莫得任何压力,若是你仔细检察 Nvidia 和 AMD 的 GPU 路子图,就会发现它们的中枢居品仍然每两年发布一次,第二年会针对第一年发布的 GPU 进行内存升级或性能养息。

AWS 的硅片开辟节律看起来是两年,中间会有一些波动。Graviton1 实验上是增强版的“Nitro”DPU 卡,它不算数。正如 DeSantis 在 2018 年推出 Graviton1 时的主题演讲中所说,Graviton1 是“向商场发出的信号”,旨在测试客户终于准备好在数据中心使用 Arm CPU 的意见。2019 年,跟着 Graviton2 的推出,AWS 采用了台积电的当代 7 纳米工艺,并使用 Arm Ltd 的“Ares”N1 内核创建了一款 64 核缔造,该缔造不错完成有效的责任,而且与在 AWS 云上运行的英特尔和 AMD 的 X86 CPU 比较,性价比逾越 40%。

两年后,Graviton3 问世,它采用了 Arm 功能更重大的“Zeus”V1 内核,尽管“唯独”64 个内核,但不错瞬息承担更大的任务。两年后,Graviton4 问世,咱们合计它松开到了 4 纳米 TSMC 工艺,将 96 个“Demeter”V2 内核塞进插槽,与十几个 DDR5 内存为止器搭配使用,内存带宽为 537.6 GB/秒。与 Graviton3 比较,Graviton4 的单核性能提高了 30%,内核数目加多了 50%,一般来说,性能提高了 2 倍,左证咱们在此处的订价分析,性价比提高了 13% 到 15%。在实验基准测试中,Graviton4 偶而可提供 40% 以上的性能

坦率地说,AWS 必须花两年时辰才能从处理器计算中收回这笔无数投资。因此,在本周的 re:Invent 2024 大会上期待任何关系 Graviton5 的音书是不对理的——若是不是霸术的话。不外,DeSantis、Garman 或 Jassy 也曾不错显现一些音书的。

AWS 的高层如简直主题演讲中提供了一些关系 Graviton 的兴致统计数据。AWS 计较和相聚职业副总裁 Dave Brown 展示了这张相当兴致的图表,它在一定进度上讲授了为什么英特尔最近几个季度的财务状态如斯晦气:

和轻视地说,AWS 四项中枢职业(Redshift Serverless 和 Aurora 数据库、Kafka 的托管流和 ElastiCache 搜索)下约一半的处理皆在 Graviton 实例上运行。在刚刚往时的 Prime Day 购物活动中,亚马逊租用了越过 250,000 台 Graviton 处理器来撑执该操作。

“最近,咱们达到了一个进军的里程碑,”布朗不息说谈。“在往时两年中,咱们数据中心中越过 50% 的 CPU 容量皆来自 AWS Graviton。想想看。Graviton 处理器的数目比所有这个词其他类型的处理器加起来还要多。”

这恰是微软多年前所说的想要作念的事情,也恰是咱们所生机的。从永恒来看,X86 是一个具有传统价钱的传统平台。就像之前的大型机和 RISC/Unix 一样。RISC-V 最终可能会对 Arm 架构产生这种影响。(咱们会看到,但具有开源和可组合块且有众人监督的开源 ISA 似乎是一条谈路。望望 Linux 如何投降操作系统并将 Windows Server 变成传统平台。)

Garman 暗意,这让咱们大致了解了 AWS 里面 Graviton 职业器群的范畴:“Graviton 正在荒诞增长。让咱们来看一下配景。2019 年,所有这个词这个词 AWS 的业务价值为 350 亿好意思元。如今,AWS 集群中运行的 Graviton 数目与 2019 年所有这个词计较量一样多。这是相当令东谈主印象深入的增长。”

咱们很想知谈 2019 年职业器机群的范畴以及刻下的范畴。咱们合计不错憨厚猜度的是,Graviton 职业器机群的增长速率比 AWS 自己更快,而且可能差距很大。这对英特尔的伤害比对 AMD 的伤害要大得多,因为多年来 AMD 的 X86 职业器 CPU 一直比英特尔更好。

Trainium将给AMD和Nvidia带来一些压力

Garman 之是以会辩论 Trainium3,独一的原因是 AI 试验(以及日益增长的推理)对高性能计较的需求增长速率远远越过任何东谈主能够提供的计较引擎。跟着 Nvidia 加大其“Blackwell”B100 和 B200 GPU 的插足,以及 AMD 来岁扩大其“Antares”MI300 系列的范畴,若是 AWS 但愿客户能够宽心肠将他们的 AI 责任负载移植到 Trainium,它就不可施展出不勇猛于加速其 AI 芯片的决心。因此,才有了 Trainium3 的传闻。

也便是说,咱们如实但愿 AWS 能在来岁 11 月或 12 月 re:Invent 大会召开之前对 Trainium3 发表一些其他批驳,因为其他所有这个词公司(谷歌和微软是最进军的公司)皆将在 2025 年对其自主研发的 AI 加速器发表一些批驳。

与 Graviton 系列一样,咱们合计 Trainium 系列从刻下运行也将以两年为周期推出。这些缔造价钱不菲,AWS 必须将 Trainium 开辟资天职管到尽可能多的缔造上,才能罢了财务方针——就像 Graviton CPU 一样。与 Gravitons 一样,咱们合计 AWS 一半的 AI 试验和推理身手将在其自主研发的 Annapurna Labs 芯片上罢了的一天并不远方。从永恒来看,这对 Nvidia 和 AMD 来说意味着艰苦。尤其是若是谷歌、微软、腾讯、百度和阿里巴巴皆作念相似的事情的话。

AWS 不会傻到试图在 GPU 加速器商场与 Nvidia 竞争,但就像谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 以及 Graphcore 的 IPU 一样,这家云计较构建者十足合计它不错构建一个收缩阵列来进行各异化的 AI 试验和推理,并为云客户增涨价值——况兼与只是购买 Nvidia GPU 并完成它比较,它可能会有更好的利润率或至少更多的为止权。

正如咱们上头指出的那样,AWS 高管并莫得对 Trainium3 发表太多批驳,但他们对 Trainium2 在 UltraServer pod 中的 Trn2 实例中可用感到相当欣忭。

早在 2023 年 12 月,前年的 re:Invent 大会之后,咱们就详备先容了 Trainium2 过火前身 Trainium1 以及用于 AI 推理的配套 Inferentia1 和 Inferentia2 加速器的架构。(您不错在此处阅读。)本周,AWS 进一步先容了使用 Trainium2 加速器的系统的架构,并展示了它为基于它们彭胀和彭胀其 AI 集群而构建的相聚硬件。

那么,让咱们作念一些展示和论说。

以下是 DeSantis 展示 Trainium2 卡的情况:

正如咱们前年指出的那样,Trainium2 似乎有两个芯片在单个封装上互连,可能使用 NeuronLink 芯片到芯片互连,该互连基于用于将 Trainium1 和 Trainium2 芯片互相聚积的结构互连,以便在其分享的 HBM 内存之间一致地分享责任。

Trainium2 职业器有一个头节点,该节点带有一双主机处理器(粗略是 Graviton4,但 DeSantis 莫得说),并与三个 Nitro DPU 衔接,如下所示:

底下是计较节点的顶视图,前端有四个 Nitro,后端有两个 Trainium2,采用无线计算以加速部署速率:

两个交换机托架、一个主机托架和八个计较托架构成了 Trainium2 职业器,该职业器使用 2 TB/秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面竖立,每个缔造上的 96 GB HBM3 主内存与所有这个词其他缔造分享。每台 Trainium2 职业器皆有 1.5 TB 的 HBM3 内存,总内存带宽为 46 TB/秒(即每张 Trainium2 卡略低于 3 TB/秒)。此节点在密集 FP8 数据上的性能为 20.8 千万亿次浮点运算,在稀少 FP8 数据上的性能为 83.3 千万亿次浮点运算。(AWS 在稀少数据上的压缩率为 4:1,而 Nvidia 的“Hopper”和“Blackwell”GPU 的压缩率为 2:1,Cerebras Systems 晶圆级引擎的压缩率为 10:1。)

其中四台职业器互连,造成 Trainium2 UltraServer,该职业器在 64 个 AI 加速器上领有 6 TB 的总 HBM3 内存容量,总内存带宽为 184 TB/秒。该职业工具有 12.8 Tb/秒的以太网带宽,可使用 EFAv3 适配器进行互连。UltraServer 职业器在密集 FP8 数据上的运算速率为 83.2 千万亿次,在稀少 FP8 数据上的运算速率为 332.8 千万亿次。

以下是 DeSantis 展示 Trn2 UltraServer 实例背后的硬件:

机架顶部埋着许多电线,后头有一双交换机,它们构成了 3.2 Tb/秒 EFAv3 以太网相聚的端点,该相聚将多个 Tranium2 职业器互相聚积以创建 UltraServer pod,并将 pod 互相聚积并与外界聚积:

不要以为这便是相聚的全部。若是你想运行大范畴基础模子,你需要的加速器远不啻 64 个。为了将领出奇十万个加速器的机器聚积在沿路,进行好汉试验,AWS 计算了一种相聚合构(可能基于以太网),称为 10p10u,其方针是在所有这个词这个词相聚的蔓延低于 10 微秒的情况下,提供每秒数十 PB 的带宽。

10p10u 相聚合构机架的外不雅如下:

上头的配线架中的布线相当复杂,因此 AWS 发明了一种光纤骨干电缆,其惩处的电线数目压缩了 16:1,因为它将数百个光纤聚积放在一根粗管中。这使得配线架更简便,如下所示:

右侧的接线架使用的是光纤骨干电缆,而且愈加整洁,体积也更小。需要惩处的聚积和清晰越少,诞妄就越少,这关于快速构建 AI 基础设施至关进军。

据咱们所知,这个 10u10p 相聚不仅专门用于 AI 责任负载,而且 AI 责任负载显著正在鼓励其采用。DeSantis 展示了与 AWS 创建的旧以太网(可能速率较慢)比较,它的发展速率有多快。请看一看:

假定这是积贮聚积数,这是独一专门念念的计较,较旧的 Euclid 相聚合构(粗略是 100 Gb/秒)在四年内逐渐加多到近 150 万个端口。名为 One Fabric 的相聚与 10u10p 相聚在 2022 年中期推出的时辰大致相易,咱们假定其中一个使用 400 Gb/秒以太网,而 10u10p 简直确定基于 800 Gb/秒以太网。但这些皆是猜测。One Fabric 有约莫 100 万个聚积,而 10u10p 看起来有约莫 330 万个聚积。

一言以蔽之,Garmin 暗意,与 AWS 云上基于 GPU 的实例比较,Trn2 实例的性价比将提高 30% 到 40%。咱们以前在那处传奇过这些数字?哦,对了……Graviton 在 AWS 云上比 X86 具有性价比上风。

虽然,AWS 不错运用自若地扩大外部计较引擎和其自主研发引擎之间的差距。若是它但愿 Trainium 在不久的将来成为其 AI 试验队伍的一半,那么这可能是保执正确差距的正确法子。

临了一件事。算作主题演讲的一部分,DeSantis 和 Garman 皆谈到了 AWS 正在构建的代号为 Project Ranier 的超等集群,以便 AI 模子互助伙伴 Anthropic(亚马逊迄今已向其插足 80 亿好意思元)领有效于试验其下一代 Claude 4 基础模子的机器。Garman 暗意,Project Ranier 将领有“数十万”个 Trainium2 芯片,其性能将是 Claude 3 模子所用机器的 5 倍。

https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/

半导体极品公众号推选

专注半导体界限更多原创内容

关心群众半导体产业动向与趋势

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或撑执,若是有任何异议,欢理睬洽半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第3966期内容,迎接关心。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”分享给小伙伴哦