谁在抢GPU?-香港期货
8月,英伟达公布了二季度财报,财报显示,公司二季度营收135亿美元,创季度新高且同比增进超100%。公司预期三季度该数字将到达160亿美元。与此同时,高端芯片的强劲需求将公司毛利率大幅提升至71.2%,二季度净利润61.8亿美元,同比涨幅到达惊人的843%。
这是什么观点呢?相当于英伟达在三个月时间里多赚了六七十亿美元,而且之后每个季度都有望入账这么多钱,纵然放在群英荟萃的硅谷,这样的成就也足以让人人感应惊讶了。
而营收和盈利背后,是英伟达显卡被疯抢的盛况,纵然英伟达今年能预计出货50万块H100显卡,依旧没有知足AI市场的急速扩张的需求,其未来设计将H100显卡的产量至少提高两倍,2024年该显卡的预计出货量会到达150万至200万颗左右。
那么,到底是谁在抢这几十万甚至上百万的显卡呢?
我们或允许以从最近的新闻里一窥眉目,8月29日,总耗资三亿美元的特斯拉GPU集群正式上线,该集群集成了10000 块英伟达的H100 GPU,其主要用途就是辅助训练特斯拉的无人驾驶系统FSD。
作为修建该集群最主要的一部门,英伟达H100于 2022 年终推出,售价约4万美元,比 前代A100 快 30 倍,AI 训练速率快 9 倍,凭证英伟达的先容,H100 专为视频训练等图形麋集型事情负载而设计,且易于扩展,其拥有18,432 个 CUDA 焦点, 640 个张量焦点 ,80 个流式多处置器 (SM) ,与 A100 相比,H100的高性能盘算速率快 5 倍以上。
而由10,000 块H100修建的GPU集群将提供 340 FP64 PFLOPS 的峰值性能,为人工智能应用提供 39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已经逾越了天下第四高性能超级盘算机 Leonardo 所提供的 304 FP64 PFLOPS。
而英伟达第二季度的财报,正是像特斯拉这样的公司做出的孝顺,他们投入巨资打造超大型GPU集群,一脱手就是购入上万张显卡,让台积电开足了马力生产都赶不上需求的转变。
微软
时间回到5 年前,OpenAI 向微软提出了一个勇敢的想法——它可以构建一套人工智能系统,永远改变人类与盘算机之间的交互方式。
然则这套人工智能系统并非凭空得来,它需要确立在强悍算力的基础之上,而且光有一套在背后提供助力的基础设施还不够,这还不是一锤子生意,OpenAI必须能耐久稳固地运行这套系统,简而言之,就是要不停地砸钱。
那时,微软 Azure 高性能盘算和人工智能产物卖力人 Nidhi Chappell 示意:"我们从研究中领会到的一件事是,模子越大,你拥有的数据越多,你能训练的时间越长,模子的准确性就越好。"
为了力挺OpenAI的人工智能,2019年,微软宣布与OpenAI确立相助关系,包罗投资10亿美元以及在Azure中确立一个可以训练和运行高级AI模子的盘算平台,微软将对Azure举行的改善,以构建超级盘算手艺。
在Build 2020流动上,微软宣布了这次相助的效果。微软与OpenAI相助,并专门为OpenAI构建了一台新的超级盘算机,这台新超算包罗了跨越28.5万个CPU焦点,1万块GPU,每个GPU服务器的网络毗邻能力为400 gigabits每秒,根据天下超级盘算机TOP500的排名,微软打造的这款新型超级盘算机位列前五名。
若何让这套集成万块GPU的超算集群全力开动起来,成了当初摆在微软眼前的难题。
微软 Azure 高性能盘算和人工智能产物卖力人 Nidhi Chappell 称,手艺的要害是学习若何在高吞吐量、低延迟的 InfiniBand 网络上构建、运行和维护数以万计共处一地的 GPU,并相互毗邻。
微软先容称,为了辅助训练大型语言模子,盘算事情被划分到一个集群中的数千个 GPU 上,在Allreduce阶段,GPU会相互交流信息,而全新的 InfiniBand 网络用于加速这一阶段,这一切都在下一阶段盘算前完成,所有GPU就像齿轮一样慎密咬合在了一起。
"由于事情跨越了数千个 GPU,你需要确保你有可靠的基础设施,然后也需要在后端拥有网络,这样你就可以更快地举行通讯,并能够延续数周这样做",Chappell 说道,“这不是你买了一大堆 GPU,把它们连在一起,就可以最先事情的。为了获得*的性能,需要有许多系统级的优化,而这是经由许多代人的履历总结出来的。”
时间来到今日,这套基础架构现在已成为整个 Azure 云盘算结构的尺度设置,其中包罗针对 AI 事情负载优化的虚拟机组合、毗邻的盘算和存储资源,微软云和人工智能团体执行副总裁 Scott Guthrie 示意,构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产物中的人工智能功效。
在ChatGPT全球爆火之后,原来的这套超算已经无法知足越来愈多的AI盘算需求,今年3月,微软公布博文称,Azure即将迎来重磅升级,加入数万张英伟达最新的H100显卡以及更快的InfiniBand网络互连手艺。
凭证微软的先容,ND H100 v5 虚拟机将成为未来AI的支柱,它支持按需巨细不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比,可以看到人工智能模子的性能显着提高,其中创新手艺包罗:
8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联;
每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无壅闭胖树型网络;
NVSwitch和NVLink 4.0在每个虚拟机的8个内陆GPU之间具有3.6TB/s的双向带宽;
第四代英特尔至强可扩展处置器;
PCIE Gen5到GPU互连,每个GPU有64GB/s带宽;
16通道4800MHz DDR5 DIMM……
微软示意,ND H100 v5虚拟机将成为微软向客户提供基础设施的方式,该基础设施包罗数以千计的 NVIDIA AI 优化 GPU,这些 GPU 在基于 NVIDIA Quantum InfiniBand 通讯的高吞吐量、低延迟网络中毗邻在一起,其可以凭证任何 AI 义务的规模举行扩展。
与特斯拉相比,微软的超算不再局限于单一的特定用途,而是更看重在AI训练方面的整体性能,以及面向种种用户的天真扩展,信托其未来潜力会随着Open AI和微软旗下AI产物的生长而进一步获得释放。
谷歌
与微软差异,谷歌在组建超算集群这条路上出发得更早,它不光从英伟达处大批量采购显卡,同时还悄悄启动了自研设计,双轨并行成就了今天谷歌的超算。
谷歌的自研始于2013年,那时的 Google AI卖力人Jeff Dean经由盘算后发现,若是有1亿安卓用户天天使用手机语音转文字服务3分钟,其中消耗的算力就是Google所有数据中央总算力的两倍,而全球安卓用户远不止1亿。
谷歌最终选择了另辟蹊径,并立下了一个不低的目的:针对机械学习这一目的来构建特定领域盘算架构(Domain-specific Architecture),还要将深度神经网络推理的总体拥有成本(TCO)降低至原来的十分之一。
2014年,谷歌TPU(Tensor Processing Unit)最先正式研发,得益于谷歌自己既有的壮大科研实力,以及从各个公司招募而来的优异芯片人才,TPU的开发异常顺遂,仅在15个月后就最先在数据中央部署应用,且每瓦性能到达了GPU的30倍,CPU的80倍。
直到2016年的Google I/O开发者大会上,首席执行官Sundar Pichai才正式向天下展示了TPU这一自研功效。Pichai异常自豪地示意,DeepMind研发的AlphaGo能够击败韩国棋手李世石,底层硬件里的TPU功不能没,TPU就像希腊神话中引发特洛伊战争的女人——海伦,它的泛起引起了“成千芯片与之竞逐”。
而在2023年,谷歌宣布了自研芯片的最新版本——TPU V4,相较于上一代,性能凌驾2.1倍,在整合4096个芯片之后,超算性能提升了10倍。
谷歌示意,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.7倍的性能,同时在能效上也能提高1.9倍。与TPU v3一样,每个TPU v4包罗两个TensorCore(TC)。每个TC包罗四个128x128矩阵乘法单元(MXU),一个具有128个通道(每个通道16个ALU),以及16 MiB向量存储器(VMEM)的向量处置单元(VPU)。
谷歌称,客户对机械学习的容量、性能和规模的需求一直在快速增进。为了支持AI的下一代基础性提高,我们正式推出了谷歌云机械学习集群,其中就包罗预览版的Cloud TPU v4 Pod,在最高可达9 exaflops的峰值聚合性能下,Cloud TPU v4 Pods集群在算力方面是全天下*的果然可用的机械学习中央。
让人感应讶异的是,谷歌实行自研战略的后,行使英伟达GPU组建的超算集群也丝绝不逊色于其他巨头。
今年5月,在年度 Google I/O 开发者大会上,谷歌宣布了全新 AI 超级盘算机——A3 ,该超算拥有约莫 26,000 块英伟达H100 GPU,作为参考,天下上最快的公共超级盘算机Frontier拥有 37,000 块 AMD Instinct 250X GPU。
谷歌示意,A3超级盘算机面向希望训练大型语言模子的客户,是对现有 A2 虚拟机与 Nvidia A100 GPU 提供的盘算资源的重大升级,谷歌正在将所有漫衍在差异地理位置的 A3 盘算实例搜集到一台超级盘算机中。
“A3 超级盘算机的规模可提供高达 26 exaflops 的 AI 性能,这大大削减了训练大型 ML 模子的时间和成本,”谷歌的董事 Roy Kim 和产物司理 Chris Kleban 在博文中提到。
此外,A3 超算是*个通过名为 Mount Evans 的基础设施处置单元毗邻 GPU 实例的虚拟机,该单元由谷歌和英特尔团结开发,IPU 允许 A3 虚拟机卸载网络、存储治理和平安功效,并以 200Gbps 的速率传输数据。
“A3 是*个使用我们定制设计的 200Gbps IPU 的 GPU 实例,GPU 到 GPU 的数据传输绕过 CPU 主机并流经与其他 VM 网络和数据流量差其余接口。与我们的 A2 虚拟机相比,这使网络带宽增添了 10 倍,具有低尾延迟和高带宽稳固性,”谷歌高管在博客文章中示意。
左手TPU,右手H100的谷歌,在组建超算集群这件事上似乎走在了许多公司的前面,自研面向自身需求,而英伟达GPU服务于客户,二者取长补短,让谷歌成为了这个AI时代的弄潮儿。
Meta
恒大汽车「救世主」吴楠背后的大佬圈
对于由于元宇宙而更名的Meta来说,AI似乎一直是它深耕的领域,更是为了它背后的基础设施豪掷万金,力争打造天下*流的超算集群。
2017年,那时还叫FaceBook的Meta打造了*代AI超级盘算机,其配备了22000个NVIDIA V100 Tensor Core GPU,逐日可处置35000项AI训练事情。
据 HPCwire 预计,这个基于 V100 GPU 的前身版本,根据 Linpack benchmark 的浮点盘算性能应该已经到达了135 PFlops。在2021年11月全球超算排行榜中足以排到第三名,其算力已经逾越了美国在加州 Livermore 运作的“山脊”(Sierra) 超级盘算机。
2020年头,由于已有超算集群越来越难跟上未来大模子训练的需要,Meta决议从0最先设计一个新的超算,进而在大到一个Exabyte的数据集上训练出跨越一万亿个参数的模子,
2022年1月,Meta 宣布它正在制作的天下最快 AI 超算 AI Research SuperCluster (RSC),他们选择了三家在 AI 盘算和数据中央组件方面最着名的公司:英伟达、Penguin Computing,和 Pure Storage。
Meta不仅从英伟达处采购了760台 DGX 通用训练系统,其中包罗共计6080块 Ampere 架构 Tesla A100 GPU,还从 Pure Storage 采购了共计 231PB 的闪存阵列、模块缓和存容量,机架搭建、装备安装和数据中央的后续治理事情,则由从 Facebook 时代就在服务该公司的 Penguin Computing 卖力。
最终,*阶段的RSC超算包罗 6,080 块 GPU,缓存容量 46 PB,主闪存 175 PB。在盘算机视觉义务上,新超算的性能比旧系统提高 20 倍,在大型自然语言处置上性能提升 3 倍,而在第二阶段正式完成时,包罗总共 2000 个 英伟达DGX A100 系统,使用了 16000 块 GPU,储存容量到达 1 EB,能每秒处置 16 Tbps 的数据。
Meta在博客文章中示意:“我们希望RSC辅助我们确立全新的AI系统,例如可以为多个差异语言的团队提供实时语音翻译,使他们可以在研究项目上无缝协作,甚至一起玩AR游戏。”
不外现在来看,Meta超算RSC的算力已经落伍于微软和谷歌的AI超算,究竟后者已经最先行使更壮大的H100 GPU来修建超算,但Meta也示意 ,RSC的优势是允许其研究职员使用 Meta 生产系统中的真实示例来训练模子,希望为 AI 研究职员提供*进的基础设施,使他们能够开发模子并为他们提供培训平台以推进 AI 生长。
而Meta也早已确立了新的自研设计,在2020年就开发了其*代基于7nm工艺的自研AI芯片 MTIA(MTIA v1),可以从128 MB 内存扩展到高达 128 GB,其专门用于处置与 AI 推荐系统相关的事情,辅助用户找出*贴文内容并更快出现在用户眼前,其盘算性能和处置效率都胜过 CPU。另外,在 Meta 设计的基准测试中,MTIA处置“低庞大性” 和“中等庞漂亮”的 AI 模子也比 GPU 更高效。
对于Meta来说,现在没有新的超算制作设计可能是不大不小的遗憾,但依赖自研芯片和已有的壮大超算,和微软谷歌相比也不逞多让。
AWS
与前几个耳熟能详的公司相比,较少被提及的AWS(亚马逊云科技)作为全球云盘算服务提供商,在组建超算集群的速率和规模上,并不比其他巨头逊色若干。
AWS和英伟达相助的历史有12年之久,在已往十几年的时间当中,AWS陆续推出了基于英伟达GPU的种种GPU实例,如CG1实例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)实例。
在去年公布的EC2 P4de实例中,接纳8个英伟达 A100 GPU,每个具有80GB高性能的HBM2e GPU 内存,而这一实例在去年已经用于AWS的超算集群。
今年5月,AWS更进一步,宣布推出 EC2 P5 虚拟机实例,该实例将在 Nvidia H100 GPU 的基础上运行,其接纳8块英伟达H100 Tensor Core GPU,具有640 GB高带宽GPU内存,同时提供第三代AMD EPYC处置器、2TB系统内存和30TB内陆NVMe存储,还提供了3200 Gbps的聚合网络带宽并支持GPUDirect RDMA,从而能够绕过CPU举行节点间通讯,实现更低的延迟和高效的横向扩展性能。
而且Amazon EC2 P5实例可以部署在超大规模集群第二代Amazon EC2 UltraClusters中,其由高性能盘算、网络和云存储组成,Amazon EC2 UltraClusters可以使用多达2万个H100 Tensor Core GPU,用户可以部署可扩展到数十亿或数万亿参数的机械学习模子。
英伟达副总裁 Swami Sivasubramanian 示意,与基于英伟达上一代 A100 GPU 的 EC2 P4 模子相比,P5 实例在训练大型语言模子时速率提高了六倍,而且可以将训练成本降低 40%。
此外,AWS还为超算集群推出了基于Arm的CPU,名为Graviton3E的芯片正是AWS的EC2 HPC7g实例的一部门,AWS将HPC7g实例定位为“紧耦合盘算和网络麋集型HPC事情负载的实例类型”,网络麋集型功效集中在Nitro系统芯片上,这是一个数据处置器或基础设施处置单元,处置网络,I/O和平安性,其可与英伟达的Bluefield或谷歌与英特尔相助开发的Mount Evans相媲美。
现在,Nitro已成为AWS云基础设施的焦点,其提供了适合其漫衍式系统高性能的I/O,HPC7g虚拟机可用于从16个焦点到64个CPU焦点的实例,具有128GB内存、Amazon Elastic Block存储、200Gbps EFA(弹性结构适配器)带宽和25Gbps网络带宽。
值得一提的是,另一家公司RIKEN已经通过AWS的HPC7g实例构建了其基于Arm的Fugaku盘算机的云版本,这也是天下上第二快的超级盘算机。
天生式AI成为了云服务市场新的增进点,同时也推动云服务市场的创新和差异化,作为行业领头羊的AWS显然没有忽视这件事,早已在搭建超算集群的路上延续向前奔跑。
特斯拉
至于开头提到的特斯拉,作为自动驾驶的先锋,它早已把超算集群当成是未来的主要偏向,除了备受青睐的英伟达显卡外,自研更是它*的法宝之一。
早在2021年6月,国际盘算机视觉和模式识别聚会(CVPR)周末的演讲中,特斯拉人工智能团队的卖力人安德烈·卡帕西 (Andrej Karpathy) 就展示了一台超级盘算机,这台超级盘算机接纳了 5760 个算力为 321TFLOPS 的英伟达 A100 显卡,组成了 720 个节点,总算力突破了 1.8EFLOPS,10PB 的存储空间。
而在2021年的特斯拉AI日上,特斯拉自研的多芯片模组化(Multi-Chip Modularized)超级盘算机正式亮相,其被命名为Dojo,最初它主要服务于自动驾驶系统的数据标注以及训练,后也被应用于机械人研发,特斯拉的人形机械人就搭载了Dojo的D1超算芯片。
D1超算芯片是Dojo系统的基础。该芯片接纳7纳米制造工艺,处置能力为1024 gigaflops,即每秒1024亿次。1500枚D1芯片可组成阵列,而将25个阵列放在一块晶圆上,便能形成训练模组(Training Tile),这即是Dojo超级盘算机的单元焦点。
到了2022年的特斯拉AI日上,特斯拉正式宣布了由D1芯片组成的Dojo ExaPod,即Dojo集群,该集群内含120个训练模组(Training Tile)、3000个D1芯片。其拥有13TB静态随机存取影象体容量以及1.3TB高传输频宽影象体容量,算力高达1.1EFLOP。
据先容,Dojo由“图块”组成,事情方式与基于CPU或基于GPU的超级盘算机有很大差异。特斯拉称,Dojo的D1芯片模块并不是由许多较小的芯片组合在一起,而是一个具有354个内核的大型芯片组成,专门针对AI和机械学习,每个Dojo机柜可容纳4248个内核,10个机柜的组成的exapod可容纳42480个内核。因此对于相同的数据中央占用空间来说,Dojo要比CPU或者GPU快几个数目级。
Dojo不仅会辅助加速 FSD 训练,还将卖力治理特斯拉汽车的数据处置,凭证特斯拉CEO马斯克所说,特斯拉会同时应用英伟达H100 GPU 超算集群和 Dojo超算集群,此举将为该公司在汽车行业提供*的盘算能力。
单论H100超算集群的数目,特斯拉可能还无法和谷歌微软相媲美,但Dojo自研芯片无疑是它*的底气之一,在自动驾驶浪潮来临之际,特斯拉这两大利器,已经足够让它成为现在算力最壮大的公司之一,笑傲于数千家车企之中。
新锐企业
在组建超算集群这件事上,巨头们争先恐后,而其他新锐也不甘示弱,甚至由于他们和英伟达的优越关系,这方面反而具备了自身的优势。
确立于2017年总部位于纽约的CoreWeave就是这样一家新锐企业,此前专注于加密钱币“挖矿”市场的它,在已往几年时间实现了转型,瞄准了人工智能领域,最先提供基于图形处置单元(GPU)的云盘算服务,今年早些时刻,它还获得了英伟达的1亿美元投资。
凭证官网先容,CoreWeave现在可以通过搭建的英伟达 A100 和 A40 GPU 集群提供虚拟化算力,可让用户接见跨越45000个GPU,被以为是市场上运行人工智能模子的*选择。
而这家公司近期团结英伟达,以及新兴AI企业Inflection AI,最先制作全球*的AI超算集群,该集群由22,000个英伟达H100 GPU组成,在16位精度模式下可以到达22 exaFLOPS的运算能力,使用低精度模式,其运算能力还会进一步提高,对照TOP500超级盘算机列表,这台全新的超算集群将位列第二,仅次于榜首。
而另一家接受英伟达3亿美元投资的新锐企业Lambda Labs同样不容忽视,这家美国云服务初创公司由Michael Balaban和Stephen Balaban两兄弟于2012年建立,早年营业重点是销售GPU驱动的盘算机,后转型为GPU云服务器租赁,公司的年收益从万万美元的规模上升至数亿美元的规模。
而Lambda labs的规模虽然不大,但其号称能提供全天下价钱*的NVIDIA A100、H100算力资源,与CoreWeave一样是组建AI超算集群的主力之一。
这部门新锐在英伟达的支持下迅速崛起,成为了超算集群中不能忽视的一股气力。
总结
据不完全统计,现在海内已公布的种种大模子数目跨越 100 个, 一场“百模大战”已经摆好了驾驶,而在大模子训练的背后,最要害就是算力,停止 2022 年底,我国算力总规模达 180EFLOPS , 现在居全球第二位,但即即是云云重大的算力,与现在种种模子训练的需求仍然不成正比,算力缺口反而在今年进一步扩大。
除了美外洋,英国政府斥资9亿英镑,用于构建一台百亿亿级超级盘算机,旨在打造全球*进的语言模子——BritGPT;人工智能初创公司Cerebras Systems宣布将携手阿联酋团体G42打造一个由9台互联的超级盘算机组成的网络,现在*台AI超级盘算机——“Condor Galaxy 1(CG-1)”最先部署,AI算力高达4 exaFLOPS(每秒4百亿亿次);日本经济产业省将通过其附设的研究机构引进一台新的尖端超级盘算机,其盘算能力约莫是现有机械的 2.5 倍,通过云服务将这台超算提供应开发天生式 AI 的日本海内企业……说是千帆竞逐也不为过
当我们再放眼海内,今年4月,腾讯云正式公布新一代HCC高性能盘算集群,海内首发搭载英伟达最新的H800 GPU,接纳业界最高的3.2T互联带宽;2023年阿里云将推出一款更靠近云盘算*形态的算力产物,这款被命名为通用Universal实例的产物进一步屏障了传统IT的硬件参数;百度新建设的阳泉智算中央是亚洲*单体智算中央,建设规模为4 EFLOPSAI算力……几家巨头早已把超算列上了主要日程。
更值得我们关注的是,已往的超算架构主要以 CPU 为主,但这种传统基础设施架构下的算力已经无法知足现在模子训练的需求,只有建设大规模 GPU 超算集群,才气真正意义上解决大模子训练的后顾之忧。
可以看到,老牌巨头中,不管是微软谷歌,照样Meta AWS,把组建超算集群看成了主要目的之一,他们甚至早在10年前就觉察了这种趋势,在这方面均已有所结构,而特斯拉CoreWeave这样近年才崛起的新贵,更是全力押注算力,一手自研一手采购,迅速填补自身的算力缺口。
这时刻问题就来了,谁能掌握算力,拿下通往未来的*张船票呢?