芯片战争新思绪:用英伟达的方式,抗衡英伟达
6月6日,英伟达市值到达了3.01万亿美元,跨越苹果成为全球市值第二高的公司,仅次于微软。
而去年此时,英伟达的市值刚刚突破万亿美元,成为美国第七个,也是史上第九个跻身万亿市值俱乐部的科技公司。
昔时的曹阿瞒,现在已成为了曹丞相。
“规模达3万亿美元的IT行业,即将打造的商品能够直接服务于100万亿美元的其他行业。这个商品不再仅仅是信息存储或数据处置工具,而是一个能为各个行业天生智能的工厂。”英伟达首创人兼CEO黄仁勋6月2日在Computex 2024(2024台北国际电脑展)上揭晓主题演讲时志自满满。
在天生式AI时代,英伟达的乐成无需赘述。只管台下站满了挑战者,包罗老对手英特尔、AMD,大厂华为、谷歌、微软,以及海内独角兽摩尔线程、寒武纪、壁仞科技等,不时另有英伟达的“裂痕”“破绽”等剖析文章,挑战者不能谓不强,剖析也不是没有原理,但英伟达的市值说明晰一切。
然则,这并不意味着其它芯片厂商就没有时机,要害是要找到合适的方式。
面临号称拥有的八十万雄师的曹操,江东群儒议论纷纷,甚至有人喊出:“曹操虽挟天子以令诸侯,犹是相国曹参之后。刘豫州虽云中山靖王苗裔,却无可稽考,眼见只是织席贩屦之夫耳,何足与曹操抗衡哉!”
面临强势的英伟达,海内妄自微薄之声也不少,就像昔时的江东群儒一样。
但也有人在思索“破曹之策”。曹操此前赢得官渡之战,来自乌巢的一场火。而赤壁之战前,诸葛亮和周瑜写在手心的默契也是“火”。
用英伟达蚕食英特尔市场的方式,来与英伟达抗衡,就是芯片厂商欲燃起的“火”。
1.改变CPU依赖
上世纪80到90年月,是英特尔及其x86架构主导的年月。
x86架构始于1978年,那时英特尔公司推出了16位微处置器8086。由于以“86”作为末尾,因此其架构被称为x86。
到了1997年,全球跨越90%的小我私人电脑和数据中央都搭载了英特尔的CPU(中央处置器),盘算机内部大部门的互联协议、接口尺度、芯片组和主板尺度、内存尺度、网络尺度等,都是由英特尔界说的。
谁人年月,另有不少公司也在开发CPU这种执行输入盘算机的下令的通用芯片。不外,上世纪90年月初,SunSoft公司有三位工程师(两位工程师、一位互助工程师)被委派构建一种可以与CPU一起插入SunSoft事情站并可以在屏幕上渲染图形的芯片。
这款芯片被以为是英伟达GPU(图形处置器)的前身,而这三小我私人是克里斯·马拉科夫斯基(Chris Malachowsky)、柯蒂斯·普里姆(Curtis Priem)和黄仁勋。
1993年,他们三小我私人配合确立了英伟达,他们并没有选择研发CPU直接与英特尔竞争,而是选择入局基于图形和视频游戏的盘算卡市场。
只管英伟达*产物NV1卖得并欠好,然则1997年其推出的128位3D处置器RIVA 128在四个月内出货量突破100万台;1999年推出的GeForce 256更是成为了那时的爆款产物,图形盘算卡也因此有了一个新的名字——GPU。
GeForce256的革命性突破在于T&L引擎(Transforming&Lighting,坐标转化和光照盘算)的加入,这使得显卡能够举行大量浮点运算,并将原本依赖CPU的3D盘算剥离到显卡上,从而释放了大量CPU资源。这让游戏运行更流通的同时,也大幅提高了画面的细腻度。
因此,GeForce256直接改变了业内的竞争名目,之前用“高端CPU”才气完成的事情,酿成了用“通例CPU GeForce256”就能完成,而且流通度更好。
这意味着,一部门用户对CPU的依赖,逐渐转到了对GPU的依赖。
CPU和GPU是盘算机中两种差异类型的处置器,CPU设计用于执行普遍的盘算义务,稀奇是顺序处置和庞大逻辑,拥有较少但功效壮大的焦点;而GPU则专为处置大量并行盘算义务而设计,如图形渲染和视频处置,拥有大量但功效相对简朴的焦点,使得GPU在处置多线程和数据麋集型义务时更为高效。
CPU和GPU的对比,图片泉源:英伟达
英伟达最初设计GPU是为了给《光环》和《侠盗猎车手》等热门的电子游戏快速渲染图形,但在这个历程中,深度学习的研究职员意识到,GPU同样善于运行支持神经网络的数学。基于这些芯片,神经网络能够在更短的时间内从更多的数据中举行学习。
2006年,英伟达推出CUDA(Compute Unified Device Architecture,统一盘算架构),极大地简化了并行编程的庞大性,使得开发者能够轻松地为装有GPU的电脑编程,让电脑不仅能够处置图形设计义务,还能够举行高效的数据运算。现实上,这样的电脑在性能上已经相当于一个超级盘算机,成本却大大降低,这使得高性能盘算变得加倍普及。
2009年深秋,一位六十多岁的学者从加拿大多伦多来到美国西雅图,由于腰椎间盘有伤,他险些无法弯腰或坐着,只能躺着或站着,但他照样坚持和当地微软实验室的同仁开启了一个项目——行使之前的研究功效打造一个原型,训练一个神经网络来识别口语词汇。
这位学者就是多伦多大学盘算机科学系教授杰弗里·辛顿(Geoffrey Hinton),在这个项目中,他们就使用了英伟达的GPU。在项目组里的人以为GPU是用来玩游戏的,而不是用来做人工智能研究的时刻,辛顿那时直言,若是没有一套完全差其余硬件,包罗一块价值一万美元的GPU显卡,这个项目就不会乐成。
杰弗里·辛顿,图片泉源:多伦多大学
2012年10月,辛顿和他的两名学生——亚历克斯·克里哲夫斯基(Alex Krizhevsky)、伊利亚·苏茨克维(Ilya Sutskever),在ImageNet图像识别竞赛上拿了冠军,而且揭晓论文先容了AlexNet架构,而他们训练这种全新的深度卷积神经网络架构仅用了两块英伟达GPU。
AlexNet团队参赛的时刻发现,若是用CPU来训练AlexNet需要几个月的时间,于是他们实验了一下英伟达的GPU,没想到用两张GTX 580显卡只花了一周的时间就完成了1400万张图片的训练。这场竞赛不仅加速了神经网络研究的生长,更是让GPU进入了更多AI研究者、工程师的视野——很快,互联网公司和高校实验室就最先向英伟达订购GPU。
英伟达自然也意识到了GPU对于AI加速盘算的主要性,并最先着重结构专门用于AI训练的GPU产物。2016年,黄仁勋向OpenAI捐赠了首台DGX-1,并在上面写到:To Elon & the OpenAI Team! To the future of computing and humanity. I present you the World's First DGX-1!(致埃隆和OpenAI团队!致盘算和人类的未来。我为你们呈上天下上首台DGX-1!)
黄仁勋向OpenAI捐赠DGX-1,图片泉源:马斯克社交媒体账号
六年后,OpenAI的ChatGPT掀起大模子浪潮,开启了对算力的新一轮紧迫需求;后面的故事人人都知道了——英伟达的GPU和数据中央迎*劲发作,一年内利润暴涨8倍,一卡难求。
而英特尔,逐渐被英伟达甩开了。
凭证Counterpoint的数据,2022年Q4英特尔的数据中央另有46.4%的市场份额,然则由于在AI芯片领域的竞争力不足,2023年Q3其市场份额降至19.1%;而英伟达数据中央的市场份额则一起走高,从2022年Q4的36.5%增进到2023年Q3的72.8%。
英伟达、AMD、英特尔的数据中央市场份额转变,图片泉源:Finbold
现在,英伟达是AI领域绕不外去的名字。四年前,当27岁的英伟达市值首次跨越英特尔时,这被看作“一个时代的终结”。而到了今年6月6日,当英伟达市值到达3.01万亿美元时,其市值已是英特尔的23倍。
英伟达和英特尔市值对比(图表数据住手2024年1月),图片泉源:EEAGLI
英伟达逾越英特尔并不是研发出了比英特尔更强的CPU,也不是强行新建生态,而是先融入到英特尔的生态中,再行使其怪异优势,瞄准GPU举行单点突破,让用户逐渐削减对CPU的依赖,转而增强对GPU的依赖,最终确立自己的生态。
最终的效果是,由于需求的削减,CPU的迭代速率变慢,而GPU的迭代速率在加速。
去年,英伟达发文宣布了“黄氏定律(Huang's Law)”,该定律展望GPU将推动AI性能实现逐年翻倍。与摩尔定律关注于晶体管数目的翻倍差异,黄氏定律着重于GPU在AI处置能力方面的增进。在已往十年中,英伟达GPU的人工智能处置能力增进了1000倍。
单芯片推理性能转变,图片泉源:英伟达
黄仁勋在Computex 2024的主题演讲中特意晒出了CPU和GPU的对比图,并示意,CPU性能的扩展速率无法再跟上数据连续呈指数级增进的速率,但另有一个更好的设施就是加速盘算。
“CUDA增强了(原本由)CPU(提供的盘算能力),卸载的同时加速了更适合由专用处置器处置的事情负载。事实上,性能提升十分显著,随着CPU扩展速率减慢并最终基本住手,谜底显而易见,加速盘算才是解决之道。”黄仁勋说。
安踏定向“收割”新中产-国际原油
黄仁勋在Computex 2024的主题演讲,图片泉源:英伟达
若是要用一个词总结英伟达的打法,那就是“异构”。
英伟达所做的“异构”,就是把算力的提供方从CPU,酿成CPU GPU。这种创新架构带来的性能提升是惊人的,加速100倍,而功率仅增添约3倍,成本仅上升约50%。“我们在PC行业早已实践了这种战略。在数据中央,我们也接纳了同样的方式。”黄仁勋说。
英伟达在今年GTC推出的GB200超级芯片就是由两张B200 Blackwell GPU和一张Grace CPU组成。这种组合提供了壮大的推理能力,稀奇是在处置大语言模子时,推理性能比H100提升了30倍,成本和能耗降至原来的1/25。
GB200超级芯片,图片泉源:英伟达
英伟达逾越英特尔,不是一个新的CPU的故事,也不是GPU取代了CPU的故事,而是CPU GPU异构的硬件形态逐渐地取代了CPU集群的故事。
英伟达的打法,对现在的AI芯片公司有很大的借鉴意义——跟巨头竞争,可以不走“替换”的逻辑,而是举行“配比”的艺术,在原有的游戏规则下把单点拉满,拉到原有霸主追不上,进而扩展自己的生态位。
那么,新的单点是什么呢?
2.寻找新的单点
现在算力行业的痛点是,英伟达的芯片太贵、求过于供,对于海内用户来说,还要加上高性能芯片无法通过正当渠道买到这一条。
只管其它芯片厂家也在追赶英伟达,推出种种AI芯片。然则,某芯片厂商大模子专家陈风(假名)告诉「甲子光年」,想要提升算力,必须在软件和硬件两方面同步发力,而英伟达的CUDA和其硬件的适配系统做得太好,以至于在算力行使率上,其他厂商很难望其项背。
“就以AMD为例,单卡算力是383TFLOPs,已经比英伟达的某些卡要高了,然则算力的行使率就是比英伟达低,为什么呢?由于软件没有设施充实行展硬件的性能。人人都能做7纳米又若何?你纵然是用7纳米的芯片,算力行使率也做不外英伟达320TFLOPs的GPU。”陈风说。
AMD与英伟达算力对比,图片泉源:财通证券
不外英伟达的这种算力集群,也是规模不经济的。现在,大模子伟大的边际成本也已经成为其商业化*的障碍。红杉资源透露,AI行业去年仅在英伟达芯片上就破费了500亿美元,但产出的营收只有30亿美元,投入产出比为17:1。
有芯片厂商意识到,英伟达的好和贵,是把自家单卡产物叠叠罗汉、加上NVLink、NVSwitch和Infiniband等互联手艺和CUDA平台,组成一个封锁的系统实现的。若是参考英伟达逾越英特尔的方式,不跟英伟达硬拼“CPU GPU”,而是去找一个新单点,用“CPU GPU 新单点”的系统,逐步侵蚀掉英伟达封锁昂贵的旧系统,是不是就能把价钱打下来,同时解构掉英伟达原来的优势职位了呢?
那么,这个新单点是什么呢?
把眼光放到需求端,一切似乎都有了谜底。
现在,以GPT为代表的大模子主要是Transformer架构,这一架构的特点就是相当吃显存。
这不只是由于Transformer模子通常包罗大量的权重参数,更是由于自回归算法让Transformer模子在处置序列数据时,每增添一个输入序列的长度,就需要更多的显存来存储该序列的嵌入向量、键(key)、查询(query)和值(value)向量,以及中央盘算的隐藏状态,稀奇是自注重力机制的盘算庞大度还与序列长度的平方成正比;同时,Transformer每层都市发生大量的激活张量,这些张量在反向流传时代用于盘算梯度,也需要暂存在显存中……种种因素,导致随着输入序列长度的增进,显存占用迅速上升。
Transformer架构运行历程,图片泉源:Jay Alammar
针对大模子推理这类访存麋集型的义务,显存及其带宽会显著限制其对算力的行使,因此在思量算力需求的时刻,似乎也不能单单思量FLOPs的需求,显存容量及带宽同样主要。
在大模子的游戏规则下,显存容量、显存带宽以及互联带宽酿成了最焦点的竞争力,而算力的主要性和优先级则在默默向后排。
做一张“显存指标很高的新型盘算卡”就是新的单点,这就给其它芯片厂商提供了一个和英伟达竞争的新思绪——向着显存,全速前进。
3.勇敢假设,小心求证
季宇就是这么想的,作为英伟达的粉丝,他希望用英伟达的方式逾越英伟达,也因此将眼光聚焦在了大模子对显存的需求上。
季宇结业于清华大学盘算机系,博士时代一直专注于神经网络加速器、编译器和面向系统优化的机械学习的研究,结业后作为华为“天才少年”在海思从事升腾编译器架构师相关事情。2023年8月,他确立了行云集成电路,主要致力于研发下一代针对大模子场景的AI加速盘算芯片。
详细来说,行云集成电路希望做一张“显存指标很高的新型盘算卡”,通过”CPU GPU 新型盘算卡”的组合,去应对大模子推理时访存麋集的种种义务,进而把“显存”这一单点拉满,成为与英伟达系统相抗衡的存在。
“大模子有伟大的显存需求是业界的共识。在英伟达也在不停提升GPU的显存规格来知足市场需求,但我们希望用两张卡,也就是一张算力麋集的卡、一张访存麋集的卡来解决这个问题。两张卡的方案内里,算力麋集的那张卡甚至可以是英伟达的GPU。”季宇说。
季宇也稀奇在意“异构”,“不外我讲的‘异构’是类似已往CPU和GPU这种差异产物生态位的异构,今天算力行业说得许多的‘异构’是指统一个芯片生态位下差异芯片的异构,好比差其余AI芯片”。行云集成电路的定位是一家芯片厂商,而非算力运营商,“我们是卖卡,英伟达和服务器厂商什么关系,我们就和服务器厂商什么关系”。
对于生态,季宇以为任何繁荣的产业都需要一个开放的生态系统,也就是一个“白盒”,大模子产业也不破例。但英伟达是一个封锁的系统,把算力、内存、互联等各项尺度都做得很强,导致自己的黑盒系统越来越有竞争力、也越来越封锁。
“今天有太多公司为了跟英伟达的这套系统竞争,既要做单卡、又要做互联、服务器、网络,自建和英伟达对标的私有系统投入伟大,也极其难题,若是能给业界塑造一个可扩展的白盒系统,让系统内的介入者在每个维度与英伟达充实竞争,把英伟达的这套私有系统的气力打散,或许能有与英伟达系统博弈的时机。”季宇告诉「甲子光年」,“固然英伟达也可以在每个维度做到异常*,只是它的溢价一定会被越来越强的偕行给稀释而已。”
不外季宇也坦言,现在产物还没出来,一些假设也有待论证。现在最主要的是吸引更多志同志合的人才、互助同伴,扎实做好研发事情。
耐久关注半导体行业的新鼎资源合资人刘霞以为,这种新的AI芯片竞争思绪可以更好地知足差其余应用需求,在某些特定的场景下会发生更好的效果和性价比。“这种方案简直很有启发性,然则也有难题和风险,涉及到各个厂商之间的高度的协作和协调,也涉及得手艺指标、利润分配等种种庞大的问题,需要在研发历程当中,不停的适配新场景,不停的探索和优化。”刘霞说。
鲁民投上海投资总监杨浩也示意,这种团结全行业做白盒生态的思绪异常新颖,“现在人人都想挑战英伟达,然则确实生态跟不上,海内只有少部门公司在做。若是能通过新型产物打开突破口,确立一个新的生态的话,远景确实值得期待。”
然而,在海内某芯片初创公司工程师刘永(假名)看来,行云集成电路提出的新思绪,另有待讨论。
“现在主流扩显存的方式是在一张卡里把GPU和HBM的配比做到平衡,然后行使片间互连的方式,将多张这样的卡相毗邻,配合为大模子提供服务。这种方式能够实现显存的扩展,也可以充实行使其他卡的算力资源,实现并行盘算,同时高效的数据交流和同步。”刘永说。
刘永以为,行云集成电路简直提出了一种新颖的设计方式,可以显著扩展可用显存容量,从而能够处置更大规模的模子和数据集,逾越单卡显存容量的限制,在大显存卡上可能会推翻现有的存储条理结构(多级cache HBM的方案),设计可能会更简朴,也有更多面积可以用到HBM上,成本更低、容量更大。
GPU缓存机制,图片泉源:ZOMI酱
刘永提到的HBM(High Bandwidth Memory,高带宽内存)是一种先进的存储手艺,专为需要大量数据吞吐量的应用场景设计,异常适适用于AI加速盘算,HBM也是制约单芯片能力的*瓶颈之一。
HBM将多个DRAM芯片通过硅中介层(interposer)堆叠在一起,并直接毗邻到GPU或其他处置器,而不是像传统内存那样通过主板上的内存插槽毗邻。由于每个DRAM层都能够通过短路径直接与处置器通讯,削减了数据传输的延迟,因此HBM的这种三维堆叠结构极大提高了显存容量和能力。
但HBM手艺涉及到先进封装工艺,也是海内被外部限制的领域,想靠HBM扩大显存,阻力重重。
“HBM的成本险些占有了一张芯片成本的50%,而且现在海内能做HBM的企业不多,只有长鑫存储,然则长鑫存储的工艺较之台积电、日月光照样落伍一点。HBM3E(最新一代HBM)还在流片历程中且质量不稳固,而英伟达Blackwell架构的GPU B100已经用上HBM3E了。”升腾大模子训练专家、B站AI科普视频UP主ZOMI酱告诉「甲子光年」。
由此看来,大模子和GPU是明战,HBM则是暗战。
甲子光年智库以为,AI生产时代,算力是生产力的压舱石。这内里*的命题是,要解决算力供需结构的矛盾。整个“算力江湖”的组成是极其庞大和多元的,并不存在一个能够统领全局的“铁王座”。
虽说手艺对芯片至关主要,但芯片更需要的是市场。
英伟达用一种方式逾越了英特尔,谁能说不会泛起新的挑战者,用英伟达的方式与英伟达抗衡呢?
“东风不与周郎便,铜雀春深锁二乔。”在芯片的“战争”中,不少芯片厂商犹如江东的将士们一样,已经做好了准备,“只待风来”。