英偉達(dá)25年路線圖驚爆流出,老黃豪賭B100暴打AMD,秘密武器X100曝光
近日,外媒曝光了一份英偉達(dá)全新GPU路線圖,史上最強(qiáng)B100技術(shù)細(xì)節(jié)全流出,其中最神秘的X100,據(jù)悉將在2025年上市。
英偉達(dá)的AI硬件霸主,當(dāng)?shù)锰昧耍?nbsp;
現(xiàn)在,各大科技公司都在虎視眈眈,等著一舉顛覆它的霸主之位。
當(dāng)然,英偉達(dá)也不會(huì)坐以待斃。
最近,外媒SemiAnalysis曝出了一份英偉達(dá)未來幾年的硬件路線圖,包括萬眾矚目的H200、B100和「X100」GPU。
隨之一同流出的,還有一些硬核信息,包括英偉達(dá)的工藝技術(shù)計(jì)劃、HBM3E的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes計(jì)劃。
如果這些計(jì)劃如愿成功,英偉達(dá)將繼續(xù)成功碾壓對(duì)手。
當(dāng)然,霸主之位也沒這么好當(dāng)——AMD的MI300、MI400,亞馬遜的Trainium2,微軟的Athena,英特爾的Gaudi 3,都不會(huì)讓英偉達(dá)好過。
準(zhǔn)備好,前方高能來襲!
01 英偉達(dá),不止想做硬件霸主
谷歌早已開始布局自己的AI基礎(chǔ)設(shè)施,他們構(gòu)建的TPUv5和TPUv5e,既可以用于內(nèi)部的訓(xùn)練和推理,也可以給蘋果、Anthropic、CharacterAI、MidJourney等外部客戶使用。
谷歌不是英偉達(dá)唯一的威脅。
在軟件方面,Meta的PyTorch2.0和OpenAI的Triton也在迅猛發(fā)展,使其他硬件供應(yīng)商得以實(shí)現(xiàn)兼容。
現(xiàn)在,軟件上的差距仍然存在,但遠(yuǎn)不及從前那么巨大了。
在軟件堆棧上,AMD的GPU、英特爾的Gaudi、Meta的MTIA和微軟的Athena都取得了一定程度的發(fā)展。
盡管英偉達(dá)仍然保持著硬件領(lǐng)先地位,但差距的縮小,會(huì)越來越快。
英偉達(dá)H100,也不會(huì)獨(dú)領(lǐng)風(fēng)騷太久。
在接下來的幾個(gè)月內(nèi),無論是AMD的MI300,還是英特爾的Gaudi 3,都將推出技術(shù)上優(yōu)于H100的硬件產(chǎn)品。
而除了谷歌、AMD、英特爾這些難纏的對(duì)手,還有一些公司,也給了英偉達(dá)不小的壓力。
這些公司雖然在硬件設(shè)計(jì)上暫時(shí)落后,但能得到背后巨頭的補(bǔ)貼——天下苦英偉達(dá)久矣,這些公司都希望打破英偉達(dá)在HBM上的巨額利潤(rùn)壟斷。
亞馬遜即將推出的Trainium2和Inferentia3, 微軟即將推出的Athena,都是已布局多年的投資。
競(jìng)爭(zhēng)對(duì)手來勢(shì)洶洶,英偉達(dá)當(dāng)然也不會(huì)坐以待斃。
在外媒SemiAnalysis看來,無論管理風(fēng)格還是路線決策,英偉達(dá)都是「行業(yè)中最多疑的公司之一」。
而黃仁勛身上,體現(xiàn)了一股安迪·格魯夫的精神。
成功導(dǎo)致自滿。自滿導(dǎo)致失敗。只有偏執(zhí)狂才能生存。
為了穩(wěn)坐第一把交椅,英偉達(dá)野心勃勃,采取了多管齊下的冒險(xiǎn)策略。
他們已經(jīng)不屑于再和英特爾、AMD在傳統(tǒng)的市場(chǎng)上競(jìng)爭(zhēng),而是想成為谷歌、微軟、亞馬遜、Meta、蘋果這樣的科技巨頭。
而英偉達(dá)的DGX Cloud、軟件,以及針對(duì)非半導(dǎo)體領(lǐng)域的收購(gòu)策略,背后都是一盤大棋。
02 路線圖最新細(xì)節(jié)曝光!
英偉達(dá)最新路線圖的重要細(xì)節(jié),已經(jīng)被曝光。
內(nèi)容包括所采用的網(wǎng)絡(luò)、內(nèi)存、封裝和工藝節(jié)點(diǎn),各種GPU、SerDes選擇、PCIe6.0、協(xié)同封裝光學(xué)器件和光路交換機(jī)等細(xì)節(jié)。
顯然,懾于谷歌、亞馬遜、微軟、AMD和英特爾的競(jìng)爭(zhēng)壓力,英偉達(dá)連夜加快了B100和「X100」的研發(fā)。
B100:上市時(shí)間高于一切
根據(jù)內(nèi)部消息,英偉達(dá)的B100將于2024年第三季度量產(chǎn),部分早期樣品將于2024年第二季度出貨。
從性能和TCO看,無論是亞馬遜的Trainium2、谷歌的TPUv5、AMD的MI300X,還是英特爾的Gaudi 3或微軟的Athena,跟它相比都弱爆了。
即使考慮到從設(shè)計(jì)合作方、AMD或臺(tái)積電獲得的補(bǔ)貼,它們也統(tǒng)統(tǒng)打不過。
為了盡快將B100推向市場(chǎng),英偉達(dá)做了不少妥協(xié)。
比如,英偉達(dá)本想把功耗定在更高的水平(1000W),但最終,他們還是選擇了繼續(xù)使用H100的700W。
這樣,B100推出時(shí),就能繼續(xù)使用風(fēng)冷技術(shù)。
此外,在B100早期系列,英偉達(dá)也會(huì)堅(jiān)持使用PCIe5.0。
5.0和700W的組合意味著,它可以直接插入現(xiàn)有的H100 HGX服務(wù)器中,從而大大提高供應(yīng)鏈能力,更早地量產(chǎn)和出貨。
之所以決定堅(jiān)持使用5.0,還有部分原因是,AMD和英特爾在PCIe6.0集成上還遠(yuǎn)遠(yuǎn)落后。而即使英偉達(dá)自己的內(nèi)部團(tuán)隊(duì),也沒有準(zhǔn)備好使用PCIe6.0CPU。
此外,他們還將使用速度更快的C2C式鏈接。
在以后,ConnectX-8會(huì)配備一款集成的PCIe6.0交換機(jī),但目前還沒人準(zhǔn)備好。
據(jù)悉,博通和AsteraLabs要到年底才能準(zhǔn)備好量產(chǎn)的PCIe6.0重定時(shí)器,而考慮到這些基板的尺寸,所需的重定時(shí)器只會(huì)更多。
這也意味著,最初的B100將被限制在3.2T,使用ConnectX-7時(shí)的速度也僅僅是400G,而非英偉達(dá)在PPT上所宣稱的每個(gè)GPU 800G。
如果保持空氣冷卻,電源、PCIe和網(wǎng)絡(luò)速度不變,那無論是制造還是部署,都會(huì)很容易。
稍后,英偉達(dá)會(huì)推出一個(gè)需要水冷的1,000W+版本B100。
這一版B100將通過ConnectX-8,為每個(gè)GPU提供完整的800G網(wǎng)絡(luò)連接。
對(duì)于以太網(wǎng)/InfiniBand,這些SerDes仍然是8x100G。
雖然每個(gè)GPU的網(wǎng)絡(luò)速度提高了一倍,但基數(shù)卻減半了,因?yàn)樗鼈內(nèi)孕柰ㄟ^相同的51.2T交換機(jī)。而102.4T交換機(jī),在B100一代中將不再使用。
有趣的是,有爆料稱B100上的NVLink組件將采用224G SerDes,如果英偉達(dá)真能做到這一點(diǎn),無疑是巨大的進(jìn)步。
大多數(shù)人業(yè)內(nèi)人士都認(rèn)為,224G并不可靠,2024年不可能實(shí)現(xiàn),但英偉達(dá)的人除外。
要知道,無論是谷歌、Meta,還是亞馬遜,他們的224G AI加速器量產(chǎn)目標(biāo)都定在2026/2027年。
如果英偉達(dá)在2024/2025年就實(shí)現(xiàn)了這一點(diǎn),鐵定會(huì)把對(duì)手們打得落花流水。
據(jù)悉,B100仍然是臺(tái)積電的N4P,而不是基于3nm工藝的技術(shù)。
顯然,對(duì)于如此大的芯片尺寸,臺(tái)積電的3nm工藝尚未成熟。
根據(jù)英偉達(dá)基板供應(yīng)商Ibiden透露的基板尺寸,英偉達(dá)似乎已經(jīng)轉(zhuǎn)而采用由2個(gè)單片大芯片MCM組成的設(shè)計(jì),包含8或12個(gè)HBM堆疊。
SambaNova和英特爾明年的芯片,都采用了類似的宏觀設(shè)計(jì)。
英偉達(dá)之所以沒有像AMD那樣使用混合鍵合技術(shù),是因?yàn)樗麄冃枰慨a(chǎn),而成本就是他們的一大顧慮。
據(jù)SemiAnalysis估測(cè),這兩款B100芯片的內(nèi)存容量將與AMD的MI300X相近或更高,達(dá)到24GB堆疊。
風(fēng)冷版B100的速度可達(dá)6.4Gbps,而液冷版可能高達(dá)9.2Gbps。
另外,英偉達(dá)還在路線圖中展示了GB200和B40。
GB200和GX200都使用了G,顯然這是一個(gè)占位符,因?yàn)橛ミ_(dá)將推出基于Arm架構(gòu)的新CPU。并不會(huì)長(zhǎng)期使用Grace。
B40很可能只是B100的一半,只有一個(gè)單片N4P芯片,和最多4或6層的HBM。與L40S不同,這對(duì)于小模型的推理是很有意義的。
「X100」:致命一擊
曝出的路線圖中最惹人注意的,就是英偉達(dá)的「X100」時(shí)間表了。
有趣的是,它與AMD目前的MI400時(shí)間表完全吻合。就在H100推出一年后,AMD發(fā)布了MI300X戰(zhàn)略。
AMD給MI300X的封裝令人印象深刻,他們大量塞入了更多的計(jì)算和內(nèi)存,希望能超越一年前的H100,從而在純硬件上超越英偉達(dá)。
英偉達(dá)也發(fā)現(xiàn)了,他們兩年一次發(fā)布新GPU的節(jié)奏,給了競(jìng)爭(zhēng)對(duì)手大好的機(jī)會(huì)搶奪市場(chǎng)。
被逼急了的英偉達(dá),正在把產(chǎn)品周期加快到每年一次,不給對(duì)手任何機(jī)會(huì)。比如,他們計(jì)劃于2025年推出「X100」,僅僅比B100晚一年。
當(dāng)然,「X100」目前還并未量產(chǎn)(不像B100),所以一切還懸而未決。
要知道,在過去,英偉達(dá)可從來不會(huì)討論下一代產(chǎn)品之后的產(chǎn)品,這次已經(jīng)是史無前例了。
而且,名字大概率也不叫「X100」。
英偉達(dá)一直以來的傳統(tǒng),都是以Ada Lovelace、Grace Hopper和Elizabeth Blackwell等杰出女科學(xué)家的名字來命名GPU的。
至于「X」,唯一符合邏輯的就是研究半導(dǎo)體和金屬帶結(jié)構(gòu)的Xie Xide,但考慮到她的身份,概率應(yīng)該不大。
03 供應(yīng)鏈大師:老黃的豪賭
自英偉達(dá)成立之初,黃仁勛就一直在積極推動(dòng)著對(duì)供應(yīng)鏈的掌握,從而支持龐大的增長(zhǎng)目標(biāo)。
他們不僅愿意承擔(dān)不可取消的訂單——高達(dá)111.5億美元的采購(gòu)、產(chǎn)能和庫(kù)存承諾,并且還有38.1億美元的預(yù)付款協(xié)議。
可以說,沒有一家供應(yīng)商能與之相提并論。
而英偉達(dá)的事跡也不止一次表明,他們可以在供應(yīng)短缺時(shí)創(chuàng)造性地增加供應(yīng)量。
2007年黃仁勛與張忠謀的對(duì)話
1997年,張忠謀和我相遇時(shí),只有100人的英偉達(dá)在那一年完成了2700萬美元的收入。
你們可能不相信,但張忠謀以前經(jīng)常打電話推銷,并且還會(huì)上門拜訪。而我則會(huì)向張忠謀解釋英偉達(dá)是做什么的,以及我們的芯片尺寸需要多大,而且每年都會(huì)越來越大。
后來,英偉達(dá)總共做了1.27億個(gè)晶圓。從那時(shí)起,英偉達(dá)每年增長(zhǎng)近100%,直到現(xiàn)在。也就是在過去10年中,復(fù)合年增長(zhǎng)率達(dá)到了70%左右。
當(dāng)時(shí),張忠謀無法相信英偉達(dá)需要如此多的晶圓,但黃仁勛堅(jiān)持了下來。
英偉達(dá)通過在供應(yīng)方面的大膽嘗試,取得了巨大成功。雖然時(shí)不時(shí)要減記價(jià)值數(shù)十億美元的庫(kù)存,但他們?nèi)匀粡倪^度的訂購(gòu)中獲得了正收益。
這次,英偉達(dá)直接搶占了GPU上游組件的大部分供應(yīng)——
他們向SK海力士、三星和美光這3家HBM供應(yīng)商下了非常大的訂單,擠占了除博通和Google之外其他所有人的供應(yīng)。同時(shí),還買下了臺(tái)積電CoWoS的大部分供應(yīng),以及Amkor的產(chǎn)能。
此外,英偉達(dá)還充分利用了HGX板卡和服務(wù)器所需的下游組件,如重定時(shí)器、DSP、光學(xué)器件等。
如果供應(yīng)商對(duì)英偉達(dá)要求置若罔聞,那么就會(huì)面對(duì)老黃的「蘿卜加大棒」——
一方面,他們會(huì)從英偉達(dá)獲得難以想象的訂單;另一方面,他們可能會(huì)被英偉達(dá)從現(xiàn)有的供應(yīng)鏈中剔除。
當(dāng)然,英偉達(dá)也只有在供應(yīng)商至關(guān)重要且無法被淘汰或多元化供應(yīng)的情況下,才會(huì)使用承諾和不可取消的訂單。
每個(gè)供應(yīng)商似乎都認(rèn)為自己是AI的贏家,部分原因是因?yàn)橛ミ_(dá)向所有供應(yīng)商都下了大量的訂單,而他們也都認(rèn)為自己贏得了大部分業(yè)務(wù)。但實(shí)際上,只是因?yàn)橛ミ_(dá)的增長(zhǎng)速度太快了。
回到市場(chǎng)動(dòng)態(tài)上,雖然英偉達(dá)的目標(biāo)是在明年實(shí)現(xiàn)超過700億美元的數(shù)據(jù)中心銷售額,但只有谷歌在上游有足夠的產(chǎn)能——擁有超過100萬臺(tái)的設(shè)備。AMD在AI領(lǐng)域的總產(chǎn)能仍然非常有限,最高也不過幾十萬臺(tái)。
04 商業(yè)策略:潛在的反競(jìng)爭(zhēng)
眾所周知,英偉達(dá)正在利用對(duì)GPU的巨大需求,來向客戶推銷和交叉銷售產(chǎn)品。
供應(yīng)鏈中有大量信息透露,英偉達(dá)會(huì)根據(jù)一系列因素向某些公司提供優(yōu)先分配。包括但不限于:多元化采購(gòu)計(jì)劃、自主研發(fā)AI芯片計(jì)劃、購(gòu)買英偉達(dá)的DGX、NIC、交換機(jī)和/或光學(xué)設(shè)備等。
事實(shí)上,英偉達(dá)的捆綁銷售非常成功。盡管之前只是一家規(guī)模很小的光纖收發(fā)器供應(yīng)商,但他們的業(yè)務(wù)量在一個(gè)季度內(nèi)增長(zhǎng)了兩倍,預(yù)計(jì)明年的出貨量將超過10億美元——遠(yuǎn)遠(yuǎn)超過了自家GPU或網(wǎng)絡(luò)芯片業(yè)務(wù)的增長(zhǎng)速度。
這些策略,可以說是相當(dāng)周密。
比如,想要在英偉達(dá)的系統(tǒng)上實(shí)現(xiàn)3.2T網(wǎng)絡(luò)和可靠的RDMA/RoCE,唯一方法就是使用英偉達(dá)的NIC。當(dāng)然,一方面也是因?yàn)橛⑻貭?、AMD和博通的產(chǎn)品實(shí)在是缺乏競(jìng)爭(zhēng)力——仍然停留在200G的水平上。
而通過對(duì)供應(yīng)鏈的管理,英偉達(dá)還促使400G InfiniBand NIC的交付周期,能夠比400G以太網(wǎng)NIC明顯縮短。而這兩種NIC(ConnectX-7)在芯片和電路板設(shè)計(jì)上,其實(shí)是完全相同的。
其原因在于英偉達(dá)的SKU配置,而非實(shí)際的供應(yīng)鏈瓶頸——迫使企業(yè)不得不購(gòu)買成本更高的InfiniBand交換機(jī),而不是標(biāo)準(zhǔn)的以太網(wǎng)交換機(jī)。
這還不止,看看供應(yīng)鏈對(duì)L40和L40S GPU有多么著迷,就知道英偉達(dá)又在分配上做手腳了——為了贏得更多H100的分配,OEM廠商就需要購(gòu)買更多的L40S。
這與英偉達(dá)在PC領(lǐng)域的操作,也是如出一轍——筆記本制造商和AIB合作伙伴必須購(gòu)買更大量的G106/G107(中/低端GPU)才能獲得更稀缺、更高利潤(rùn)的G102/G104(高端和旗艦GPU)。
作為配合,供應(yīng)鏈中的人也被灌輸了這樣的說法——L40S比A100更好,因?yàn)樗哂懈叩腇LOPS。
但實(shí)際上,這些GPU并不適合LLM推理,因?yàn)樗鼈兊娘@存帶寬還不到A100的一半,而且也沒有NVLink。
這意味著在L40S上運(yùn)行LLM并實(shí)現(xiàn)良好的TCO幾乎是不可能的,除非是非常小的模型。而大批量的處理也會(huì)導(dǎo)致分配到每個(gè)用戶上的token/s幾乎是不可用的,從而使理論上的FLOPS在實(shí)際應(yīng)用中變得毫無用處。
此外,英偉達(dá)的MGX模塊化平臺(tái),雖然省去了服務(wù)器設(shè)計(jì)的艱苦工作,但也同時(shí)降低了OEM的利潤(rùn)率。
戴爾、惠普和聯(lián)想等公司顯然對(duì)MGX持抵制態(tài)度,但諸如超微、廣達(dá)、華碩、技嘉等公司則爭(zhēng)相填補(bǔ)這一空白,將低成本的「企業(yè)人工智能」商品化。
而這些參與L40S和MGX炒作的OEM/ODM,也可以從英偉達(dá)那里獲得更好的主線GPU產(chǎn)品分配。
05 光電共封裝(Co-Packaged Optics)
在CPO方面,英偉達(dá)也是相當(dāng)重視。
他們一直在研究各種解決方案,包括來自Ayar Labs的解決方案,以及他們自己從Global Foundries和臺(tái)積電獲得的解決方案。
目前,英偉達(dá)已經(jīng)考察了幾家初創(chuàng)公司的CPO方案,但暫時(shí)還沒有做出最終的決定。
分析認(rèn)為,英偉達(dá)很有可能將CPO集成到「X100」的NVSwitch上。
因?yàn)橹苯蛹傻紾PU本身可能成本太高,而且在可靠性方面也很困難。
06 光路交換機(jī)(Optical Circuit Switch)
谷歌在人工智能基礎(chǔ)設(shè)施方面最大的優(yōu)勢(shì)之一,就是它的光路交換機(jī)。
顯然,英偉達(dá)也在追求類似的東西。目前,他們已經(jīng)接觸了多家公司,希望能夠進(jìn)行合作開發(fā)。
英偉達(dá)意識(shí)到,F(xiàn)at Tree在繼續(xù)擴(kuò)展方面已經(jīng)走到了盡頭,因此需要另一種拓?fù)浣Y(jié)構(gòu)。
與谷歌選擇6D Torus不同,英偉達(dá)更傾向于采用Dragonfly結(jié)構(gòu)。
據(jù)了解,英偉達(dá)距離OCS的出貨還遙遙無期,但他們希望在2025年時(shí)能夠更加接近這一目標(biāo),但大概率無法實(shí)現(xiàn)。
OCS + CPO是圣杯,尤其是當(dāng)OCS可以實(shí)現(xiàn)按數(shù)據(jù)包交換時(shí),將會(huì)直接改變游戲規(guī)則。
不過,目前還沒有人展示過這種能力,甚至連谷歌也沒有。
雖然英偉達(dá)的OCS和CPO還只是研究部門的兩套PPT,但分析人士認(rèn)為,CPO會(huì)在2025至2026年內(nèi)離產(chǎn)品化更進(jìn)一步。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com