中國(guó)瘋狂搶GPU,這個(gè)困境怎么破?
在AI領(lǐng)域,GPU有兩個(gè)主要應(yīng)用領(lǐng)域。第一個(gè)是訓(xùn)練場(chǎng)景,即使用GPU加快AI算法的訓(xùn)練。第二個(gè)場(chǎng)景是推理場(chǎng)景,即使用GPU加快AI算法推理。目前國(guó)內(nèi)高端AI場(chǎng)景中的GPU應(yīng)用基本都覆蓋了英偉達(dá)的A800。
A800被認(rèn)為是A100的“閹割版”。去年,英偉達(dá)迅速推出了數(shù)據(jù)傳輸速度相對(duì)較慢的A800,因?yàn)槊绹?guó)政府收緊了對(duì)華出口的控制,用于取代A100出口到中國(guó)。類似于更高端的英偉達(dá)H100和H800。
由于中國(guó)暫時(shí)無(wú)法為云AI訓(xùn)練提供高性能GPU,A800受到中國(guó)互聯(lián)網(wǎng)巨頭的青睞。
全球性芯片巨頭,囤積GPU
據(jù)報(bào)道,中國(guó)互聯(lián)網(wǎng)巨頭百度、騰訊、阿里巴巴和字節(jié)跳動(dòng)公司今年向英國(guó) 偉達(dá)發(fā)布的交付訂單金額達(dá)到10億美元,總共購(gòu)買了約10萬(wàn)個(gè)A800芯片;明年交付的AI芯片價(jià)值將達(dá)到40億美元。
由此可見(jiàn),中國(guó)大型科技公司對(duì)GPU采購(gòu)十分迫切。不僅國(guó)內(nèi)企業(yè),海外大客戶對(duì)英偉達(dá)的A100/H100芯片也有很強(qiáng)的需求。
最近,一張社區(qū)廣為人知的圖片“我們應(yīng)該有多少個(gè)GPU”,引起了很多網(wǎng)友的討論。
按照?qǐng)D片內(nèi)容所示:GPT-大約需要21000-25000張A100才能練習(xí);Meta大約需要21000張A1000張。;大約需要7000個(gè)TeslaA1000張。;Stability 大約需要5000個(gè)A1000個(gè)AI。;Falcon-在384張A100上,40B進(jìn)行了訓(xùn)練;Inflection使用了3500張H100,對(duì)GPT-3.5能力相當(dāng)?shù)哪P瓦M(jìn)行訓(xùn)練。另外,根據(jù)馬斯克的說(shuō)法,GPT-H100可能需要30000-50000張。
英偉達(dá)的GPU面臨著如此強(qiáng)大的需求,極其緊缺。據(jù)外媒報(bào)道,供應(yīng)鏈消息顯示,英偉達(dá)在生成型人工智能需求上升和國(guó)際形勢(shì)變化的影響下,為中國(guó)市場(chǎng)提供了A800和H800。 GPU價(jià)格持續(xù)上漲。七月中旬,英偉達(dá)代理反饋,英偉達(dá)A800 GPU價(jià)格上漲到12萬(wàn)元,H800和H100的價(jià)格也超過(guò)了20萬(wàn)元?,F(xiàn)在英偉達(dá)訂單的可見(jiàn)度已經(jīng)到了2024年,即使是A800/H800也要到今年年底或者明年才能交貨。
產(chǎn)量瓶頸在哪里?
根據(jù)tomshardware的報(bào)道,英偉達(dá)DGX系統(tǒng)副總裁兼Charliee總經(jīng)理 Boyle出來(lái)澄清了企業(yè)GPU產(chǎn)量問(wèn)題的實(shí)際情況。Charlie Boyle表示,問(wèn)題并非來(lái)自于英偉達(dá)的錯(cuò)誤計(jì)算需求,或者它的制造合作伙伴臺(tái)積電的晶圓產(chǎn)量。相反,為了滿足消費(fèi)者和專業(yè)工作負(fù)荷(如AI),制造足夠的GPU的瓶頸在于后續(xù)的芯片封裝步驟。
英偉達(dá)的H系列GPU選用臺(tái)積電2.5D CoWoS封裝技術(shù)是一個(gè)多步、高精度的工程流程,其復(fù)雜性降低了GPU在給定時(shí)間內(nèi)可以組裝的數(shù)量,這可能會(huì)不成比例地影響供應(yīng)。馬斯克還說(shuō)“GPU很少見(jiàn)”。
所以,當(dāng)我們使用“GPU短缺”這個(gè)詞時(shí),它們實(shí)際上是在討論主板上某些部件的短缺或積壓,而非GPU本身。
在芯片成為可用的GPU之前,需要執(zhí)行從芯片設(shè)計(jì)到制造的多個(gè)步驟。由于設(shè)計(jì)疏忽,ic設(shè)計(jì)期間的問(wèn)題可能會(huì)導(dǎo)致制造瓶頸,從而降低設(shè)計(jì)的良率。稀土金屬或其他材料的缺乏(如最近有限的釩)會(huì)影響長(zhǎng)物流鏈中的其他步驟;材料污染、能源中斷等諸多因素也會(huì)造成影響。
但是CoWoS的瓶頸問(wèn)題可能比預(yù)期的要嚴(yán)重。臺(tái)積電還表示,為了恢復(fù)封裝訂單的正常積壓,估計(jì)需要一年半的時(shí)間(以及完成額外的晶圓廠和擴(kuò)建目前的設(shè)施)。這可能意味著英偉達(dá)不得不決定將哪些包裝能力分配給哪些產(chǎn)品,因?yàn)樗鼪](méi)有足夠的時(shí)間和能力來(lái)包裝所有產(chǎn)品。
不僅如此,為了限制中國(guó)AI產(chǎn)業(yè)的發(fā)展,美國(guó)總統(tǒng)拜登于今年8月正式簽署行政命令,限制美國(guó)企業(yè)未來(lái)在敏感技術(shù)上投資中國(guó),包括半導(dǎo)體、量子計(jì)算和人工智能,預(yù)計(jì)明年將實(shí)施。
產(chǎn)量不足仍然可以打破。如果供應(yīng)被切斷,這些正在進(jìn)行云AI培訓(xùn)的大公司很可能會(huì)陷入困境。因此,這些科技巨頭開(kāi)始爭(zhēng)相囤積。 A800 芯片。還需要注意的是,如果A800/H800真的受到美國(guó)禁令的影響,中國(guó)本土芯片公司和正在自主研發(fā)的芯片科技廠商是否有能力承擔(dān)這一重任?
運(yùn)行大模型,國(guó)產(chǎn)GPGPU有哪些可選標(biāo)的?
如今,美國(guó)實(shí)施了一項(xiàng)新的許可要求,限制中國(guó)使用高端GPU獲得先進(jìn)的計(jì)算能力,因?yàn)榻鼉赡晟虡I(yè)領(lǐng)域最先進(jìn)的GPU產(chǎn)品受到限制,目前還沒(méi)有完全替代的選擇。因此,美國(guó)政府認(rèn)為,切斷中國(guó)從美國(guó)企業(yè)獲得這些芯片的直接渠道,可以阻礙中國(guó)人工智能的發(fā)展,延緩中國(guó)人工智能的發(fā)展,希望中國(guó)人工智能領(lǐng)域能夠崩潰。
但事實(shí)呢?事實(shí)是,美國(guó)公司的股票被禁止下跌,而生產(chǎn)類似芯片的中國(guó)公司的股票卻呈現(xiàn)出相反的上漲趨勢(shì)。這也意味著中國(guó)公司作為美國(guó)企業(yè)的戰(zhàn)略競(jìng)爭(zhēng)對(duì)手,可能會(huì)獲得更大的發(fā)展空間。
事實(shí)上,從2019年開(kāi)始,應(yīng)用于超級(jí)計(jì)算領(lǐng)域的高端GPU在中國(guó)銷售時(shí)就受到了嚴(yán)格的控制,但當(dāng)時(shí)只有AMD產(chǎn)品受到限制,英偉達(dá)的產(chǎn)品并沒(méi)有受到影響,所以公司和消費(fèi)者對(duì)產(chǎn)品的感知并不強(qiáng)烈。這次擴(kuò)大范圍后,除了超級(jí)計(jì)算中心,其主要應(yīng)用領(lǐng)域還包括云計(jì)算服務(wù)器、數(shù)據(jù)中心、AI培訓(xùn)等場(chǎng)景,影響了很多大型互聯(lián)網(wǎng)公司。
由于前車可鑒,隨著國(guó)內(nèi)云計(jì)算和互聯(lián)網(wǎng)公司在云備份和數(shù)據(jù)處理方面需要的信息越來(lái)越多,各大互聯(lián)網(wǎng)公司和云廠商也在AI芯片領(lǐng)域進(jìn)行布局。
2019年,阿里推出了“含光800”的人工智能芯片,“含光800”是一款面向數(shù)據(jù)中心AI的人工處理推理芯片,選用臺(tái)積電12nm。 工藝,這是一個(gè)為AI情景深度定制的芯片,進(jìn)一步提高了AI情景計(jì)算的效率。阿里曾經(jīng)說(shuō)過(guò),“含光800”是當(dāng)年世界上最強(qiáng)的AI芯片,性能和能效比都是第一位的,一個(gè)“含光800”的算率相當(dāng)于10個(gè)GPU?,F(xiàn)已應(yīng)用于阿里云云服務(wù)器,可提升電商智能搜索、智能營(yíng)銷等場(chǎng)景。雖然阿里“含光800”不賣,但阿里云智能總裁張建峰也提到“含光800”將采用阿里云對(duì)外導(dǎo)出。 AI 計(jì)算率,未來(lái)企業(yè)可通過(guò)阿里云獲得“含光800”的計(jì)算率。
百度還在2020年量產(chǎn)了第一代AI芯片——昆侖。百度昆侖1采用三星14nm工藝,目前量產(chǎn)超過(guò)2萬(wàn)片,廣泛布局在搜索引擎和百度智能云生態(tài)合作伙伴等場(chǎng)景中。2021年下半年,百度昆侖實(shí)現(xiàn)量產(chǎn),采用7nm先進(jìn)工藝,性能比百度昆侖提升3倍。據(jù)悉,百度正在制作第三款昆侖芯片,將于明年年初上市。
騰訊也在2021年發(fā)布了視頻處理芯片“滄?!焙虯I芯片“紫霄”。字節(jié)在“2022” 火山發(fā)動(dòng)機(jī)原動(dòng)力大會(huì)也正式確定了其自主芯的規(guī)劃。目前,字節(jié)自主研發(fā)芯片已涉足視頻平臺(tái)、信息和娛樂(lè)應(yīng)用。
到目前為止,國(guó)內(nèi)互聯(lián)網(wǎng)制造商的芯片研發(fā)方向集中在云計(jì)算、視頻圖像處理等方面的特殊或通用芯片。除了互聯(lián)網(wǎng)制造商,國(guó)內(nèi)一些GPU制造商不斷發(fā)布一些性能優(yōu)異的產(chǎn)品。
當(dāng)前全球AI計(jì)算芯片主要分為GPGPUP。、ASIC、FPGA有三種結(jié)構(gòu)。而且受限的A800和H800芯片屬于GPGPU架構(gòu)芯片。現(xiàn)在只有GPGPU架構(gòu)可以運(yùn)行大模型訓(xùn)練。
目前,國(guó)內(nèi)AI芯片的主要制造商包括華為、寒武紀(jì)、海光信息、遂原、墻體、天數(shù)智能芯片等。此外,龍芯也在布局。其中,使力GPGPU芯片包括海光、墻體科技、沐曦科技、龍芯等。
海光深算一號(hào)選擇的是GPGPU架構(gòu),是企業(yè)DCU。 該系列主要銷售商品。
從實(shí)際量產(chǎn)技術(shù)來(lái)看,國(guó)內(nèi)廠商中海光信息是第一梯隊(duì),深算一號(hào)可以用來(lái)運(yùn)行大模型,在2022年。 在大數(shù)據(jù)處理、人工智能、商業(yè)計(jì)算等方面,年度完成了商業(yè)應(yīng)用。但其整體性能僅相當(dāng)于英偉達(dá)P100的水平,大約是2014年英偉達(dá)的技術(shù)水平。然而,其深算二、三號(hào)也處于研發(fā)階段,海光表示其產(chǎn)品特性在國(guó)內(nèi)處于領(lǐng)先地位。
GPGPU芯片BR100系列于2022年發(fā)布,其性能超過(guò)英偉達(dá)A100。BR100 系列通用 GPU 芯片支持云訓(xùn)練和推理,現(xiàn)在已經(jīng)到了收尾階段,正在準(zhǔn)備流片。墻體技術(shù)的第二個(gè)芯片已經(jīng)開(kāi)始構(gòu)建模式。未來(lái),墻體技術(shù)將逐步推出面向智能計(jì)算中心、云游戲和邊緣計(jì)算的GPU芯片。對(duì)未來(lái)大規(guī)模生產(chǎn)的應(yīng)用情況暫時(shí)存疑。另外需要注意的是,軟件生態(tài)對(duì)于國(guó)內(nèi)初創(chuàng)GPGPU公司來(lái)說(shuō)更為重要?,F(xiàn)在國(guó)內(nèi)的初創(chuàng)企業(yè)雖然在細(xì)分領(lǐng)域有一定的落地,但真正能夠在模型訓(xùn)練中得到實(shí)踐應(yīng)用的還非常欠缺。如果未來(lái)BR100的實(shí)際應(yīng)用效果還不錯(cuò),那么在軟件生態(tài)方面還需要更加努力。
沐曦也是國(guó)內(nèi)GPGPU運(yùn)動(dòng)員之一。沐曦公司主要有曦思和曦云兩種AI芯片,其中曦云MXC系列是該公司開(kāi)發(fā)的GPU芯片,用于AI培訓(xùn)和通用計(jì)算。與A100/A800相比,MXC500是沐曦的算率芯片,F(xiàn)P32浮點(diǎn)性能可以達(dá)到15TFlops,與A100顯卡FP32相比。 性能19.5 TFLOPS。MXC500的完整軟件棧除了性能接近外,(MXMACA)同時(shí)兼容CUDA,預(yù)計(jì)年底大規(guī)模出貨。
目前龍芯還沒(méi)有產(chǎn)品發(fā)布,目前已經(jīng)完成了相關(guān)IP的設(shè)計(jì)。在驗(yàn)證升級(jí)的過(guò)程中,第一個(gè)集成GPGPU核的SOC芯片計(jì)劃于2024年Q1流片。從流片到量產(chǎn),如果按照最快6-12個(gè)月計(jì)算,龍芯的GPGPU產(chǎn)品至少要在2024年Q3之后才能發(fā)布,估計(jì)需要2025年才能量產(chǎn)。
另外,華為升騰也很受歡迎。華為的升騰910也可以作為訓(xùn)練芯片,它的算率很強(qiáng),超級(jí)英偉達(dá)的Tesla V100翻了一番。但由于盛騰910依賴華為自身的軟件生態(tài),需要華為的深度提升和代碼移植,實(shí)用性相對(duì)較差,其選擇臺(tái)積電的7nm工藝在生產(chǎn)上也受到限制,暫時(shí)不做過(guò)多討論。
英偉達(dá)是最好的選擇,但不能被視為唯一的選擇。
如今,GPU缺口仍在加速擴(kuò)大。如果A800/H800也受到供應(yīng)限制,中國(guó)云服務(wù)器制造商必須提前規(guī)劃自己的發(fā)展路徑。
從最初強(qiáng)調(diào)計(jì)算率和獨(dú)特技術(shù)的趨勢(shì),中國(guó)AI芯片制造商正在逐步轉(zhuǎn)向針對(duì)特定應(yīng)用領(lǐng)域的優(yōu)化方向。雖然現(xiàn)在微軟、谷歌、百度都用AI來(lái)聊天畫畫,但并不代表他們的AI不能做別的事情。目前,讓AI落地民用市場(chǎng),不僅可以讓廠商利用AI獲得更多的利潤(rùn),尤其是微軟、谷歌、百度,還可以讓用戶更直觀地體驗(yàn)AI,在民用市場(chǎng)收集更多的數(shù)據(jù)進(jìn)行實(shí)踐,也可以反饋云場(chǎng)景的應(yīng)用。這個(gè)過(guò)程可能會(huì)長(zhǎng)一點(diǎn),慢一點(diǎn),但這也是必須要做的事情。
類似地,如果不能與中國(guó)進(jìn)行貿(mào)易,美國(guó)公司也將遭受巨大的損失。這些GPUA800和H800就是英偉達(dá)為繞過(guò)美國(guó)對(duì)中國(guó)實(shí)施的出口禁令而開(kāi)發(fā)的,從而保持其在中國(guó)市場(chǎng)的地位。英偉達(dá)此前透露,他們可以在下半年提供更多的GPU,但沒(méi)有提供任何定量信息。Colettet英偉達(dá)首席財(cái)務(wù)官 Kress此前在2023年2月至4月的財(cái)務(wù)報(bào)告會(huì)上透露:“我們正在處理這個(gè)季度的供應(yīng),但是我們也為下半年購(gòu)買了大量的生產(chǎn)材料。相信下半年的供應(yīng)量會(huì)比上半年高很多?!?/p>
就中國(guó)行業(yè)現(xiàn)狀而言,英偉達(dá)GPU確實(shí)是首選,但從長(zhǎng)遠(yuǎn)來(lái)看,它并不能被視為唯一的選擇。
本文來(lái)自微信公眾號(hào)“半導(dǎo)體產(chǎn)業(yè)縱橫”(ID:ICViews),作者:豐寧,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com