頭部芯片公司大模型競(jìng)爭(zhēng)“全?;?,拼完算力拼網(wǎng)絡(luò)
頭部芯片廠商在大模型領(lǐng)域競(jìng)爭(zhēng)正進(jìn)入軟硬件、算力、網(wǎng)絡(luò)的“全棧式”比拼態(tài)勢(shì)——英偉達(dá)拔得AI生態(tài)頭籌之下,英特爾、AMD等廠商不愿落于人后,在應(yīng)用場(chǎng)景中除了數(shù)據(jù)中心也瞄準(zhǔn)邊緣用途,芯片算力之外還看重網(wǎng)絡(luò)能力。
參數(shù)是通用AI大模型最重要的指標(biāo)之一。2022年4月公布的PaLM大模型訓(xùn)練參數(shù)高達(dá)5400億,而2021年發(fā)布的LaMDA參數(shù)為1370億,ChatGPT背后的GPT-3.5模型參數(shù)為1750億。
近日,英特爾公司高級(jí)副總裁兼網(wǎng)絡(luò)與邊緣事業(yè)部總經(jīng)理Sachin Katti對(duì)界面新聞表示,在云端訓(xùn)練大模型,單個(gè)服務(wù)器已無法承載,對(duì)網(wǎng)絡(luò)需求的高要求前所未有,“我們訓(xùn)練一個(gè)大模型就需要5-20萬臺(tái)服務(wù)器,需要通過網(wǎng)絡(luò)來把這些服務(wù)器連接起來然后進(jìn)行訓(xùn)練,這個(gè)量是非常大的?!?/span>
AI計(jì)算大致分為兩個(gè)層面,首先是對(duì)模型進(jìn)行訓(xùn)練(training),整個(gè)過程可能耗時(shí)數(shù)天或數(shù)周;之后是訓(xùn)練出的模型做出推理(inference)。
在訓(xùn)練大模型的過程中,網(wǎng)絡(luò)的重要性已成業(yè)界共識(shí)。根據(jù)中國(guó)移動(dòng)通信研究院發(fā)布的《面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書》測(cè)算,以1750億參數(shù)規(guī)模的GPT-3模型訓(xùn)練為例,從理論估算模型分析,當(dāng)動(dòng)態(tài)時(shí)延從10us提升至1000us時(shí),GPU有效計(jì)算時(shí)間占比將降低接近10%;當(dāng)網(wǎng)絡(luò)丟包率為千分之一時(shí),GPU有效計(jì)算時(shí)間占比將下降13%;當(dāng)網(wǎng)絡(luò)丟包率達(dá)到1%時(shí),GPU有效計(jì)算時(shí)間占比將低于5%?!叭绾谓档陀?jì)算通信時(shí)延、提升網(wǎng)絡(luò)吞吐是AI大模型智算中心能夠充分釋放算力的核心問題?!卑灼赋?。
對(duì)此,英特爾中國(guó)區(qū)網(wǎng)絡(luò)與邊緣事業(yè)部首席技術(shù)官?gòu)堄罱忉尫Q,在訓(xùn)練大模型時(shí),模型參數(shù)存儲(chǔ)于加速器(如GPU顯卡)的片外緩存中,隨著訓(xùn)練進(jìn)程對(duì)模型參數(shù)進(jìn)行不斷更新迭代。同時(shí),不同加速器之間需要進(jìn)行頻繁且大量的數(shù)據(jù)交換,且只有在數(shù)據(jù)交換完成之后,才能夠去算下一步的訓(xùn)練結(jié)果。
“但如果數(shù)據(jù)交換更新沒有結(jié)束,訓(xùn)練也不會(huì)計(jì)算。”張宇說,“所以從中我們可以看到算力和網(wǎng)絡(luò)能力,對(duì)大模型整體性能是兩個(gè)關(guān)鍵要素。”
從推理端來看,張宇提及,AI模型的部署大部分在邊緣場(chǎng)景,算力、功耗、成本往往都有限,不像數(shù)據(jù)中心可以無限增加設(shè)備。因此,如何在一個(gè)資源受限的情況下去部署大模型,是基礎(chǔ)設(shè)施廠商需要考慮的重要問題,網(wǎng)絡(luò)端的考慮點(diǎn)同樣不少。
“如網(wǎng)絡(luò)模型壓縮問題,如果你把大模型原封不動(dòng)的放在邊緣的話對(duì)算力要求太高,很多設(shè)備是無法承受的?!睆堄畋硎?,對(duì)于大模型在推理端的應(yīng)用,需要根據(jù)行業(yè)特定要求進(jìn)行優(yōu)化,使得簡(jiǎn)化后的模型既滿足特定行業(yè)對(duì)準(zhǔn)確度、功能的要求,所需的算力又能夠被邊緣設(shè)備所承載。
對(duì)于大模型在邊緣的應(yīng)用上,英特爾除了提供CPU、獨(dú)立顯卡等芯片,滿足人工智能模型訓(xùn)練、推理對(duì)算力的要求外,還有針對(duì)網(wǎng)絡(luò)的IPU(Infrastructure Processing Unit)產(chǎn)品。張宇稱,IPU給用戶提供一個(gè)可靠的數(shù)據(jù)傳輸環(huán)境,可滿足大模型訓(xùn)練對(duì)網(wǎng)絡(luò)可靠性、丟包率的嚴(yán)格要求,以及對(duì)網(wǎng)絡(luò)速度的要求。
“在大模型這一塊,和一些友商相比,英特爾的產(chǎn)品實(shí)際上涵蓋了計(jì)算、通訊等各個(gè)領(lǐng)域,給用戶提供了一個(gè)相對(duì)來說比較全面的方案。”張宇稱。
在更考驗(yàn)計(jì)算力的AI訓(xùn)練領(lǐng)域,英偉達(dá)的優(yōu)勢(shì)在于牢牢占據(jù)大模型訓(xùn)練的主流市場(chǎng)。此外,英偉達(dá)持續(xù)推進(jìn)GPU(圖形處理器)、CPU和DPU(數(shù)據(jù)處理器)的“三芯”策略。其中DPU用于處理海量數(shù)據(jù),可以做一些數(shù)據(jù)的處理和預(yù)處理,由DPU將任務(wù)分發(fā)給CPU、GPU和FPGA等進(jìn)行計(jì)算,定位與英特爾的IPU一致。
伴隨AI市場(chǎng)的驅(qū)動(dòng),英特爾的大客戶也在加入競(jìng)爭(zhēng)。2016年,谷歌專門為深度學(xué)習(xí)打造了TPU(張量處理器),部署在谷歌云平臺(tái)中,以服務(wù)的形式售賣。亞馬遜云計(jì)算部門也有自研Arm芯片架構(gòu)服務(wù)器CPU,結(jié)合用于訓(xùn)練和推理的AI芯片、自研網(wǎng)絡(luò)芯片等,構(gòu)成了云計(jì)算環(huán)境下的芯片布局,可用于大模型計(jì)算。
張宇強(qiáng)調(diào),除了硬件端,軟件也很重要,如英特爾的OpenVINO、OneAPI等軟件和組件,可以供開發(fā)者方便使用,“用戶使用CPU,是因?yàn)楝F(xiàn)有軟件能夠充分支持,即便這達(dá)不到最佳性能?!彼Q在大模型領(lǐng)域,憑借前期投資和生態(tài)搭建,英偉達(dá)基于GPU的CUDA軟件生態(tài),已經(jīng)成為開發(fā)者用于大模型乃至AI開發(fā)的首要選擇。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com