亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

AI芯片戰(zhàn)爭(zhēng):英偉達(dá)是科技之巔,還是下一個(gè)思科?

2024-05-17

隨著ChatGPT,2022年底 3.5的誕生讓一些安靜的人工智能技術(shù)再次成為人們關(guān)注的焦點(diǎn)。大量大型軟件企業(yè)和科技創(chuàng)業(yè)公司正在投資資源開發(fā)生成大型語(yǔ)言模型(以下簡(jiǎn)稱“大模型”或“LLM)、Gemini、Llama等大型模型競(jìng)相出現(xiàn),呈現(xiàn)出“百模對(duì)決”的繁榮景象。


在實(shí)踐和推理階段,大語(yǔ)言模型需要巨大的計(jì)算率支持。作為這兩個(gè)階段計(jì)算中的重要計(jì)算芯片,GPU的需求隨著大語(yǔ)言模型的普及而迅速增加,甚至供不應(yīng)求。GPU芯片的主要供應(yīng)商英偉達(dá)達(dá)得益于需求的擴(kuò)大(NVIDIA)股票價(jià)格也迅速上漲。英偉達(dá)于2020年7月10日以2513.14億美元的市值首次超過英特爾2481.55億美元的市值,成為全球市值最高的芯片公司。英偉達(dá)總市值在2024年4月9日達(dá)到2.1億美元,超過亞馬遜、谷歌、Meta、僅次于微軟和蘋果的特斯拉等知名企業(yè)位居世界第三(圖) 1)。


圖 1 美股市值最高的20家公司和思科公司市值(單位:10億美元),注:本圖前20家公司(微軟~P&G)按當(dāng)日總市值排名。思科當(dāng)天在美股市場(chǎng)排名第45位,列入圖中分析思科數(shù)據(jù)需求。數(shù)據(jù)來源:東方財(cái)富Choice數(shù)據(jù)(數(shù)據(jù)獲取時(shí)間2024/4/9)


假如熟悉因特網(wǎng)發(fā)展的歷史,許多人可能會(huì)想到英偉達(dá)在因特網(wǎng)爆發(fā)初期的思科。(Cisco)。20世紀(jì)90年代末,互聯(lián)網(wǎng)在美國(guó)迅速普及,對(duì)路由器、交換機(jī)等網(wǎng)絡(luò)設(shè)備的需求飆升。作為該行業(yè)的龍頭企業(yè),思科的市值也在穩(wěn)步上升。思科的市值在2000年3月達(dá)到5550億美元,成為世界上市值最高的公司。不過,隨著2001年因特網(wǎng)泡沫的破滅,思科的市值也隨之下降。如今,思科的市值約為1953億美元。雖然它仍然是一家巨型企業(yè),但與微軟、谷歌、亞馬遜、Meta等網(wǎng)絡(luò)平臺(tái)和云計(jì)算公司的市值相比,已經(jīng)有了很大的差距。


所以有人認(rèn)為,在互聯(lián)網(wǎng)時(shí)代,軟件和平臺(tái)企業(yè)都取得了成就,因?yàn)樗鼈兛梢酝ㄟ^互聯(lián)網(wǎng)效應(yīng)獲得超額利潤(rùn)。雖然硬件公司很重要,但由于需求有限,總需求在初期快速普及階段爆發(fā)后趨于穩(wěn)定,硬件公司很難獲得超額利潤(rùn),這將進(jìn)入穩(wěn)定增長(zhǎng)期,如英特爾和高通。


英偉達(dá)是否會(huì)類似于思科的發(fā)展軌跡,應(yīng)該回答以下三個(gè)問題,而不是簡(jiǎn)單地將AI時(shí)代與網(wǎng)絡(luò)時(shí)代、GPU與路由器進(jìn)行比較。


  1. 以LLM為代表的AI技術(shù),是否會(huì)延續(xù)巨大的計(jì)算能力需求?
  2. 短期內(nèi),AI計(jì)算中是否會(huì)出現(xiàn)比GPU更高效的芯片?
  3. 在目前的生態(tài)中,英偉達(dá)能否被取代?

下面的內(nèi)容,將討論上述問題。


大語(yǔ)言模型:曇花一現(xiàn),還是改革前夜?


一個(gè)關(guān)鍵因素是市場(chǎng)對(duì)GPU的需求是否會(huì)持續(xù),英偉達(dá)能否持續(xù)高增長(zhǎng)。就行業(yè)而言,目前對(duì)GPU需求最大的行業(yè),應(yīng)該屬于AI相關(guān)領(lǐng)域。AlphaGO于2016年推出,可視為現(xiàn)代AI發(fā)展的第一年。自2016年以來,英偉達(dá)的市值一直在上升,直到2022年超過英特爾市值,收入仍低于英特爾(圖) 2)。這是因?yàn)锳I在此期間的應(yīng)用場(chǎng)景有限,主要包括客戶分類、生產(chǎn)質(zhì)量控制、供應(yīng)鏈優(yōu)化、金融風(fēng)險(xiǎn)控制、圖像識(shí)別、語(yǔ)音識(shí)別等。由于情景的限制,部署的公司數(shù)量有限,主要集中在金融、消費(fèi)、媒體和制造業(yè)等方面。與傳統(tǒng)的分析工具相比,這種分析式AI對(duì)計(jì)算能力的需求有所提高,但并非爆發(fā)式增長(zhǎng)。


圖 2 與英特爾相比,英偉達(dá)的市值和收入來源:東方財(cái)富Choice數(shù)據(jù)


ChatGPT2022年底 3.5推出,大語(yǔ)言模型展現(xiàn)了強(qiáng)大的語(yǔ)言生成和理解能力。在自然語(yǔ)言生成、程序代碼、機(jī)器翻譯等領(lǐng)域展現(xiàn)了巨大的發(fā)展前景,吸引了行業(yè)巨頭和創(chuàng)業(yè)公司紛紛進(jìn)入市場(chǎng)。與分析型人工智能相比,大語(yǔ)言模型幾乎可以應(yīng)用于所有行業(yè)。大型語(yǔ)言模型接近于人類的自然語(yǔ)言理解能力,使其應(yīng)用與以往的AI商品顯著不同。


第一,在繼操作系統(tǒng)之后,大型模型可能會(huì)成為新的底層應(yīng)用。大型模型的形成能力可以大大簡(jiǎn)化應(yīng)用程序的開發(fā)進(jìn)度;然而,一些簡(jiǎn)單的功能甚至可以直接在終端上生成相應(yīng)的功能,而無(wú)需單獨(dú)安裝應(yīng)用程序。2024年世界移動(dòng)通信大會(huì)(MWC 2024年),德國(guó)電信展示了一款由大模型驅(qū)動(dòng)的概念手機(jī)。用戶只需輸入“發(fā)送圖片、推薦旅游目的地”等指令,無(wú)需安裝地圖、照片等單獨(dú)應(yīng)用即可實(shí)現(xiàn)相應(yīng)功能。


第二,大模型可以通過代理代替人類操作員。(Agent)直接連接到其他專業(yè)應(yīng)用中進(jìn)行操作。由于大型模型具有思維鏈的能力,能夠理解前后文并進(jìn)行對(duì)話,從而實(shí)現(xiàn)大型模型對(duì)執(zhí)行結(jié)果的跟蹤和改進(jìn)。比如微軟的AutoGen開發(fā)框架可以為大模型設(shè)置不同的角色,讓每個(gè)角色都有不同的知識(shí)背景和目標(biāo)約束,通過角色之間的自動(dòng)對(duì)話和反饋,不斷改進(jìn)功能,從而達(dá)到預(yù)期的效果(圖 3)。



圖 3 AutoGen流程的數(shù)據(jù)分析,數(shù)據(jù)來源:With Autogen, Microsoft Simplifies Putting Large Language Models to Real Work(www.bigtechwire.com)


第三,RAG可以使用大語(yǔ)言模型。、根據(jù)實(shí)際應(yīng)用領(lǐng)域定制和優(yōu)化微調(diào)、遷移學(xué)習(xí)等技術(shù),使其能夠適應(yīng)不同的業(yè)務(wù)需求和數(shù)據(jù)情況,形成行業(yè)專屬的大模型或知識(shí)庫(kù)系統(tǒng)。如彭博(Bloomberg)BLOOM模型基于開源,使用公司超過7個(gè) 000億詞例(Tokens)大型金融訓(xùn)練詞庫(kù)進(jìn)行實(shí)踐,開發(fā)了專門的金融大語(yǔ)言模型——Bloomberg GPT,完成了市場(chǎng)情緒分析、新聞分類、問題回答等功能。


從本質(zhì)上講,大型模型是一種存儲(chǔ)神經(jīng)網(wǎng)絡(luò)權(quán)重的參數(shù)文件,其推理、知識(shí)檢索、代碼生成等功能依賴于神經(jīng)網(wǎng)絡(luò)參數(shù)的質(zhì)量。所以大型模型的性能有“0” or all“特征,即要不全面領(lǐng)先,要不全面落后,很難在某些領(lǐng)域領(lǐng)先。因?yàn)槿绻枰獙I(yè)領(lǐng)域的模型,可以用先進(jìn)的大模型進(jìn)行微調(diào)訓(xùn)練,不需要重新開發(fā),所以贏家通吃的效果非常明顯。


從市場(chǎng)競(jìng)爭(zhēng)趨勢(shì)來看,雖然OpenAI的ChatGPT仍然處于領(lǐng)先地位,但是從多項(xiàng)測(cè)試表現(xiàn)來看,谷歌、Meta、亞馬遜,微軟,Mistral AI、與OpenAI相比,xAI等公司的商品也在逐步縮小。在這種模式下,目前大模型制造商仍將繼續(xù)大規(guī)模投入GPU計(jì)算率,進(jìn)行大模型練習(xí),以期在競(jìng)爭(zhēng)中獲勝。由圖 4我們可以看到,大模型在計(jì)算率方面的競(jìng)爭(zhēng)仍在繼續(xù)。因此,從行業(yè)發(fā)展的角度來看,英偉達(dá)GPU的大模型仍然會(huì)在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)維持大量的需求。


圖 4 大型訓(xùn)練階段的主要計(jì)算率:petaFLOP是指每秒1000萬(wàn)億次的數(shù)學(xué)運(yùn)算,資料來源:Epoch (2023) – with minor processing by Our World in Data. “Training dataset size” [dataset]. Epoch, “Large Language Model Performance and Compute” [original data].


CPU:過去的王者,為什么會(huì)失去AI時(shí)代?


英特爾是芯片行業(yè)市值和收入最高的公司,在英偉達(dá)市值飆升之前。微軟和英特爾“Wintel“聯(lián)盟曾經(jīng)被認(rèn)為是最成功的產(chǎn)業(yè)組合。在現(xiàn)代計(jì)算機(jī)架構(gòu)中,英特爾是輝煌的,CPU(Centralal全稱Central Processing Unit,在整個(gè)產(chǎn)業(yè)鏈的核心位置上,中央控制部件是所有系統(tǒng)的核心控制模塊。


現(xiàn)代化計(jì)算機(jī)架構(gòu)模式,采用馮·諾依曼架構(gòu)(圖片) 5)計(jì)算機(jī)由輸入設(shè)備、輸出設(shè)備、存儲(chǔ)器、計(jì)算器和控制器組成,其中控制器和計(jì)算器的功能通常由CPU實(shí)現(xiàn)。早期的CPU受技術(shù)水平的限制,不能集成大量的晶體管,所以CPU對(duì)指令集進(jìn)行了選擇,主要滿足通用計(jì)算所需的邏輯運(yùn)算和整形計(jì)算所需的性能,而浮點(diǎn)運(yùn)算能力較弱。為了彌補(bǔ)CPU的劣勢(shì),英特爾推出了8087數(shù)學(xué)協(xié)會(huì)處理器,通過設(shè)計(jì)特殊的硬件架構(gòu)和指令集來提高浮點(diǎn)計(jì)算性能,從而幫助CPU更好地實(shí)施大部分、指數(shù)和三角函數(shù)的科學(xué)計(jì)算。


圖 5 數(shù)據(jù)來源馮·諾依曼計(jì)算機(jī)結(jié)構(gòu):維基百科


然而,分離式設(shè)計(jì)只是權(quán)宜之計(jì)。硬件分離大大延遲了協(xié)處理器和CPU之間的數(shù)據(jù)交換,拖累了計(jì)算機(jī)系統(tǒng)的整體啟動(dòng)速度。從那以后,CPU的發(fā)展思路就是不斷增加晶體管的數(shù)量,擴(kuò)大更多的控制功能,提高更強(qiáng)的計(jì)算率。


一九八九年,英特爾發(fā)布了80486 CPU,集成了120萬(wàn)個(gè)晶體管,增強(qiáng)了浮點(diǎn)運(yùn)算的組件和指令集,集成了數(shù)學(xué)協(xié)處理器,CPU終于不再需要協(xié)助芯片支持進(jìn)行科學(xué)計(jì)算。一九九六年,英特爾發(fā)布了Pentium MMX CPU,為了提高CPU處理多媒體的效率,增加了一組新的硬件,并添加了一組MMX指令來操作上述硬件。Pentium MMX確定了英特爾后期CPU升級(jí)迭代的基本方向,即根據(jù)用戶需求在CPU中添加相應(yīng)功能的硬件,通過發(fā)布相應(yīng)的指令集來擴(kuò)展和增強(qiáng)硬件的功能。


英特爾知道生態(tài)的重要性,除了在技術(shù)上保持領(lǐng)先。在操作系統(tǒng)的支持下,CPU性能(特別是新指令集)的發(fā)揮非常依賴,英特爾與微軟保持著密切的合作關(guān)系,微軟Windows操作系統(tǒng)率先支持英特爾的指令集,充分發(fā)揮CPU的新特性,獲得比競(jìng)爭(zhēng)對(duì)手同期產(chǎn)品更好的性能。所以,英特爾CPU比競(jìng)爭(zhēng)對(duì)手AMD更受科研、工業(yè)等專業(yè)領(lǐng)域用戶的青睞。


在AI時(shí)代到來之前,“Wintel聯(lián)盟”實(shí)際上主導(dǎo)了個(gè)人計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展。AI訓(xùn)練帶來了前所未有的計(jì)算能力需求,計(jì)算機(jī)計(jì)算核心逐步從CPU轉(zhuǎn)移到GPU。多個(gè)運(yùn)算單元在CPU發(fā)展過程中被整合,但GPU卻無(wú)法完全整合。因?yàn)镃PU的功能主要是實(shí)施通用計(jì)算,通用計(jì)算主要是整數(shù)類型計(jì)算,而目前AI相關(guān)的計(jì)算主要是浮點(diǎn)計(jì)算。浮點(diǎn)數(shù)和整數(shù)計(jì)算在計(jì)算機(jī)設(shè)計(jì)中是不能共同使用的,所以即使CPU增強(qiáng)了大量的浮點(diǎn)運(yùn)算模塊,也不能用于整數(shù)運(yùn)算,這樣會(huì)造成CPU功能和成本的巨大浪費(fèi),這顯然是CPU制造商無(wú)法接受的。


因此,英特爾和AMD的CPU只是整合了基本的GPU模塊,以滿足普通用戶對(duì)圖像和視頻處理的基本需求。對(duì)于用戶和CPU制造商來說,如果客戶需要更強(qiáng)大的GPU計(jì)算率,并根據(jù)需求組合相應(yīng)的GPU是一個(gè)更經(jīng)濟(jì)的舉動(dòng)。


因此,從硬件架構(gòu)和商業(yè)行為來看,CPU制造商不太可能提供具有強(qiáng)大AI計(jì)算能力的CPU。在AI時(shí)代,CPU的失位不是起步晚,而是行業(yè)計(jì)算率遷移的自然結(jié)果。


GPU新王登基:游戲中誕生的生產(chǎn)力


在計(jì)算機(jī)演進(jìn)過程中,被中國(guó)父母視為“洪水猛獸”的游戲行業(yè)催生了AI行業(yè)最重要的軟硬件產(chǎn)品——CUDA和GPU。


一九九五年,微軟公司推出Windows 這個(gè)劃時(shí)代的操作系統(tǒng),個(gè)人計(jì)算機(jī)迎來了圖形操作面板。圖形界面的出現(xiàn)大大降低了計(jì)算機(jī)學(xué)習(xí)的門檻,計(jì)算機(jī)逐漸從專業(yè)客戶走向大眾市場(chǎng)。Windows 在95系統(tǒng)中,微軟做出了一個(gè)看似“無(wú)所事事”的選擇,即開發(fā)Direct X API界面,為游戲開發(fā)者提供統(tǒng)一的圖形和多媒體處理界面,減少兼容性問題,簡(jiǎn)化開發(fā)過程,提高游戲的性能和質(zhì)量。使用Direct X,游戲制造商可以在Windows平臺(tái)上快速開發(fā)出畫面精美的游戲,這不僅吸引了游戲制造商的支持,也贏得了個(gè)人用戶對(duì)Windows計(jì)算機(jī)的青睞。


隨著網(wǎng)絡(luò)游戲的蓬勃發(fā)展,GPU對(duì)AI算法的強(qiáng)烈支持出乎意料。因?yàn)橛螒驁D像的渲染是通過產(chǎn)生大量的多邊形(通常采用三角形)來完成的。圖 6展示的古墓麗影游戲角色勞拉的畫質(zhì)進(jìn)步,可以看到左邊第一代游戲畫面的人物有明顯的棱角(約300個(gè)多邊形),右邊第十代游戲中的人物形象非常接近真實(shí)效果(使用了20多萬(wàn)個(gè)多邊形)。



圖 6 古墓麗影游戲角色勞拉的畫質(zhì)提升,資料來源:www.gmly.com


在游戲中,多邊形的計(jì)算有三個(gè)特點(diǎn)。第一,多邊形頂點(diǎn)的坐標(biāo)包括x。、y、圖像數(shù)據(jù)由Z三維數(shù)據(jù)和顏色等信息形成矩陣。物體的運(yùn)動(dòng)變化是矩陣的運(yùn)算。第二,游戲中物體的移動(dòng)是不規(guī)則的,所以游戲數(shù)據(jù)要用浮點(diǎn)數(shù)存儲(chǔ)和計(jì)算。第三,游戲場(chǎng)景的設(shè)計(jì)通常非常復(fù)雜,需要大規(guī)模的并行計(jì)算。


GPU制造商為了滿足運(yùn)行游戲的性能需求,采用了不同于CPU的設(shè)計(jì)方法。以矩陣乘法為例,矩陣運(yùn)算可以分為多個(gè)單獨(dú)的計(jì)算步驟,無(wú)需區(qū)分順序,因此可以并行計(jì)算。GPU的設(shè)計(jì)提高了這一特點(diǎn),即設(shè)計(jì)了大量的小核心,可以并行運(yùn)行數(shù)千個(gè)過程,每個(gè)過程只執(zhí)行簡(jiǎn)單的數(shù)值計(jì)算(圖表 7)。



圖 7 GPU矩陣運(yùn)算示意圖,資料來源:英偉達(dá)官網(wǎng)(www.nvidia.cn)


像GPU這樣的大規(guī)模并行計(jì)算的特點(diǎn),讓黃仁勛思考,那些大規(guī)模的數(shù)值計(jì)算是否也可以通過GPU進(jìn)行?


英偉達(dá)的策略是為開發(fā)者提供一個(gè)通用的程序開發(fā)平臺(tái),讓程序員在不關(guān)注硬件實(shí)現(xiàn)的情況下,在主流編程語(yǔ)言中直接調(diào)用相關(guān)函數(shù)。這樣就推動(dòng)了英偉達(dá)CUDA(Compute Unified Device Architecture,推出統(tǒng)一計(jì)算設(shè)備架構(gòu))。CUDA包括三個(gè)層次:編程語(yǔ)言、編譯系統(tǒng)和函數(shù)庫(kù)。熟悉C的程序員可以繼續(xù)使用、對(duì)于GPU資源的調(diào)度,Python等語(yǔ)言編寫程序由編譯系統(tǒng)完成,程序員只需關(guān)注程序的思路,這大大降低了基于GPU程序開發(fā)的難度。


Geoffry2012年多倫多大學(xué)榮譽(yù)教授 Hinton和他的團(tuán)隊(duì)使用CUDA開發(fā)的圖像識(shí)別軟件AlexNet參與ImageNet ILSVRC圖片識(shí)別賽,以驚人的優(yōu)勢(shì)獲勝(速度比第二名高幾十倍,錯(cuò)誤率比第二名低10%)。這次比賽成了黃仁勛的突破口,業(yè)界開始關(guān)注英偉達(dá)的CUDA技術(shù),并與他們一起推廣計(jì)算生態(tài)。在工業(yè)領(lǐng)域,如流體力學(xué)、有限元分析、油氣開發(fā)等。,CUDA加速軟件的運(yùn)行已經(jīng)使用,結(jié)果可以通過縮短幾個(gè)小時(shí)來獲得,原本需要幾天才能完成。AI領(lǐng)域,Google、在CUDA加速的基礎(chǔ)上,Meta等公司與英偉達(dá)合作推出了TensorFlow等底層AI技術(shù)。


CUDA為英偉達(dá)奠定了技術(shù)基礎(chǔ),而真正推動(dòng)英偉達(dá)爆發(fā)式增長(zhǎng)的,則是大型研發(fā)的“軍備競(jìng)賽”。圖 8是大模型推理過程中一個(gè)階段的可視化圖形??梢钥闯?,基于神經(jīng)網(wǎng)絡(luò)算法的大模型是一個(gè)巨大的矩陣運(yùn)算,這是英偉達(dá)GPU最擅長(zhǎng)的計(jì)算類型。大型模型動(dòng)輒數(shù)百億的練習(xí)參數(shù),帶來了巨大的計(jì)算能力需求,促使GPU接管CPU,成為AI時(shí)代最基本的計(jì)算設(shè)施。


圖 8 nano-gpt神經(jīng)網(wǎng)絡(luò)運(yùn)算部分可視化,數(shù)據(jù)來源:bbycroft.net


軟件與芯片協(xié)同設(shè)計(jì)是CUDA最強(qiáng)的環(huán)城河。AMD支持的開源OpenCL在軟件技術(shù)方面具有與CUDA相似的功能,并能在其它GPU上運(yùn)行。然而,真正挑戰(zhàn)CUDA還很遙遠(yuǎn)。CUDA積累了幾十年的高性能程序庫(kù),基于這些程序庫(kù)上方社區(qū)開發(fā)的各種高性能框架代碼,顯然不可能大規(guī)模更換。但是在高檔GPU領(lǐng)域,目前還沒有一家廠商的芯片算率能夠與英偉達(dá)競(jìng)爭(zhēng)。


就產(chǎn)業(yè)生態(tài)而言,英偉達(dá)更像“Wintel“聯(lián)合體,位于AI時(shí)代的主導(dǎo)地位。就像打破“Wintel“聯(lián)盟是智能手機(jī),為了打破英偉達(dá)在AI時(shí)代的地位,可能需要一個(gè)全新的行業(yè)。


隨著異構(gòu)計(jì)算的興起,英偉達(dá)還能輝煌多久?


英特爾于2023年12月宣布推出全新的酷睿Ultra系列CPU,將NPU集成到CPU內(nèi)部。(Neural Processing Unit,為了在當(dāng)?shù)馗斓剡\(yùn)行AI程序,神經(jīng)網(wǎng)絡(luò)控制部件)用于加快神經(jīng)網(wǎng)絡(luò)計(jì)算。幾乎在同一時(shí)期,AMD還提出了Ryzenenenen在其新銳龍8000系列CPU中。 通過整合NPU加速AI計(jì)算的AI概念。


除PC芯片兩大巨頭外,專注于手機(jī)芯片的高通還推出了驍龍X Elite/Plus CPU,以ARM架構(gòu)更高效的能效比為差異化優(yōu)勢(shì),進(jìn)入PC市場(chǎng)。另一方面,蘋果計(jì)算機(jī)在需要大量GPU顯示的推理場(chǎng)景中,憑借M系列芯片統(tǒng)一內(nèi)存架構(gòu)的優(yōu)勢(shì)獲得優(yōu)勢(shì)。


競(jìng)爭(zhēng)者紛紛進(jìn)入市場(chǎng),英偉達(dá)的領(lǐng)先優(yōu)勢(shì)能否持續(xù)?


對(duì)這個(gè)問題的分析,需要區(qū)分兩個(gè)階段的大模型,即訓(xùn)練階段和推理階段。訓(xùn)練階段是大型模型的研發(fā)階段。在這個(gè)階段,模型會(huì)通過輸入數(shù)據(jù)進(jìn)行多次迭代,不斷優(yōu)化模型參數(shù),使模型能夠更好地?cái)M合數(shù)據(jù),提高預(yù)測(cè)準(zhǔn)確性。這一過程需要大量的計(jì)算資源。推理階段是指在模型訓(xùn)練結(jié)束后,將其應(yīng)用于預(yù)測(cè)或推斷實(shí)際數(shù)據(jù)的時(shí)期,即應(yīng)用階段。模型在推理階段接收輸入數(shù)據(jù),并利用之前學(xué)到的參數(shù)和規(guī)律來進(jìn)行預(yù)測(cè)、分類、生成等任務(wù)。由于模型參數(shù)值已在訓(xùn)練階段確定,因此在推理階段通常需要較少的計(jì)算資源。


上述廠家推出的芯片主要用于加速大模型推理階段。目前,大型推理工作主要由服務(wù)器端提供服務(wù),計(jì)算負(fù)荷集中在服務(wù)器端。所以大型企業(yè)為了支持大量用戶的推理請(qǐng)求,對(duì)英偉達(dá)的GPU有很大的需求。但是這種趨勢(shì)正在發(fā)生變化,智能助理是大模型應(yīng)用的一個(gè)重要場(chǎng)景。(Agent),因此,個(gè)人計(jì)算機(jī)或手機(jī)需要在一定程度上擺脫對(duì)網(wǎng)絡(luò)的依賴,具備在當(dāng)?shù)剡\(yùn)行大型模型的能力。


為了實(shí)現(xiàn)大模型本地推理的計(jì)算率,CPU異構(gòu)計(jì)算方法可能會(huì)逐漸成為主流,即“CPU 內(nèi)置GPU NPU“這和CPU在歷史上是一樣的。 數(shù)學(xué)協(xié)處理器的方法比較相似。在短時(shí)間內(nèi),以神經(jīng)網(wǎng)絡(luò)為核心算法的大模型不會(huì)發(fā)生很大的變化,可以選擇專用硬件。(NPU)加快計(jì)算速度。本地化的大型模型運(yùn)行,在一定程度上會(huì)減少大型模型制造商對(duì)英偉達(dá)CPU的需求。


但在訓(xùn)練階段,大模型規(guī)模法則(Scaling Law)仍然存在,即大模型的性能仍與訓(xùn)練規(guī)模成正比(圖) 9)。此外,目前的大模型主要集中在對(duì)自然語(yǔ)言的理解上,多模型的大模型還沒有得到充分發(fā)展。與目前的訓(xùn)練相比,大模型需要更大的GPU計(jì)算率才能真正成為通用人工智能和多模型的能力。


圖 9 大型MMLU測(cè)試結(jié)果與訓(xùn)練數(shù)據(jù)的規(guī)模有關(guān),數(shù)據(jù)來源:Epoch (2023) – with minor processing by Our World in Data. “Training dataset size” [dataset]. Epoch, “Large Language Model Performance and Compute”[original data].,注意:MMLU是一項(xiàng)大型、多任務(wù)的語(yǔ)言邏輯項(xiàng)目,旨在評(píng)估和提高各種語(yǔ)言邏輯任務(wù)中語(yǔ)言模型的能力,包括歷史、文學(xué)、科學(xué)、數(shù)學(xué)等。MMLU并不能完全代表大語(yǔ)言模型的性能。


從大模型訓(xùn)練的過程來看,未來大模型的算率競(jìng)爭(zhēng)還會(huì)持續(xù)很長(zhǎng)時(shí)間,對(duì)GPU的需求會(huì)很大。這個(gè)市場(chǎng)基本被英偉達(dá)壟斷,可以預(yù)測(cè)英偉達(dá)的快速增長(zhǎng)還會(huì)繼續(xù)。


英特爾和AMD的異構(gòu)CPU在推理階段將逐步成為主流。雙方的技術(shù)路線也比較一致,預(yù)計(jì)將保持現(xiàn)有的競(jìng)爭(zhēng)格局。高通(ARM架構(gòu)CPU)的進(jìn)入值得注意。在過去依靠單核性能的時(shí)代,ARM多核心、低功耗的結(jié)構(gòu)是其主要缺點(diǎn)之一。如今,操作系統(tǒng)和軟件對(duì)多線程的優(yōu)化越來越成熟,對(duì)多線程計(jì)算的需求也越來越大。ARM架構(gòu)將逐步獲得更多的應(yīng)用領(lǐng)域(ARM架構(gòu)的CPU用于超級(jí)計(jì)算機(jī)富岳)。AppleM系列CPU的優(yōu)點(diǎn)是內(nèi)存結(jié)構(gòu)統(tǒng)一,顯存和內(nèi)存沒有區(qū)別,這在PC內(nèi)存普遍較低的時(shí)代有一定的優(yōu)勢(shì)。但是隨著PC異構(gòu)計(jì)算的普及,內(nèi)存配置的不斷增加,蘋果的這一優(yōu)勢(shì)難以持續(xù),AI時(shí)代蘋果面臨的難題似乎更加嚴(yán)峻。


本文來自微信公眾號(hào)“中歐商業(yè)評(píng)論”(ID:ceibs-cbr),作者:齊卿,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com