亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

提供“開箱即用”的大模型訓(xùn)練能力,「算想未來」推出云原生大模型算力平臺(tái)

商界觀察
2023-08-24

36 氪獲悉,AI 算力平臺(tái)技術(shù)提供商「算想未來」推出云原生大模型算力平臺(tái),通過先進(jìn) GPU 集群調(diào)度算法、軟件優(yōu)化提升客戶集群使用效率、降低大模型算力使用成本。

 

算想未來是服務(wù)于大模型的算力云服務(wù)技術(shù)提供商,2022 年 10 月獲得陸奇博士的奇績(jī)創(chuàng)壇種子輪融資。

 

創(chuàng)始人趙亞雄博士畢業(yè)于清華大學(xué),長(zhǎng)期從事分布式算力平臺(tái)領(lǐng)域的研發(fā)工作,此前在谷歌數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施團(tuán)隊(duì)擔(dān)任 Tech Lead,負(fù)責(zé)高性能網(wǎng)絡(luò)架構(gòu)與 SDN 系統(tǒng)研發(fā);后在集群管理系統(tǒng)團(tuán)隊(duì) Borg 擔(dān)任 Tech Lead Manager,負(fù)責(zé)谷歌 GPU/TPU 算力平臺(tái)的研發(fā)工作。創(chuàng)立算想未來之前,趙亞雄是云原生可觀測(cè)性創(chuàng)業(yè)公司 Pixie 創(chuàng)始團(tuán)隊(duì)成員,帶領(lǐng)技術(shù)團(tuán)隊(duì)在 1.5 年內(nèi)被上市公司 New Relic 收購(gòu)。

 

在谷歌工作期間,趙亞雄博士積累了大量 AI 算力平臺(tái)軟件系統(tǒng)中的核心技術(shù)研發(fā)經(jīng)驗(yàn),包括 GPU/TPU 調(diào)度、高性能網(wǎng)絡(luò)通信、光電混合網(wǎng)絡(luò)架構(gòu)等方面的研發(fā)開發(fā)經(jīng)驗(yàn)。

 

趙亞雄博士向 36 氪表示,全球云服務(wù)市場(chǎng)美國(guó)廠商整體規(guī)模是國(guó)內(nèi)廠商數(shù)倍,AWS、谷歌、微軟三家份額接近 70%,國(guó)內(nèi)廠商整體占比約為 10%,細(xì)分至 AI 領(lǐng)域,算力規(guī)模差距更大、及;算力平臺(tái)軟件系統(tǒng)方面的差距則更大。

 

隨著生成式 AI 及 AI 大模型的興起,國(guó)內(nèi)廠商采購(gòu) GPU 面臨核心技術(shù)指標(biāo)受限的難題:?jiǎn)涡酒懔Σ荒艹^ 4800 TOPs、多卡通信帶寬不能超過 600 GB/s。此兩項(xiàng)指標(biāo)上限取自 NVIDIA A100;下一代的 NVIDIA H100 提供 900GB/s 多卡通信帶寬,國(guó)內(nèi)能采購(gòu)的 A800、H800 多卡帶寬為 400 GB/s,落后接近 60%。

 

此外,GPU 產(chǎn)能吃緊,溢價(jià)較為嚴(yán)重。A100/A800 2023 年上半年的價(jià)格相對(duì) 2021 年上漲 50%,并且 A100/A800 已停產(chǎn),NVIDIA 已不再接收 A100/A800 訂單。

 

據(jù) Raymond James 數(shù)據(jù),一張 H100 計(jì)算卡制造成本為 3320 美元,NVIDIA 以 2.5 萬至 3 萬美元的價(jià)格出售給客戶,毛利率高達(dá) 1000%,且需求只增不減,H100 已售罄缺貨到 2024 年。在高端算力需求快速增長(zhǎng)的情況下,中國(guó)廠商將來需要更高效的 GPU 算力的軟硬件優(yōu)化方案解決高端 GPU 短緊缺的情況難題。

 

利用軟硬件優(yōu)化釋放 GPU 資源池算力的過程較為復(fù)雜,包含了服務(wù)器架構(gòu)、編譯工具鏈、AI 應(yīng)用框架、分布式計(jì)算、高性能存儲(chǔ)等多個(gè)層級(jí)。針對(duì)各公司自身算力池的優(yōu)化方案,國(guó)內(nèi)大部分廠商若要搭建相應(yīng)軟件團(tuán)隊(duì),需要在各個(gè)層級(jí)都聘請(qǐng)工程師團(tuán)隊(duì),成本較高。此外,上述軟件系統(tǒng)的運(yùn)維成本也極其高昂。

 

針對(duì)上述情況,算想未來為客戶提供 " 開箱即用 " 的大模型訓(xùn)練能力和硬件資源管理能力,實(shí)現(xiàn)低成本的高端算力服務(wù)。未來拓展為訓(xùn)推一體大模型算力云平臺(tái),為大模型團(tuán)隊(duì)提供一站式算力云平臺(tái)解決方案。

 

硬件資源管理能力方面,算想未來為客戶的 GPU 服務(wù)器集群搭建基于 Kubernets 的云原生算力平臺(tái)。依托來自容器和云原生技術(shù)發(fā)源地 Google Borg 的先進(jìn) GPU 資源調(diào)度算法,提升 GPU 服務(wù)器集群的資源使用率。

 

大模型訓(xùn)練能力方面,與傳統(tǒng)基于單卡的計(jì)算任務(wù)不同,大模型訓(xùn)練屬于大規(guī)模分布式計(jì)算任務(wù),GPU 在該長(zhǎng)時(shí)間訓(xùn)練過程中的故障率高達(dá) 5%-20%。一旦 GPU 發(fā)生偶發(fā)性故障,需要工程師手動(dòng)干預(yù)來重啟訓(xùn)練任務(wù),降低了大模型團(tuán)隊(duì)的研發(fā)效率。

 

第一階段,算想未來目前以 AI 私有云平臺(tái)為切入口,針對(duì)英偉達(dá) GPU 算力池優(yōu)化進(jìn)行 GPU I/O 優(yōu)化、集合通信(collective communication)性能等領(lǐng)域進(jìn)行軟件方面的優(yōu)化。

 

同時(shí)通過自動(dòng)化監(jiān)控監(jiān)測(cè) GPU 運(yùn)行情況、以及計(jì)算任務(wù)執(zhí)行情況,客戶可在算想未來平臺(tái)上做到容錯(cuò)調(diào)度,實(shí)現(xiàn)無人干預(yù)的長(zhǎng)時(shí)間穩(wěn)定訓(xùn)練的效果,提升大模型團(tuán)隊(duì)研發(fā)效率、加速模型迭代。

 

算想未來已積累到多家種子客戶,主要系擁有自己 GPU 算力池的公司,包括國(guó)內(nèi)知名的 GPU 算力池企業(yè)、地方及國(guó)家級(jí)人工智能算力中心等。

 

趙亞雄博士表示,算想未來目前的客戶更偏向于擁有算力資源的企業(yè),第二階段公司將開發(fā)分布式大模型算力市場(chǎng),為大模型團(tuán)隊(duì)和算力提供方提供開放的算力采購(gòu)、售賣的市場(chǎng)。

 

以 IDC 提供的 A100 集群為例,雖然目前 GPU 較為緊缺,但使用率僅在 30%-60% 之間,存在大量閑置算力。單一的 IDC 廠商主攻軟件優(yōu)化方案將耗費(fèi)大量人力物力,同時(shí)目前軟件營(yíng)收規(guī)模吸引力較小,IDC 廠商更愿意專注于大客戶的硬件長(zhǎng)租業(yè)務(wù),相應(yīng)成本中小客戶難以承擔(dān),尋找相應(yīng)軟件合作商成為目前國(guó)內(nèi) IDC 廠商的主流選擇。

 

此外,算想未來將與公有云廠商合作,將長(zhǎng)租公有云 GPU 集群算力,搭配私有云平臺(tái)的軟件技術(shù),為客戶提供隨需隨用的高端 GPU 算力;更進(jìn)一步通過軟件優(yōu)化,將閑置的中低端 GPU(包括國(guó)產(chǎn) GPU)的算力充分釋放,支持大模型推理的算力需求,讓閑置算力擁有者獲得變現(xiàn)渠道。

 

如今 AI 浪潮席卷到中國(guó)市場(chǎng),幾乎所有的主流云廠商、芯片廠商都有做 AI 算力集群、AI 云的嘗試,算想未來如何看待和大廠的競(jìng)爭(zhēng)?

 

趙亞雄博士表示,算想未來的客戶是迫切尋求大模型工程能力的中小型技術(shù)企業(yè),相比主要云廠商主攻大客戶提供 " 勞斯萊斯 ",此類解決方案規(guī)模龐大、功能齊全但是使用困難,中小企業(yè)難以負(fù)擔(dān)其高昂的成本;算想未來為中小型技術(shù)企業(yè)提供 " 隨叫隨到的 Waymo 無人網(wǎng)約車 ",即自動(dòng)化免運(yùn)維的大模型算力服務(wù),在中短期內(nèi)與主流云廠商不發(fā)生直接利益沖突。

 

同時(shí)國(guó)產(chǎn) GPU 成熟前,國(guó)內(nèi)進(jìn)口 GPU 的質(zhì)量和數(shù)量受到限制,國(guó)產(chǎn) GPU 能大規(guī)模商業(yè)化落地還需時(shí)日,目前大廠難以實(shí)際應(yīng)用,算想未來通過與國(guó)產(chǎn) GPU 的戰(zhàn)略合作,可以積累到足夠的技術(shù)壁壘。

 

當(dāng)前,算想未來與國(guó)產(chǎn) DPU、GPU 廠商、高??蒲袌F(tuán)隊(duì)簽署合作協(xié)議,開展針對(duì)大模型算力需求場(chǎng)景下,適配國(guó)產(chǎn) DPU、GPU 的高性能集合通信算法與軟件 API;同時(shí)開展基于國(guó)產(chǎn) GPU 的大模型算力平臺(tái)的研發(fā)。

 

其他團(tuán)隊(duì)成員方面,算想未來創(chuàng)始團(tuán)隊(duì)均來自谷歌、華為等企業(yè),具有世界頂尖的 AI 算力平臺(tái)研發(fā)經(jīng)驗(yàn)。算想未來目前開啟新一輪融資,計(jì)劃建立硅谷研發(fā)中心,用于擴(kuò)充工程師團(tuán)隊(duì)和推進(jìn)分布式大模型算力市場(chǎng)的商業(yè)化。

 

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com