留給傳統(tǒng)云計(jì)算巨頭的時(shí)間不多了
CoreWeave 的大火被看作是 AI 云注定顛覆傳統(tǒng)云計(jì)算的一個(gè)開(kāi)端。
從七年前的挖礦公司,長(zhǎng)成一家 AI 云廠商,這被外界看來(lái)符合自身技術(shù)路線的轉(zhuǎn)型,加上與英偉達(dá)的曖昧關(guān)系,助推 CoreWeave ——一家規(guī)模不算龐大的公司,在短時(shí)間內(nèi)估值達(dá)到 190 億美元,就在 5 個(gè)月前,它的估值才剛剛 70 億美元。
短時(shí)間內(nèi)估值翻倍的背后,是全球 GPU 加速云基礎(chǔ)設(shè)施的爆炸性需求,以及當(dāng)前的 AI 融資狂潮。和傳統(tǒng)云計(jì)算廠商賣(mài)計(jì)算資源、存儲(chǔ)空間和各種云服務(wù)不同,CoreWeave 專(zhuān)注 GPU 云計(jì)算,特別是與 AI 領(lǐng)域的緊密聯(lián)系。
簡(jiǎn)單來(lái)說(shuō),現(xiàn)在因?yàn)樯墒?AI(如聊天機(jī)器人、圖像生成等)越來(lái)越火,訓(xùn)練和運(yùn)行這些 AI 模型需要大量的計(jì)算能力。GPU(圖形處理器)因?yàn)槟芡瑫r(shí)處理很多任務(wù),成為了這類(lèi)計(jì)算的優(yōu)選硬件。
但事實(shí)上,買(mǎi) GPU 和維護(hù)它并不便宜,所以很多人會(huì)選擇使用云計(jì)算服務(wù)。像亞馬遜 AWS、谷歌云和微軟 Azure 這樣的主流公司都提供了特別為 AI 工作準(zhǔn)備的 GPU。但人們發(fā)現(xiàn),有些專(zhuān)門(mén)提供 GPU 服務(wù)的小公司,比如 CoreWeave,比那些大公司更便宜。
舉個(gè)例子,據(jù)媒體報(bào)道,在 CoreWeave 上租用一款流行的 GPU,每小時(shí)不到 2.4 美元,但在 AWS 和谷歌云上都要花費(fèi) 3.5 美元左右。換句話說(shuō),細(xì)微的價(jià)差和龐大的市場(chǎng)需求,正在將 Gartner 提到的 "GPU 即服務(wù)(GAAS)" 這樣一個(gè)新的概念,日漸催化成了一個(gè)龐大的市場(chǎng)。
2024 年,CoreWeave 公司官方預(yù)測(cè)年度營(yíng)收約 24 億美元,前兩年分別是 3000 萬(wàn)和 5 億,雖然體量上和 AWS 這些巨頭相去甚遠(yuǎn),但夸張的增長(zhǎng)態(tài)勢(shì),已經(jīng)不得不讓所有人對(duì)這個(gè)新興的行業(yè)側(cè)目。
顛覆傳統(tǒng)云廠商的鏟子從哪來(lái)?
CoreWeave 之所以能被稱(chēng)為算力黃牛,是因?yàn)榇饲翱客诘V積累了大量的 GPU。
簡(jiǎn)單來(lái)說(shuō),挖以太坊就像是一個(gè)巨大的數(shù)學(xué)競(jìng)賽,礦工使用計(jì)算機(jī)(特別是像英偉達(dá)這樣的高性能 GPU)來(lái)解一個(gè)叫 " 哈希函數(shù) " 的難題。當(dāng)他們用自己的 GPU 找到答案時(shí),就贏得了一次挖礦的勝利,獎(jiǎng)勵(lì)就是以太幣。
挖礦是一門(mén)技術(shù)活,更是體力活,為了獲得更多的以太幣,要挖更多的礦,與傳統(tǒng)的 CPU 相比,GPU 具有更高的并行處理能力和更強(qiáng)的計(jì)算性能,能夠更快地執(zhí)行復(fù)雜的加密算法。英偉達(dá)的 GPU 因卓越的性能和效率,成為了礦工們的首選鏟子。
CoreWeave 的三名創(chuàng)始人 Michael Intrator、Brian Venturo 和 Brannin McBee 都是華爾街背景,關(guān)注金融和科技領(lǐng)域,五年的挖礦經(jīng)歷,讓他們通過(guò)各種方式獲得了數(shù)萬(wàn)張高性能顯卡,建立了不少數(shù)據(jù)中心。截至 2018 年末,CoreWeave 部署超過(guò) 5 萬(wàn)張 GPU,并且在挖礦逐漸沒(méi)落的同時(shí),借助算力資源轉(zhuǎn)型做起了云計(jì)算的生意。
將 CoreWeave 和英偉達(dá)推向高峰的 chatgpt,更準(zhǔn)確地說(shuō)是預(yù)訓(xùn)練大模型,因?yàn)橛?xùn)練這些大模型的數(shù)據(jù)量極其龐大,過(guò)程可以被拆解成不同的小任務(wù),這就非常適合 GPU 做。產(chǎn)量有限,一個(gè)成本約 3000 美元的 H100 顯卡可以賣(mài)到十倍價(jià)格。
據(jù)媒體報(bào)道,從宣布加入英偉達(dá)合作伙伴網(wǎng)絡(luò)計(jì)劃,到拿到首批英偉達(dá) HGX H100 高性能計(jì)算平臺(tái),再到掌握將英偉達(dá) H100 作為抵押品獲得融資,CoreWeave 只用了不到三年。
之所以被英偉達(dá)青睞,外界普遍認(rèn)為的核心是:在面對(duì)來(lái)自英特爾、AMD 等半導(dǎo)體巨頭以及 OpenAI、微軟等下游客戶自研芯片的壓力下,英偉達(dá)不得不既要抵御云廠商造芯片,又要進(jìn)一步擴(kuò)大 GPU 市場(chǎng)份額。所以芯片廠通過(guò)扶持不造芯片的 CoreWeave、Lambda Labs 等較小的云服務(wù)商,從而與微軟等巨頭能夠形成間接競(jìng)爭(zhēng)。
按照這樣的邏輯,巨頭在尋求 GPU 資源時(shí),如果只能通過(guò) CoreWeave 等公司間接獲取,那么將需要支付更多的費(fèi)用,包括購(gòu)買(mǎi) GPU 的費(fèi)用以及使用 CoreWeave 等公司的服務(wù)費(fèi)用。典型的例子就像剛與 CoreWeave 簽訂長(zhǎng)期合作協(xié)議的微軟,這樣一來(lái),作為最上游的英偉達(dá)仍然掌握最高的議價(jià)權(quán)。
CoreWeave 依賴(lài)英偉達(dá)發(fā)財(cái),就連它的創(chuàng)始人也坦然承認(rèn):" 世界都在依賴(lài)英偉達(dá),雖然我們也在了解不同的芯片和解決方案,但事實(shí)上,客戶明確表示,目前他們需要構(gòu)建產(chǎn)品和 AI 芯片類(lèi)型,很大程度上是由英偉達(dá)基礎(chǔ)設(shè)施推動(dòng)的。"
但回過(guò)頭來(lái),這些其實(shí)還不足以論證 CoreWeave 被市場(chǎng)看好的根本原因。
本質(zhì)上,押注 CoreWeave 的英偉達(dá)、前蘋(píng)果高管、黑石等大量的資本,他們篤定另一個(gè)預(yù)判,傳統(tǒng)的云服務(wù)商將被更新興的 AI 云替代。
AI 軟件的發(fā)展速度非常迅猛,開(kāi)發(fā)的訓(xùn)練過(guò)程需要更強(qiáng)大的計(jì)算資源,和更高效的云基礎(chǔ)設(shè)施來(lái)支持不斷增長(zhǎng),就連被定義為 AI 超大規(guī)模計(jì)算提供商的 CoreWeave,有大量的 GPU 等設(shè)施,仍然供不應(yīng)求。
就當(dāng)前來(lái)看,現(xiàn)有的云基礎(chǔ)設(shè)施大多是為可序列化工作負(fù)載設(shè)計(jì)的,它們更適合處理那些可以分解成一系列獨(dú)立步驟并依次執(zhí)行的任務(wù);但 AI 工作負(fù)載的特性并不一樣:它們通常需要進(jìn)行大量的并行計(jì)算,并且需要實(shí)時(shí)地處理大量的數(shù)據(jù)。
在 CoreWeave 的 CTO 看來(lái),他們不僅擁有大量的 GPU 作為生產(chǎn)力工具,更重要的是其軟件技術(shù)非常先進(jìn),這是它能夠比其他公司更好地利用 GPU 服務(wù)器,確??蛻臬@得最佳性能的原因。
更靈活、更劃算,CoreWeave 能滿足什么?
為什么選擇 CoreWeave,它的官網(wǎng)上有很直接地回答:
CoreWeave 是一家專(zhuān)門(mén)為企業(yè)級(jí) GPU 加速工作負(fù)載提供云服務(wù)商。他們的 Kubernetes 原生基礎(chǔ)設(shè)施專(zhuān)為機(jī)器學(xué)習(xí)、VFX 渲染、像素流和批處理等計(jì)算密集型用例而構(gòu)建,與傳統(tǒng)云廠商相比,速度最高可提高 35 倍,成本降低 80%。
用創(chuàng)始人的 Brannin 的話簡(jiǎn)單來(lái)說(shuō),CoreWeave 的云不是簡(jiǎn)單地加上 GPU 然后讓用戶能夠使用它。它其實(shí)是一個(gè)復(fù)雜的系統(tǒng),像是一個(gè)大舞臺(tái)的導(dǎo)演,管理著所有的資源和設(shè)備,讓用戶可以方便地訪問(wèn)和使用這些資源。
這和那些大公司的云不同,因?yàn)閭鹘y(tǒng)云主要是為了托管網(wǎng)站和存儲(chǔ)數(shù)據(jù),而 CoreWeave 是從頭開(kāi)始打造的,專(zhuān)注于運(yùn)行 AI 和其他需要大量并行計(jì)算的任務(wù)。這是它的核心優(yōu)勢(shì)之一,對(duì)以前不能參與的決策,客戶有更自由," 嚴(yán)格的資源配額和等待數(shù)小時(shí)才能啟動(dòng) GPU 已經(jīng)成為過(guò)去,現(xiàn)在你可以在幾秒鐘內(nèi)調(diào)用、擴(kuò)大和縮小數(shù)千個(gè) GPU。"
Brannin 喜歡打一個(gè)比喻,CoreWeave 和傳統(tǒng)云廠的區(qū)別,就像特斯拉和福特汽車(chē)。福特當(dāng)然可以造出像特斯拉一樣的汽車(chē),但這意味著他們需要經(jīng)歷范式轉(zhuǎn)變,因?yàn)樯婕暗氖钦麄€(gè)供應(yīng)鏈和整體業(yè)務(wù),需要推翻過(guò)去重新開(kāi)始,且容易陷入創(chuàng)新者困境,大公司往往不愿這么做。
當(dāng)然,這種對(duì) AI 的專(zhuān)一性,也直接造就了 CoreWeave 在給 AI 公司服務(wù)時(shí)的專(zhuān)業(yè)性。
CoreWeave 的主要產(chǎn)品有 7 類(lèi),除了提供高性能計(jì)算平臺(tái) H100 和最齊全的 GPU,也提供 CPU 來(lái)滿足不同負(fù)載需求,還有完全托管的 Kubernetes 服務(wù),消除了客戶管理 Kubernetes 集群的負(fù)擔(dān),使他們能夠?qū)W⒂趹?yīng)用程序的開(kāi)發(fā)和部署;以及 NVMe 文件系統(tǒng)卷,這種高性能存儲(chǔ)適用于分布式機(jī)器學(xué)習(xí)訓(xùn)練、VFX 渲染、生命科學(xué)批處理和元宇宙像素流等工作負(fù)載。
除此以外,CoreWeave 使用 InfiniBand 技術(shù)建立了高性能的網(wǎng)絡(luò),相當(dāng)于給每一輛車(chē)(GPU)搭建高速公路,能夠滿足大規(guī)模數(shù)據(jù)處理和傳輸?shù)男枨?,從而有助?AI 產(chǎn)品更快速地發(fā)展和規(guī)?;?。
客觀來(lái)講,CoreWeave 的產(chǎn)品體系覆蓋了高性能計(jì)算的各個(gè)方面,從硬件資源到軟件服務(wù),讓模型訓(xùn)練、托管、微調(diào)以及推理服務(wù)變得簡(jiǎn)單。
至于具體的效果,對(duì)比 A100,H100 能將大型模型的 AI 訓(xùn)練速度提高 9 倍,推理速度提高三十倍。H100 的性能目前維持在行業(yè)第一,這種速度,加上 NVIDIA Quantum-2InfiniBand 平臺(tái)在市場(chǎng)上最低的網(wǎng)絡(luò)延遲,將 AI 模型的訓(xùn)練時(shí)間縮短至幾天或幾小時(shí),而不是幾個(gè)月。
以做 NFT 的 Procedural Space 為例,這是數(shù)萬(wàn)個(gè)獨(dú)特的、程序生成的行星 NFT 的集合。每個(gè)行星都是使用獨(dú)特的算法生成的,這些算法控制著行星的顏色、地形構(gòu)造、海洋、文明等,所有 Procedural Space 行星均制作為一分鐘的 4K 視頻,展示行星的完整旋轉(zhuǎn)。由于負(fù)載量大,幀速率為每秒 30 幀,因此需要 1800 萬(wàn)個(gè)高分辨率幀。
以往他們用過(guò)其他的渲染引擎,但效果并不大好,但通過(guò)與 CoreWeave 合作,Procedural Space 能夠在短短一周內(nèi)渲染、存儲(chǔ)、壓縮、編碼和制作 100GB 的 4K 高分辨率圖像,而成本僅為原來(lái)的六分之一。
那為什么說(shuō) CoreWeave 是當(dāng)下 AI 公司最具性價(jià)比的選擇?
一方面,CoreWeave 提供了業(yè)內(nèi)價(jià)格最低、最廣泛的 NVIDIA GPU 系列選擇,客戶可以根據(jù)自己的工作負(fù)載選擇合適的 GPU,從而確保性能和成本的最優(yōu)化。并且與其他云提供商不同,CoreWeave 在絕大多數(shù)用例中不收取區(qū)域間傳輸、工作站數(shù)據(jù)或出口等費(fèi)用,這樣客戶就不用擔(dān)心數(shù)據(jù)傳輸會(huì)花很多錢(qián)。
另一方面,CoreWeave 提供了按需定價(jià)模式,意味著客戶只需支付他們實(shí)際使用的資源費(fèi)用,無(wú)需簽訂長(zhǎng)期合同或做出任何承諾。這種靈活性使得客戶能夠根據(jù)自己的實(shí)際需求進(jìn)行擴(kuò)展或縮減,從而節(jié)省成本。如果客戶需要長(zhǎng)期或大量使用,他們還有折扣。這也就不難解釋?zhuān)珻oreWeave 的云基礎(chǔ)設(shè)施的速度會(huì)比通用公共云快 35 倍,成本卻低了 80%。
留給傳統(tǒng)云廠商的時(shí)間不多了
Brian Venturo 作為 CoreWeave 的 CTO,提到如果有一種新的芯片性能與英偉達(dá)相當(dāng)或更好,那意味著市場(chǎng)上出現(xiàn)了一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。
想象一下,如果你家附近新開(kāi)了一家和沃爾瑪一樣大的超市,那么沃爾瑪?shù)纳饪赡軙?huì)受到一些影響,因?yàn)橄M(fèi)者現(xiàn)在有了更多的選擇。對(duì)于 CoreWeave 來(lái)說(shuō),這個(gè)新的芯片就像那家新開(kāi)的超市,可能會(huì)吸引一些原本使用英偉達(dá)芯片的客戶。
但 Brannin McBee 提到的一個(gè)觀點(diǎn)是,一種芯片的前兩到三年主要用于模型訓(xùn)練,然后四到五年用于推理執(zhí)行。這意味著即使有了新芯片,現(xiàn)有的英偉達(dá)芯片在一段時(shí)間內(nèi)仍然會(huì)很有用,因?yàn)楹芏喙究赡苓€在使用它們進(jìn)行推理執(zhí)行。
除此以外,英偉達(dá)不僅僅提供芯片,它還努力建立一個(gè)圍繞其硬件的開(kāi)放生態(tài)系統(tǒng)。這意味著很多軟件、工具和服務(wù)都是與英偉達(dá)芯片緊密集成的。其他制造商雖然可以制造性能相近的芯片,但要建立一個(gè)像英偉達(dá)那樣的生態(tài)系統(tǒng)非常困難。
相比大型云廠商(如谷歌、微軟和 AWS)需要投入大量的資金來(lái)建設(shè)和維護(hù)龐大的數(shù)據(jù)中心,還要提供一些低利潤(rùn)的服務(wù)來(lái)吸引和保持客戶。CoreWeave 這樣的公司,由于它們更專(zhuān)注于提供優(yōu)質(zhì)的 AI 服務(wù),所以在基礎(chǔ)設(shè)施方面的投入相對(duì)較小,這使得它們更容易取得成功。
就像前面說(shuō)的那樣,傳統(tǒng)云廠商是有 " 基礎(chǔ)設(shè)施包袱 " 的。
不過(guò)現(xiàn)實(shí)情況里,隨著谷歌、微軟和 AWS 等傳統(tǒng)云廠商開(kāi)始加大對(duì)定制硬件的投資,CoreWeave 也在經(jīng)歷挑戰(zhàn),這里的關(guān)鍵就在于,后者能否持續(xù)提供大量的 GPU 并保持價(jià)格上的競(jìng)爭(zhēng)力。
對(duì)于一家 AI 公司的一個(gè)模型而言,退出訓(xùn)練階段后,在產(chǎn)品上市的前兩年內(nèi),商業(yè)化階段的推理執(zhí)行仍然至少需要百萬(wàn)個(gè) GPU,但目前市場(chǎng)的供給遠(yuǎn)不足夠,這將是一個(gè)長(zhǎng)期的挑戰(zhàn)。換句話說(shuō),未來(lái)不排除越來(lái)越多像 CoreWeave 的公司出現(xiàn),畢竟 AI 這股洪流的到來(lái)已經(jīng)是個(gè)確定性的話題。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




