阿里、百度大模型價格混戰(zhàn),小企業(yè)還是沒錢買算率。 | 硬氪分析
作者|黃楠
編輯|袁斯來
價格戰(zhàn)大火從OpenAI燒開,迅速蔓延到大洋彼岸。
5月13日,OpenAI在發(fā)行GPT-4o的同時,將其API價格降至50%,每百萬tokens的輸入價格降至5美元(相當于35元左右),這是大模型價格戰(zhàn)的第一棒。
隨后半個月,國內(nèi)各大模型廠商掀起了降價浪潮。在阿里旗下9款大型模型降價后,百度隨后宣布文心Speed和文心Lite兩款模型都是免費的。隨后,智譜GLM-3-Turbo模型、字節(jié)豆包模型、阿里通義系列模型等也紛紛將百萬tokens的輸入價從100元降到1元左右。
降價背后的主要原因是大型廠商急于商業(yè)化。然而,看似激烈的價格戰(zhàn)難以緩解行業(yè)困境。
“本輪價格戰(zhàn)的主要參與者是云制造商。幾家大型頭型公司都有行動,但并不激進。畢竟還是有少數(shù)企業(yè)可以大量購買計算能力和模型服務(wù)?!标P(guān)注芯片行業(yè)的投資者胡楊告訴硬氪。
歸根結(jié)底,公司在模型上的應用取決于大量的實踐和無休止的迭代。僅僅推理token的降價并不能解決練習和部署的高計算費用。計算率的焦慮揮之不去。
集成軟硬件服務(wù)的算率一體機在此背景下開始引起關(guān)注。
計算機集成了高性能計算的硬件和優(yōu)化的軟件算法。大工廠價格戰(zhàn)只為行業(yè)提供便宜甚至免費的API。計算機集成了一個設(shè)備上的所有計算資源,思考如何降低模型計算率、部署成本和技術(shù)門檻,提高性能等。,并針對一般公司無法建立自己的數(shù)據(jù)中心,開發(fā)大模型。
長期的計算焦慮在一定程度上限制了國內(nèi)AI產(chǎn)業(yè)的大規(guī)模發(fā)展。以計算率一體機為代表的“開箱即用”產(chǎn)品,可能成為企業(yè)嘗試大模型應用的關(guān)鍵一步。
最大瓶頸用于大型模型應用
計算率布署是一場持久戰(zhàn),需要金錢灌注。
目前,全球GPU芯片缺口巨大,英偉達無法滿足所有AI模型訓練和推理的需要。除了英偉達,其他多元異構(gòu)GPU也在快速發(fā)展,計算率生態(tài)趨于分散。2018年1月至2021年1月,參數(shù)每18個月增長340倍。相比之下,2016年至2021年的GPU內(nèi)存增長率僅為每18個月的1.7倍。

隨著時間的推移,模型參數(shù)增加
英偉達、AMD、單芯片計算率增長,如英特爾,跟不上大模型參數(shù)、訓練信息所需的計算率增長。
對能夠獲得計算能力的企業(yè)來說,擺在我們面前的就是成本問題。
Meta曾經(jīng)明確表示,LLaMA需要使用2000個A1000個A1。 GPU,每三周進行一次訓練,每次訓練的費用是500萬美元。百川智能CEO王小川也表示,每1億參數(shù)對應的訓練費用約為15,000-30,000元,從而計算出一個千億參數(shù)模型一次訓練的費用約為3000萬元。模型越大,GPU的費用就越大。
從傳統(tǒng)行業(yè)和中小企業(yè)的角度來看,用戶的需求非常明確:高性能、低功耗的計算率、穩(wěn)定性和快速響應模型,以確保數(shù)據(jù)安全。
然而,這些企業(yè)風格相對保守和現(xiàn)實。在初始階段,他們非常重視ROI在特定業(yè)務(wù)中的應用。當前景不明朗時,他們不愿意貿(mào)然投資。
若要及時有效,在場景應用時,常用的做法是在基于通用底座微調(diào)后進行私有化部署。但是, "這種方法通常對企業(yè)來說是一個很大的負擔."2024年SusHii Tech 在Tokyo的會場上,「Avalanche Computing」陳杰CEO告訴硬氪。
在展廳里,關(guān)于工業(yè)智能升級和AI融合的討論無處不在。從底層結(jié)構(gòu)、模型培訓,429家參展商隨處可見與AI相關(guān)的材料。AI 超過70%的公司展示了自己與生成式AI的關(guān)系,如Agent工具、服務(wù)器設(shè)備硬件到芯片等。
當成本和計算率難以兩全時,計算率一體機可能是一個突破。
以「Avalanche Computing」舉例來說,它主要經(jīng)營hAlsten Al低代碼工具和Althena終端系統(tǒng)平臺,提供軟硬件一體化服務(wù)。
其中,終端系統(tǒng)平臺Althena是一款可以提供離線模型服務(wù)的計算率一體機。它支持英偉達的各種設(shè)備,配備了包括LLaMa3在內(nèi)的主流開源模型、Mistral AI、Gemma等,可以降低企業(yè)開發(fā)大模型的技術(shù)門檻。
進入使用階段,公司可選擇HAIsten AI培訓獲得的模型,并提問模型。測試顯示,在離線狀態(tài)下,該模型可以在2-3秒內(nèi)產(chǎn)生答案;同時,公司可以在連接網(wǎng)絡(luò)后自由更換想要調(diào)用的大模型。
Althena算率一體機可以支持2-3個人一起使用,每年售價最高1.5萬美元(相當于每年10.9萬元)。一臺英偉達DGX A100服務(wù)器,其售價為19.9萬美元(相當于約145萬元人民幣),以目前常見的四年折舊期計算,每年42.5萬元。
可以看出,價格只有DGX。 Althena算率一體機,A100四分之一,大大降低了大型訓練和部署的成本。
DGX英偉達 A100服務(wù)器
確保企業(yè)安全,降低開發(fā)門檻
目前,行業(yè)正在探索MOE(混合專家模型)架構(gòu)、高性能AI計算系統(tǒng)、計算率一體機等多種優(yōu)化計算率資源調(diào)度的途徑。
其中,計算率一體機兼容性高、性能穩(wěn)定、可擴展性高、計算能力利用率高,通過定制的硬件架構(gòu)和優(yōu)化的軟件系統(tǒng)進行優(yōu)化。對于前期計算能力需求不大的傳統(tǒng)行業(yè)用戶和中小公司來說,在一定程度上可以滿足他們處理數(shù)據(jù)和復雜計算任務(wù)的需求。
根據(jù)硬氪的說法,大模型產(chǎn)業(yè)落地除了考慮計算成本外,還存在兩大難題,即企業(yè)安全和應用開發(fā)門檻。例如,日本市場,「Avalanche Computing」目前,我們接觸的客戶主要是傳統(tǒng)制造業(yè)。陳杰告訴硬氪,“這些企業(yè)非常強調(diào)數(shù)據(jù)的隱私,擔心機密泄露。他們的知識地圖和數(shù)據(jù)庫經(jīng)常選擇keep。 in house(即存儲在公司內(nèi)部)。”
計算一體機采用邊緣私有化部署的方式,是保護公司數(shù)據(jù)隱私和安全的有效手段之一。它將通用計算率、智能計算率、存儲、網(wǎng)絡(luò)和安全融為一體。公司可以快速部署本地化,無需自建機房。
其次,公司的安全也涉及到系統(tǒng)的穩(wěn)定性。此前,國內(nèi)云廠商頻繁發(fā)生停機事故,不僅停止了自身重要業(yè)務(wù)的工作,也影響了很多客戶企業(yè)產(chǎn)品的崩潰,造成了一系列技術(shù)問題。即使自建單機房,一旦機房或網(wǎng)絡(luò)出現(xiàn)故障,業(yè)務(wù)可靠性也無法保證。
在緊急情況下,計算率一體機的離線服務(wù)可以保持系統(tǒng)的穩(wěn)定運行;同時降低了公司的使用門檻。用戶只需要將這些數(shù)據(jù)打包上傳到一體機,選擇想要使用的模型,就可以低成本獲得部署在企業(yè)內(nèi)部的大型私人模型。
最為直觀的體現(xiàn)是,過去公司調(diào)整了一種模式,只接受了一種模式。?、至少需要驗證等?一周的時間。如今使用計算率一體機,半天就能跑通。?一個模型并且可以看到使用效果。
但需要注意的是,目前基于通用大型模型,并不是公司可以通過將數(shù)據(jù)庫輸入到模型中進行訓練來獲得專業(yè)的結(jié)果,仍然需要不斷使用和迭代。由于推理所需的算率成本往往無法預測,Althena算率一體機的租賃方案靈活,提供彈性推理資源。對于初期需求不多的公司,可以選擇少量采購,后期開始后再增加設(shè)備。
大型行業(yè)正在進入價格內(nèi)卷期,但在這波熱潮下,同時具有足夠的成本效益、合適的價格和安全性的商品還沒有誕生。目前,對于還處于起步階段的企業(yè)來說,扮演基礎(chǔ)設(shè)施角色的計算率一體機可能是一個答案。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




