大模型價格戰(zhàn),還可以再狠一點。
沒有人想到,大模型產(chǎn)業(yè)的第一次“集體會戰(zhàn)”,竟然圍繞著價格進行。
五月六日,私募股權(quán)巨頭幻方的深度追求,開始了第一槍降價。DeepSeek-V2(32k)深度追求發(fā)布模型,在數(shù)學、編程、中英文等方面已經(jīng)接近GPT-4;然而,DeepSeek-V2的應用價格只有GPT-4o的1/35左右。
DeepSeek-V2的輸入和輸出價格分別為1元/百萬tokens和2元/百萬tokens,遠低于市場價格。
比拼多多砍一刀還便宜,讓不少美國專家大吃一驚。著名分析師Dylann 看完DeepSeek-V2的論文,Patel興奮地說:“這可能是今年最好的一篇。[1]
DeepSeek-V2的論文
一個星期后,“卷王”字節(jié)跳動又增加了一把火。
豆包通用模型Pro-32k的輸入價格被一刀切割到更低的0.8元/百萬tokens?;鹕桨l(fā)動機總裁譚待表示,“豆包的價格比行業(yè)低99.3%,從那以后,大模型就以厘計費?!?/p>
看到同行如此不講武德,其他科技公司從此不再淡定。
阿里率先回擊,一狠心,大舉降低了所有模型的價格。
幾個小時后,百度干脆跑到價格終點:宣布兩個輕量級模型完全免費。隨后,科大訊飛星火Lite API、騰訊混合元大模型lite 同時,256k也相繼宣布免費。
如此盛況,很難不讓人夢到那段滴滴對決快,ofo摩拜互相扯頭發(fā)的激情歲月。
但是,圍繞大模型的價格戰(zhàn),遠不如網(wǎng)約車、自行車共享那么直觀,各種專業(yè)術(shù)語令人摸不著頭腦。所以,這些大型企業(yè),究竟熱鬧些什么?
B面價格戰(zhàn)
要理解這一點,首先要了解大模型的商業(yè)模式。以阿里巴巴云為例,它提供三種大型服務[2]:
基本服務:模型推理。
模型推理,是指根據(jù)輸入的信息內(nèi)容,給出答案的過程。也就是說,推理就是“實際應用”模型的過程。
阿里云預設了多種不同性能的“專業(yè)模式”,供用戶推理。這項服務的收費方式非常簡單,即“以量收費”:以消耗的token數(shù)量為單位,使用越多,成本越高。并且性能越好,收費越高。
token是一個用于衡量文本長度的大模型計數(shù)單位,可以簡單理解為“字數(shù)”。三篇75萬字的《三國演義》大約需要125萬個token。
(2)高級服務:模型微調(diào)。
如果覺得“專業(yè)版”不好用,阿里巴巴云還提供了“定制R&D”服務,即微調(diào)模型。具體費用取決于“定制R&D”消耗的計算資源和發(fā)展進度。
(3)超高級服務:模型部署。
如果顧客需要長時間使用大型模型,最好的辦法就是將其部署到專屬案例中。
專屬案例是指直接承接一臺或多臺物理服務器的所有資源。翻譯成人話就是把整個商業(yè)廣場租下來,而不是租一家店。
這樣做的好處是,沒有其他商家和你爭奪計算資源,響應速度更快。
它的收費模式也是以量收費,但是有兩種形式:阿里直接按照“商業(yè)廣場”消耗的計算資源收費;此外,百度還支持token的數(shù)量按模型推理收費。
這三種收費模式面向企業(yè)和個人開發(fā)者,代表著大模型開發(fā)的循序漸進過程。但各大科技公司瘋狂討價還價的,其實就是上面提到的“基礎服務”,也就是“專業(yè)模式”的推理成本。
推理費具體定價,又分為“輸入”和“導出”兩部分。
簡單來說,輸入就是用戶提問的內(nèi)容,導出就是大模型的答案。技術(shù)公司通常會根據(jù)輸入輸出的token數(shù)量(字數(shù))收取兩次費用。
這一復雜而微小的差別,很容易成為科技公司的招數(shù)。
例如字節(jié)跳動的“0.8元/百萬tokens”和“比行業(yè)價格低99.3%”,實際上只是輸入價格。Pro-32k豆包通用模型的輸出價格仍然是2元/百萬tokens,與DeepSeek-V2等同行持平。
可以看出,雖然大模型的價格戰(zhàn)打得火熱,但背后其實還有另一個洞天。
千層套路降價
可見,本輪價格戰(zhàn)最活躍的,基本上都是云計算公司,代表BAT和字節(jié)跳動。
他們之所以敢于這樣降價,還是因為可以從別處彌補損失,羊毛出在羊身上。
正如前面提到的,降價甚至免費,實際上只是基本服務。
毫無疑問,這可以幫助中小開發(fā)者以更低的成本建立應用程序。但是,當開發(fā)者或企業(yè)需要更適合自己的業(yè)務,深入使用大模型時,通常無法避免模型微調(diào)和模型部署的高級化?!?strong>這兩項服務,并非本次價格戰(zhàn)的主角。
例如,百度宣布免費ERNIE-Speed-8K,如果實際安排,費用將變成5元/百萬tokens[3]。
同時,所有降價最嚴重的其實都是輕量級預設模型;相比之下,性能更強的“超大杯”模型實際降價幅度并沒有那么夸張。
例如阿里的Qwen-Max,實際上和字節(jié)跳動的豆包一般模型Pro-32k一樣,只是降低了輸入價格;而隔壁的百度,壓根就沒有提到超大杯模型。
云計算廠商的價格戰(zhàn)更像是通過“免費游戲”吸引更多玩家加入;但是如果你想繼續(xù)“升級變強”,氪金就得氪金。
云計算制造商當然不是唯一的參與者。
以深度追求和智譜AI為代表的明星創(chuàng)業(yè)公司之所以敢于跟進內(nèi)卷,很大程度上是因為有足夠的彈藥,尤其是計算資源。
2020年,模型還沒有爆發(fā),背靠私募巨頭幻方的深度追求,投資上億準備AI超級計算機。
現(xiàn)在,除了BAT,幻方是、除了商湯和字節(jié)跳動,第六家公司擁有超過1萬張英偉達A1000張。 中國企業(yè)GPU儲備[4]。
而且智譜AI背靠阿里和騰訊,是一家估值過百億的AI獨角獸公司。
到2020年,智譜AI也碰巧囤積了大量的GPU資源。 在接受《中國企業(yè)家》采訪時,CEO張鵬提到:
那時,他認識的一家云計算制造商,有一批GPU積塵。 這個GPU最初是供應給游戲公司的,但是一次偶然的機會,對方又不買了。 得知這一消息后,張鵬順勢接管了這批計算資源[5]。
如果現(xiàn)金流量、計算率資源充足,即使燒錢換市場,這些創(chuàng)業(yè)公司也能扛得住。
所以問題來了:當初移動互聯(lián)網(wǎng)補貼換市場,還可以簡單粗暴地歸因于“技術(shù)門檻低”;主要推廣一手高科技的大模型,怎么也沒有走出價格戰(zhàn)的怪圈?
必經(jīng)之路
大型智能化給世界帶來的震撼,通常讓人忽視其本質(zhì),實際上是一種基礎設施。
在去年的公開演講中,著名計算機科學家吳恩達提到:
事實上,AI是一系列工具的集合。這類工具包括監(jiān)督學習、非監(jiān)督學習、強化學習和目前生成的人工智能。 這一切都是通用技術(shù),代表著它與電力、因特網(wǎng)等其它通用技術(shù)沒有什么不同[6]。
電力和因特網(wǎng),不能直接創(chuàng)造財富;事實上,電燈、電腦、電子商務、電子游戲是真正改變世界的。
然而,應用程序的爆發(fā)實際上有一個前提:基礎設施足夠便宜。在此之前,大型應用無法快速鋪開的一個主要困境是使用成本過高。
哄騙模擬器就是一個典型的例子。
今年年初,一位名叫王登科的獨立開發(fā)者開發(fā)了一個AI應用程序,模擬“憤怒女友”的形象。這個應用程序的玩法很簡單,用戶必須斗智斗勇地哄騙對話窗口的AI女友。
因為互動簡單,構(gòu)思相當有趣,哄哄模擬器在上線的第一天就吸引了超過60萬的顧客。
突如其來的爆紅,卻讓王登科哭笑不得。哄騙模擬器采用了預設的GPT-3.5模型,運行一早就花了他超過2000美元的推理費。
相當于,開發(fā)了一個App,還沒想到怎么賺錢,先交了一萬塊電費。
縱觀歷史可以發(fā)現(xiàn),當初移動互聯(lián)網(wǎng)的大規(guī)模普及,也都是基于基礎設施降本。
根據(jù)2014年的一份調(diào)查報告,當時由于流量成本高,手機用戶每天使用流量不會超過3小時。而且很多用戶在不使用移動網(wǎng)絡的情況下會選擇關(guān)閉,避免后臺使用手機消耗流量[7]。
那時候,大部分用戶,都曾經(jīng)做過“一覺醒來,房子就搬回中國”的噩夢。
2013年,快手明確了“短視頻社區(qū)”的定位,但增長相對緩慢。這背后,很難說沒有大環(huán)境的原因。
事實上,短視頻行業(yè)才真正開始爆發(fā),直到通信運營商開始大做“降費加速”。
2019年,與2014年相比,手機上網(wǎng)流量費用下降了90%以上[8]。到目前為止,手機淘寶、微信、Tiktok逐漸成為字面意義上的“國家應用”。
可以看出,降價實際上是大型行業(yè)發(fā)展的必由之路。
或許在這一輪價格戰(zhàn)中,云計算廠商和創(chuàng)業(yè)公司各有各的小九九;但是對于開發(fā)者和普通用戶來說,建議多打一點。
參考資料
[1] OpenAI Is Doomed,SemiAnalysis
[2] 阿里云大模型服務平臺百煉
[3] 大模型千帆平臺
[4] 第一代大模型量化巨頭發(fā)布:免費商業(yè)用途,完全開源,澎湃新聞
[5] 智譜AI CEO張鵬:中國大型企業(yè)家,不再追隨OpenAI,中國企業(yè)家
[6] Andrew Ng: Opportunities in AI - 2023,Stanford Online
[7] 2014年中國數(shù)據(jù)流量使用報告:近40%的客戶流量不夠,中國新聞網(wǎng)
[8] 工信部組織召開“加速降費”客戶零距離交流會議
本文來自微信公眾號“遠川科技評論”(ID:kechuangych),作者:葉子凌,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com