計算率不足,小模型成為AI模型發(fā)展的下一個方向?
在此期間,AI模型行業(yè)真的很熱鬧,新模型不斷涌現(xiàn)。無論是開源還是閉源,成績都在刷新。就在幾天前,Meta上演了一場“奪回開源鐵王座”的好戲。Llama發(fā)布 3 在許多指標上,8B和70B兩個版本都超越了以前開源的Grok-1和DBRX,成為新的開源模型之王。
此外,Meta還表示,Llamamama未來將推出400B版本。 它的測試結果在許多方面都趕上了OpenAI閉源的GPT-4,讓許多人大呼,開源版的GPT-4即將到來。盡管從參數(shù)來看,與Llama相比, 2,Llama 3并沒有特別大的提高,但是在某些表現(xiàn)上,Llama 最小的8B版本都比Llama 2 70B要好。可以看出,模型性能的提高,并非只有堆參數(shù)這種做法。
01 Llama 第三,回到開源第一
“真的,當?shù)貢r間4月18日,”·OpenAI"-Meta跑出了目前開源最強的大型Llamama模型。 3。這次Meta發(fā)布了兩個開源的Llamama。 3 8B和Llama 3 70B模型。按照Meta的說法,Llamama這兩個版本 3是目前同規(guī)模下性能最佳的開源模式。而且在某些數(shù)據(jù)方面,Llama 3 與Llamama相比,8B的性能 2 70B更強,要知道,兩者的參數(shù)卻相差一個數(shù)量級。
也許是因為Llamama才能做到這一點。 3是基于15T以上的練習效率高3倍。 與Llamamama相比,token訓練 2數(shù)據(jù)集的7倍以上。在MMLU、ARC、DROP等基準測試,Llama 3 在九項檢測中,8B領先于同行,Llama 3 同樣,70B也擊敗了Gemini。 1.5 Pro和Claude 3 Sonnet。
盡管參數(shù)沒有特別大的增加,但毫無疑問,Llama 3的性能取得了很大的進步,可以算是用類似的參數(shù)獲得了更好的性能,這可能是在計算資源短期內(nèi)無法滿足更大規(guī)模計算的情況下做出的選擇,但這反映出AI模型的研發(fā)不僅僅是積累參數(shù)的“大力創(chuàng)造奇跡”之路。
02 把大模型做成小正成行業(yè)共識。
實際上,Llama 三個開源王之間有兩個,Grok-1和DBRX也致力于將模型做小。不同于以往的大模型,使用一種模型來解決所有問題,Grok-1和DBRX都采用MoE架構(專家模型架構),在面對不同問題時,調用不同的小模型來解決問題,從而保證答案的質量,同時節(jié)省計算能力。
而且微軟也在Llama 3發(fā)布后不久,就出手截胡,展示了Phi-3系列小模型的技術報告。只有3.8B參數(shù)Phi-3-mini在這份報告中超過了Llamamama。 3 為方便開源社區(qū)使用,8B還專門將其設計成與Llama系列相兼容的結構。更加夸張的是,這款微軟模型,也可以直接在手機上運行,經(jīng)過4bit量化后的phi-3-mini。iPhone 14 pro和iPhone 蘋果A16芯片15可以跑到每秒12。 token,也就是說,現(xiàn)在手機上可以在當?shù)剡\行的最佳開源模式,已經(jīng)達到了ChatGPT水平。
除mini杯外,微軟還發(fā)布了小杯和中杯,7B參數(shù)Phi-3-small和14B參數(shù)Phi-3--medium。在技術報告中,微軟還表示,去年的研究團隊發(fā)現(xiàn),單純積累參數(shù)并不是提高模型特性的唯一途徑,而是精心策劃和訓練的數(shù)據(jù),尤其是利用大模型本身生成和生成數(shù)據(jù),并配合嚴格過濾的優(yōu)質數(shù)據(jù),可以大大提高中小模型的能力,所以他們也表示,Textbooks are all you need,高質量的教科書級別數(shù)據(jù)非常重要。
03 AI模型的發(fā)展正在努力擺脫限制
自從英偉達乘著AI的東風以來,它已經(jīng)成為業(yè)內(nèi)最好的一個,名副其實的“賣鏟子的人”。所有的AI公司都把英偉達的GPU當成了“硬通貨”,以至于誰囤積了更多的英偉達的GPU,誰的AI實力就會很強。然而,英偉達的GPU交付并沒有一直跟上市場需求。
所以,很多AI公司開始另謀出路,要么找其它GPU制造商,要么決定自己開發(fā)AI芯片。即使你已經(jīng)儲存了足夠的英偉達GPU,還有其他限制。前段時間OpenAI被曝光。因為GPT-6的訓練,微軟的電網(wǎng)差點癱瘓。馬斯克還表示,目前限制AI發(fā)展的主要因素是計算資源,但是在未來,電力將成為限制AI發(fā)展的另一個障礙。
顯然,如果我們繼續(xù)“大力創(chuàng)造奇跡”,通過積累參數(shù)來提高AI性能,這些問題最終會遇到。但是,如果我們把大模型做小,使用小參數(shù)來實現(xiàn)相同或更好的性能,我們可以顯著減少對計算率資源的需求,從而減少對電力資源的消耗,從而使AI在有限的資源下得到更好的發(fā)展。
所以,下一步,誰能在把模型做小的同時,也能實現(xiàn)特性的增長,也是實力的體現(xiàn)。
本文來自微信微信官方賬號“新火源”(ID:gh作者:一號,36氪經(jīng)授權發(fā)布,_838b518e4b33。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com