省心更應該省錢,MIT親自下場,拒絕“參數(shù)內(nèi)耗”
在人工智能領(lǐng)域,大型模型因其卓越的理解和生成自然語言能力而備受關(guān)注。通過捕捉和再現(xiàn)人類語言的復雜性和微妙性,為用戶提供了與機器自然交談的概率。
然而,這些模型背后的培訓過程因其成本高而備受爭議,不僅涉及資金投入高,還涉及巨大的計算資源和時間消耗。此外,一些研究指出,訓練一個先進的模型可能需要幾個星期,并且需要1000多個甚至上萬個GPU的并行計算。再加上昂貴的硬件支持,只有高性能GPU和其他特殊硬件的成本才能達到數(shù)十萬甚至數(shù)百萬美元。對大多數(shù)研究機構(gòu)和個人來說,各種規(guī)模的計算資源是無法承受的。
這種資源密集型的發(fā)展方向?qū)е沦Y源獲取不平等。由于資本和資源雄厚,大型科技公司可以更容易地獲得和維護這些高性能的計算資源。相比之下,由于資金和資源的限制,小型研究機構(gòu)和個人往往很難參與大型研究和開發(fā)。因此,如何降低大模型的資源門檻,使其更加普及和可持續(xù),已經(jīng)成為當前研究和實踐中的一個重要問題。
近日,MIT、全華班團隊,如普林斯頓等研究機構(gòu),帶來了全新的解決方案——JetMoE-8B,該模型以不到100,000美元的預算完成了訓練,并且涵蓋了125,000億個token和30,000個H1000個。 GPU小時。
采取多種措施,原地起飛成本效率
JetMoE-8B的關(guān)鍵特征在于它采用了Sparsely。-gated Mixture-of-Experts (SMoE)結(jié)構(gòu)。該結(jié)構(gòu)通過稀疏激活機制,促使模型在處理輸入時只激活必要的參數(shù)值,從而大大降低了計算成本。據(jù)悉,JetMoE-8B有80億個參數(shù),但在推理過程中只激活每個輸入令牌20億個參數(shù),使模型在保持性能的同時,將會計成本降低約70%。
此外,JetMoE-8B的實踐策略也頗具創(chuàng)新性。JetMoE-8B的練習遵循兩個階段的策略,包括1萬億個token用于大規(guī)模開源預訓練數(shù)據(jù)集的練習,第二階段用指數(shù)學習率下降的練習。
其中:
一級:預訓練
預訓階段,JetMoE-8B使用了1萬億(1.25T)的token,來自多個高質(zhì)量的開源數(shù)據(jù)集。它涵蓋了從CommonCrawl中獲取并通過MacroDatatatawl獲取的數(shù)據(jù)。 Refinement (MDR) RefinedWeb管道處理數(shù)據(jù),StarCoder訓練數(shù)據(jù),Dolma大型英語文本詞庫,The 與數(shù)學和編程相關(guān)的Pile和數(shù)據(jù)集。該數(shù)據(jù)為模型提供了豐富多樣的語言和知識背景,有利于模型學習更廣泛的語言模式和知識。
第二階段:學習率衰減
第二階段,模型訓練采用指數(shù)學習率衰減策略。這意味著隨著訓練的進行,模型學習率會根據(jù)一定的指數(shù)函數(shù)進行調(diào)整,然后逐漸減少。這種策略有利于在練習初期快速學習和調(diào)整模型的權(quán)重,但在訓練后期,模型參數(shù)值會通過降低學習率來細化,從而使模型更穩(wěn)定地收斂到最優(yōu)解。
具體來說,JetMoE-Warmup用于8B模型-Stable-Decay (WSD) 學習調(diào)度器,該調(diào)度器將訓練過程分為預熱階段三個階段:(warmup stage)、訓練階段穩(wěn)定(stable training stage)和衰減階段(annealing stage)。為了幫助模型快速適應訓練數(shù)據(jù),在預熱階段,學習率會逐漸提高到最高值。為了使模型在領(lǐng)先水平上進行學習,穩(wěn)定階段的學習率保持一致。最后,在衰減階段,學習率會根據(jù)預定的指數(shù)函數(shù)進行衰減,以便在訓練后期對模型進行詳細的權(quán)重調(diào)整。
另外,R&D部門為JetMoE-8B模型使用了96個NVIDIA。 H100 由GPU組成的集群練習。H100 GPU是一種專門為AI和深度學習任務設(shè)計的高性能計算卡,具有很強的并行計算能力。通過將這些GPU組合成一個集群,JetMoE-8B可以同時處理大量的數(shù)據(jù)和計算任務,從而加快訓練速度。
JetMoE-8B的另一個顯著特點是它的開放性和易于瀏覽性。通過公開的數(shù)據(jù)集和開源訓練代碼,任何感興趣的研究人員都可以瀏覽和使用這種模式。這一開放不僅促進了知識的共享,也為未來的研究與合作提供了基礎(chǔ)。
得益于其高效的模型架構(gòu)、精心挑選的數(shù)據(jù)、兩階段的訓練策略以及強大的計算資源和開源社區(qū)的支持。各種因素共同促使JetMoE-8B在兩周內(nèi)完成訓練,為控制成本帶來新的思路和目標。這也降低了進入大型研究領(lǐng)域的門檻,促使更多的研究機構(gòu)和個人參與這一領(lǐng)域的研究。
“卷”大小的時代已經(jīng)過去,滿足要求才是王道。
這是一個參數(shù)較少的模型,JetMoE-8B能更好地發(fā)揮高效率和速度優(yōu)勢,為技術(shù)創(chuàng)新提供強有力的支持。開發(fā)者可以在有限的資源下快速迭代和測試新的想法,這不僅加快了新技術(shù)的研發(fā)過程,也為市場上的創(chuàng)新應用提供了更多的概率。特別是由于這種高成本、高效率的R&D環(huán)境,小企業(yè)和初創(chuàng)企業(yè)可以探索和實現(xiàn)自己的創(chuàng)新理念,風險和成本更低。
參數(shù)規(guī)模并不是衡量模型價值的唯一標準,在模型主導的市場趨勢下。事實上,隨著物聯(lián)網(wǎng)設(shè)備的普遍部署,對小參數(shù)模型的需求越來越大,可以在有限的資源環(huán)境中高效運行。這些設(shè)備一般對計算能力和存儲空間有嚴格的限制,而小參數(shù)模型正好可以滿足這些條件,實現(xiàn)快速響應和實時數(shù)據(jù)處理能力。
據(jù)悉,去年年底,Meta推出了Llama。 Llamamama模型的小版本 2 另外,谷歌還在2月推出了Gemma系列模型,法國AI公司Mistral也推出了Mistral。 7B模型。
針對特定應用場景的定制小參數(shù)模型,逐步成為研發(fā)的新趨勢。研究人員專注于為特定任務量身定制輕量級模型。這些模型不僅可以保證高效率,還可以優(yōu)化自然語言理解、圖像識別等特定領(lǐng)域。這種有針對性的設(shè)計不僅提高了模型性能,而且使其能夠更好地滿足多樣化的應用需求。
值得注意的是,小參數(shù)模型不僅在技術(shù)創(chuàng)新領(lǐng)域掀起了波瀾,而且在商業(yè)模式和市場策略上也發(fā)生了深刻的變化。對于中小企業(yè)來說,他們不需要投入巨額資金就可以通過使用這些模型來提升自己的產(chǎn)品和服務。這種高成本、高效率的解決方案使其商業(yè)應用更加普遍和多樣化。
在市場策略方面,小模型的推出也反映了公司對消費者需求的深刻理解。隨著消費者對人工智能技術(shù)的理解和接受程度的提高,他們開始尋求更實用、更經(jīng)濟的AI解決方案。小模型正好滿足了這個需求,提供了更經(jīng)濟的選擇,同時保證了性能。
大型家庭認為AI技術(shù)越來越受歡迎和可訪問,這也意味著AI的應用范圍在不斷擴大。隨著技術(shù)的進步和模型的優(yōu)化,未來市場上會出現(xiàn)更多輕便高效的模型,為用戶提供更多的選擇和便利。
本文來自微信微信官方賬號“大模型世家”(ID:damoaihome),作者:興哲,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com