亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

將開源模型合并為新模型,Sakana.幫助企業(yè)低成本獲得自己的模型。

2024-04-20

新的基礎(chǔ)模型不需要預(yù)訓(xùn)練就能獲得?那是Sakana.ai最新發(fā)布的技術(shù),他們使用了“進(jìn)化模型合并”算法(Evolutionary Model Merge),開發(fā)具有特定能力的基礎(chǔ)模型,避免了從零開始對(duì)基礎(chǔ)模型進(jìn)行預(yù)訓(xùn)練的巨大核算成本。


Sakana.前谷歌科研人員Davidid Ha、Llion Jones 聯(lián)合創(chuàng)建(Transformer論文作者之一),目前已獲得Lux。 Capital領(lǐng)投,Khosla Ventures 參與種子輪融資3000萬(wàn)美元,NTT集團(tuán)在日本,KDDI CVC和索尼集團(tuán);Jefff個(gè)人天使投資者 Dean、Clem Delangue(Hugging Face創(chuàng)始人)和Alex Wang(Scale AI創(chuàng)始人),以及包括500 Global、Miyako Capital、Basis Set Ventures、JAFCO、July Fund、Geodesic Capital和Learn 其他著名的全球公司,包括Capital,也參與了投資。


Sakana.ai可以將開源社區(qū)模型兼收并蓄,利用創(chuàng)新方法低成本生成新模型,對(duì)AI開源生態(tài)的繁榮對(duì)中小企業(yè)AI創(chuàng)業(yè)具有積極意義。


作者用創(chuàng)新的方法改變AI模型范式,Transformer論文作者


幾乎所有的Transformer論文作者都已經(jīng)創(chuàng)業(yè),而且創(chuàng)業(yè)方向各不相同,包括情感聊天機(jī)器人、生物醫(yī)學(xué)AI和企業(yè)AI。 Agent等。


David Ha、Llion Jones 聯(lián)合創(chuàng)建的Sakananananananansformer論文作者之一(Transformer).ai很有特色,它致力于基礎(chǔ)模型,而不是從頭開始按照傳統(tǒng)的方法來(lái)訓(xùn)練基礎(chǔ)模型。


現(xiàn)在的Scaling Law是AI模型訓(xùn)練的主流思想:模型越高越好,數(shù)據(jù)越多越好。但同時(shí)也代表了巨大的算率成本,而Sakana.而ai則以不變應(yīng)萬(wàn)變,他們的方法幾乎不需要花費(fèi)計(jì)算費(fèi)用,就可以得到高性能的模型。


除David之外 Ha、Llion Jones,Sakana.Google的核心團(tuán)隊(duì)主要來(lái)自于 Brain, Google DeepMind,Stability AI和其他頭部AI研究機(jī)構(gòu),包括許多亞洲人,他們致力于建立世界級(jí)的AI研究機(jī)構(gòu)。 AI 試驗(yàn)室。


日語(yǔ)單詞來(lái)源于Sakana的名字さかな(sa-ka-na),意指魚。Sakana.人工智能希望在研究中運(yùn)用自然的思想,比如進(jìn)化和集體智能,這也充滿了東方智慧。


Lux CapitalManaging Partner Josh Wolfe說(shuō):“在AI領(lǐng)域,每個(gè)人都在追逐昨天的Transformer架構(gòu),并試圖推動(dòng)Scaling。 Law的邊界。我們?cè)赟akana.在進(jìn)化和復(fù)雜適應(yīng)系統(tǒng)啟發(fā)的新基礎(chǔ)模型中,ai團(tuán)隊(duì)正在開發(fā)新的目標(biāo)。


Khosla Vinoddes創(chuàng)始人Ventures Khosla說(shuō):“大多數(shù)國(guó)家都希望有自己的地方基本模型,這不僅是為了中國(guó)的安全,也是為了更好地與地區(qū)方言、文化和思想互動(dòng)。此外,人工智能人才分布在世界各地,并且像Sakana一樣.像ai這樣的世界級(jí)項(xiàng)目,對(duì)這些人才的需求并不缺乏?!?/p>


不需要預(yù)訓(xùn)練,通過(guò)“進(jìn)化模型合并”的方法生成新的高性能模型


Sakana.ai的主要研究焦點(diǎn)是應(yīng)用自然啟發(fā)的思想,例如進(jìn)化和集體智能,從而創(chuàng)建一個(gè)新的基本模型。


對(duì)集體智能而言,Sakana.人工智能認(rèn)為,人工智能將遵循類似于人類集體智能的集體路徑。未來(lái)的人工智能不會(huì)由一個(gè)單一的、巨大的、全知名的人工智能系統(tǒng)組成(它們需要大量的能量來(lái)訓(xùn)練、運(yùn)行和維護(hù)),而是由大量的小型人工智能系統(tǒng)組成。每個(gè)系統(tǒng)都有自己的冷門和特長(zhǎng),相互作用,開發(fā)新的人工智能系統(tǒng)來(lái)填補(bǔ)特定的冷門。


目前,他們看到的是開源AI生態(tài)系統(tǒng)的趨勢(shì)。開源基礎(chǔ)模型很容易擴(kuò)展和微調(diào)到數(shù)百個(gè)不同的方向,從而在各自的冷門中產(chǎn)生出色的新模型。Open 在LLaMA或Mistral等LLM排行榜上表現(xiàn)最好的模型不再是原始的開源基礎(chǔ)模型,而是目前模型的微調(diào)或合并。


對(duì)于進(jìn)化,Sakana.ai發(fā)布了《模型合并配方的進(jìn)化與優(yōu)化》報(bào)告。進(jìn)化模型合并是一種通用的方法。通過(guò)進(jìn)化技術(shù),我們可以有效地發(fā)現(xiàn),將不同的模型與巨大的開源模型結(jié)合在一起的最佳方式是多樣化能力。目前,Hugging Face擁有超過(guò)500k的模型,其中包含了數(shù)十種不同的模型,原則上可以形成一個(gè)新的能力模型。


具體來(lái)說(shuō),進(jìn)化模型融合了兩種不同的方法:(1)在數(shù)據(jù)流空間(層)中合并模型,在參數(shù)空間(權(quán)重)中合并模型。


合并模型在數(shù)據(jù)流空間(層)中


首先是利用進(jìn)化來(lái)找出不同模型層的最佳組合,從而產(chǎn)生新的模型。


在模型合并社區(qū)中,直覺(jué)和啟發(fā)方法被用來(lái)確定一個(gè)模型的哪些層是如何與另一個(gè)模型層結(jié)合的。但可以看出,這個(gè)問(wèn)題有很大的搜索空間,最適合通過(guò)進(jìn)化這樣的優(yōu)化算法進(jìn)行搜索。以下是這種方法的例子:


合并模型在參數(shù)空間(權(quán)重)中


第二種方法是進(jìn)化混合多個(gè)模型權(quán)重的新方法?;旌喜煌P蜋?quán)重形成新模型的方法有無(wú)數(shù)種,每層混合原則上可以采用不同的混合比例。這是進(jìn)化方法可以有效找到新的混合策略來(lái)組合多個(gè)模型權(quán)重的地方。


下面是混合兩個(gè)不同模型權(quán)重的示意圖:


數(shù)據(jù)流空間和參數(shù)空間的方法也可以結(jié)合在一起,從而進(jìn)化出一種新的基礎(chǔ)模型,可能需要特定的架構(gòu)創(chuàng)新才能被進(jìn)化和發(fā)現(xiàn):


將模型合并到數(shù)據(jù)流空間和參數(shù)空間。



采用上述進(jìn)化模型合并方法,Sakana.ai推出了三個(gè)基本模型:


  • 大語(yǔ)言模型 (EvoLLM-JP)
  • 視覺(jué)語(yǔ)言模型 (EvoVLM-JP)
  • 圖像生成模型 (EvoSDXL-JP)

EvoLLM-JP


這個(gè)模型由日語(yǔ)大模型Shisa-Gamma和WizardMath/Abel組合而成,擅長(zhǎng)處理日語(yǔ)數(shù)學(xué)問(wèn)題,進(jìn)化了100-150代。


Sakana.使用MGSM的ai 在數(shù)據(jù)集的日語(yǔ)評(píng)估集中,正確響應(yīng)的百分比是GSM8K數(shù)據(jù)集的多語(yǔ)言版本。


比較模型能力,用日語(yǔ)解決數(shù)學(xué)問(wèn)題,MGSM-JA列顯示正確答案的百分比。模型1-3為原型,模型4-6為優(yōu)化合并模型。目前高性能LLM的分?jǐn)?shù)為7-10。可以看出,合并后的模型性能,不僅高于合并前的模型,而且部分超過(guò)了Llama22的幾乎十倍參數(shù)。 但與GPT-4相比,70B仍然存在明顯的差距。


此外,Sakana.ai還評(píng)估了一般的日語(yǔ)能力。令人驚訝的是,這些模型在幾個(gè)與數(shù)學(xué)無(wú)關(guān)的任務(wù)中也取得了高分,他們沒(méi)有得到有針對(duì)性的提高。


EvoVLM-JP


這個(gè)大模型由Shisa日語(yǔ)大模型組成。 Gamma 7B 和LLaVa-1.6-Mistral-7B合并,是一種具有日語(yǔ)能力的VLM。


首次嘗試合并VLM和LLM,Sakana.ai證明了進(jìn)化算法能夠在合并成功中發(fā)揮重要作用。評(píng)估結(jié)果如下:


這款VLM模型,也能理解圖片內(nèi)容,根據(jù)人類提醒對(duì)圖片進(jìn)行分析。


EvoSDXL-JP


SDXL擴(kuò)散模型支持日語(yǔ)。


進(jìn)化算法還可以自動(dòng)找到合并不同擴(kuò)散模型的方法,這個(gè)模型也支持日語(yǔ)提醒。它的模型已經(jīng)改進(jìn),推理只需要四個(gè)推理步驟就可以實(shí)現(xiàn),從而使生成速度極快。


下面是一些例子:



原則上,可以采用基于梯度的反向傳播來(lái)進(jìn)一步提高性能,但這次Sakana.ai采用進(jìn)化模型合并方法生成的模型沒(méi)有經(jīng)過(guò)任何基于梯度的訓(xùn)練,所以只需要相對(duì)較少的計(jì)算資源。


這樣就證明,即使沒(méi)有反向傳播,也能進(jìn)化出最先進(jìn)的基礎(chǔ)模型,挑戰(zhàn)當(dāng)前昂貴的模型開發(fā)模式。


新的模型合并方法使中外創(chuàng)業(yè)公司受益


Sakana.ai預(yù)計(jì)AI將有一個(gè)新的趨勢(shì):通過(guò)將當(dāng)前模型結(jié)合起來(lái),進(jìn)化出具有特定能力的新模型。與今天新的預(yù)訓(xùn)練模型所需的巨大計(jì)算能力和能源成本相比,這種創(chuàng)新非常有價(jià)值。



Jim英偉達(dá)人工智能負(fù)責(zé)人 Fan對(duì)Sakana.Ai的技術(shù)評(píng)價(jià):這是我最近讀到的最具創(chuàng)意的大型論文之一,利用進(jìn)化將HuggingFace中的開源模型結(jié)合起來(lái),從而解鎖新的能力。這種復(fù)雜的模型操作,但是它所需的計(jì)算量遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的大型模型訓(xùn)練。


目前,Sakana.ai尚未披露明確的商業(yè)計(jì)劃,但其技術(shù)對(duì)AI的應(yīng)用創(chuàng)新與發(fā)展具有積極意義。


創(chuàng)業(yè)公司可以在不承擔(dān)預(yù)訓(xùn)練模型和微調(diào)模型核算成本的情況下,利用開源社區(qū)的優(yōu)質(zhì)開源模型生成適合自己產(chǎn)品和項(xiàng)目需求的特殊模型。盡管它們也可以使用商業(yè)閉源模型來(lái)建立應(yīng)用程序,但是它們不僅要付出更高的代價(jià),而且推理成本也不低。一般來(lái)說(shuō),閉源模型參數(shù)較大,這不僅使推理變慢,而且許多垂直創(chuàng)業(yè)公司也不能使用這種通用模型的所有性能。


對(duì)于中國(guó)企業(yè)家來(lái)說(shuō),這項(xiàng)技術(shù)也是一個(gè)福音。它使中國(guó)企業(yè)家能夠低成本調(diào)試和重組開源模型,在一定程度上打破了模型能力和迭代速度的差距,因?yàn)橛?jì)算率差距(封鎖)。然而,在創(chuàng)造和應(yīng)用能力方面,中國(guó)企業(yè)家和產(chǎn)品經(jīng)理一直處于世界領(lǐng)先地位,創(chuàng)造力無(wú)限。這平息了中外企業(yè)家的競(jìng)爭(zhēng)優(yōu)勢(shì)。


本文來(lái)自微信微信官方賬號(hào)“阿爾法公社”(ID:alphastartups),作者:發(fā)現(xiàn)非凡企業(yè)家得到,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com