亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

發(fā)布幾個小時后,微軟秒刪堪比GPT-4開源模型,竟因為忘記了下毒檢測。

2024-04-28

【導(dǎo)讀】不久前,微軟發(fā)布并開源了最新一代WizardLM-2,聲稱性能堪比GPT-4。然而,在推出一天之前,模型權(quán)重和公告都被刪除了,原因是...


上個星期,微軟空降了WizardLM-2,可以稱之為GPT-4級開源模型。


沒想到發(fā)布幾個小時后,馬上就被刪除了。


有網(wǎng)友突然發(fā)現(xiàn),WizardLM模型的權(quán)重和公告帖子都被刪除了,微軟的官方項目也沒有證據(jù)證明,除了提到網(wǎng)站。


GitHub項目首頁已經(jīng)成為404。


項目地址:https://wizardlm.github.io/


HF中包含模型的權(quán)重,也全部消失...


整個網(wǎng)絡(luò)都充滿了疑惑,WizardLM怎么沒了?


不過,微軟之所以這么做,是因為團隊內(nèi)部忘記了做模型。「檢測」。


隨后,微軟團隊出現(xiàn)道歉并解釋說,自從WizardLM幾個月前發(fā)布以來,已經(jīng)有一段時間了,所以我們對新的發(fā)布過程并不熟悉。


在模型發(fā)布過程中,我們不小心錯過了一項內(nèi)容。 :下毒檢測



升級二代微軟WizardLM


第一代WizardLM于去年6月發(fā)布,基于LlaMA微調(diào),引起了開源社區(qū)的極大關(guān)注。


論文地址:https://arxiv.org/pdf/2304.12244.pdf


接著,WizardCoder的代碼版誕生-一個基于Codee的 Llama,使用Evol-Instruct微調(diào)模型。


測試數(shù)據(jù)顯示,WizardCoder在HumanEval上的pass@1達到了驚人的效果。 超過原始GPT-4的73.2%。


4月15日,微軟開發(fā)者正式宣布新一代WizardLM,這次是從Mixtrall開始的。 微調(diào)8x22B。


它包含8x22B3個參數(shù)版本,、70B和7B。


在MT-Bench基準測試中,新型號在MT-Bench基準測試中具有領(lǐng)先優(yōu)勢。


具體而言,WizardLM最大參數(shù)版 8x22B模型性能,接近GPT-4和Claude 3。


70B版本在相同參數(shù)規(guī)模下排名第一。


而且7B版本是最快的,甚至可以達到相當(dāng)于10倍大參數(shù)的領(lǐng)先模型的性能。



WizardLM 2優(yōu)秀表演背后的秘訣在于,EvoleEvol是微軟研發(fā)的革命性訓(xùn)練方法。-Instruct。


Evol-使用大型語言模型,Instruct迭代地將初始指令集改寫成越來越復(fù)雜的組合。接著,利用這些演變指令數(shù)據(jù)對基本模型進行微調(diào),從而顯著提高其處理復(fù)雜任務(wù)的能力。


另外一種是加強RLEIF的學(xué)習(xí)框架,也是WizardLM 2在發(fā)展過程中起著重要作用。


WizardLM 在2次訓(xùn)練中,AI也被采用。 Align AI(AAA)方法,可以讓多個領(lǐng)先的大模型相互指導(dǎo)和優(yōu)化。


AAA框架由兩個主要部件組成,「共同教學(xué)」和「自學(xué)」。


在共同教學(xué)階段,WizardLM和各種獲得許可的開源和專有先進模型進行模擬聊天、質(zhì)量評估、改進建議和縮小技能差距。



模型可以通過相互交流,提供反饋,向同行學(xué)習(xí),提高自己的能力。


WizardLM可以通過主動自學(xué),為監(jiān)督學(xué)習(xí)生成新的進化訓(xùn)練數(shù)據(jù),為強化學(xué)習(xí)生成喜好數(shù)據(jù)。


這一自學(xué)機制允許模型在學(xué)習(xí)過程中產(chǎn)生自己的數(shù)據(jù)和反饋信息,從而不斷提高性能。


此外,WizardLM 2模型訓(xùn)練采用合成數(shù)據(jù)生成。


在研究人員看來,大型培訓(xùn)數(shù)據(jù)日益匱乏,相信AI精心建立的數(shù)據(jù)和AI逐步監(jiān)管模型將是通向更強大人工智能的唯一途徑。


所以,他們建立了一個完全由AI驅(qū)動的生成訓(xùn)練系統(tǒng),以改善WizardLM-2。



手快的網(wǎng)友,已經(jīng)安裝了權(quán)重


但是,在數(shù)據(jù)庫被刪除之前,許多人已經(jīng)安裝了模型權(quán)重。


在這個模型被刪除之前,幾個客戶仍然對一些額外的標準進行了測試。


幸好測試的網(wǎng)友對7B模型記憶深刻,并表示這將是自己執(zhí)行當(dāng)?shù)刂砣蝿?wù)的首選模型。


另一些人對此進行了下毒檢測,發(fā)現(xiàn)WizardLM-8x22B得分為98.33,而基本Mixtral-8x22B得分為89.46,Mixtral 8x7B-Indict得分為92.93。


得分越高越好,換句話說,WizardLM-8x22B仍然很強。



如果沒有下毒檢測,把模型傳出去是絕對不可能的。


大型模型容易產(chǎn)生幻覺,眾所周知。


假如WizardLM 2在答案中導(dǎo)出「有毒,有偏見,不正確」對于大型模型來說,內(nèi)容并不友好。


尤其是,這些錯誤引起了全網(wǎng)的關(guān)注,對微軟本身來說也會引起爭議,甚至?xí)艿秸恼{(diào)查。



有些網(wǎng)友疑惑道,你可以通過「下毒檢測」更新指標。為什么要刪除整個版本庫和權(quán)重?


根據(jù)最新的內(nèi)部規(guī)定,微軟作者表示,只能這樣操作。


還有人說,我們只是希望沒有?!改X葉切除」模型。



但是,開發(fā)者還是要耐心等待,微軟團隊承諾,檢測結(jié)束后再上線。


參考資料:


https://favtutor.com/articles/wizardlm-2-benchmarks/


https://anakin.ai/blog/wizardlm-2-microsoft/


本文來自微信微信官方賬號“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com