大型一對(duì)一作戰(zhàn)75萬輪,GPT-4奪冠,Llama 3位居第五
有關(guān)Llama 三是有新發(fā)布的檢測結(jié)果?!?/p>
LMSYS大模型評(píng)估社區(qū)發(fā)布了一份大模型排行榜,Llama 第三名是第五名,英語單項(xiàng)和GPT-4并列第一。
與其它Benchmark不同的是,這個(gè)列表的基礎(chǔ)是模型一對(duì)一的battle,由全網(wǎng)評(píng)估者自己出題并進(jìn)行評(píng)分。
最后,Llama 3在排行榜上獲得第五名,排名第一的是GPT-4的三個(gè)不同版本,以及Claude 超級(jí)大杯Opus。
但是在英語單項(xiàng)列表中,Llama 3超越Claude,與GPT-4打成平局。
Meta的首席科學(xué)家LeCun非常高興地轉(zhuǎn)發(fā)了這篇文章,并留下了一篇“Nice”。
SoumithPyTorch鼻祖 Chintala也興奮地表示,這一成就令人驚嘆,并為Meta感到自豪。
Llama 3的400B版本還沒有出來,僅僅依靠70B參數(shù)就獲得了第五名...我還記得去年3月GPT-4發(fā)布的時(shí)候,幾乎不可能達(dá)到和它一樣的表現(xiàn)。..........現(xiàn)在AI的普及真的很不可思議,我對(duì)Meta AI的同事們?yōu)檫@樣的成功感到非常自豪。
所以,這個(gè)列表的具體結(jié)果是什么呢?
近90個(gè)模型對(duì)戰(zhàn)75萬輪。
在最新名單發(fā)布之前,LMSYS已經(jīng)收集了近75萬個(gè)大模型solo對(duì)戰(zhàn)結(jié)果,其中涉及的模型達(dá)到了89個(gè)。
其中,Llama 3有1.27萬次參加,GPT-四是有多個(gè)不同的版本,最多參與68,000次。
下圖顯示了一些熱門模型的比賽頻率和勝率,圖中的兩個(gè)指標(biāo)也沒有統(tǒng)計(jì)平手次數(shù)。
在列表方面,LMSYS分為列表和多個(gè)子列表,GPT-4-Turbo排名第一,與之并列的是早期1106版本,以及Claude。 超級(jí)大杯Opus。
另外一個(gè)版本(0125)的GPT-4位居后,接下來是Llamama。 3了。
不過更有意思的是,比較新的0125,表現(xiàn)還不如老版本1106。
但是在英語單項(xiàng)列表中,Llama 3的結(jié)果與兩款GPT-4直接平局,也超過了0125版本。
Claude是中文能力排行榜的第一名。 3 Opus和GPT-4-1106共享,Llama 三是已排到20位以外。
除語言能力外,列表中還設(shè)置了長文本和代碼能力排名,Llama 三也都名列前茅。
但是,LMSYS的“游戲規(guī)則”到底是什么呢?
每個(gè)人都可以參與的大模型評(píng)估
這個(gè)大模型測試,大家都可以參加,題目和評(píng)價(jià)標(biāo)準(zhǔn),都是由參與者自己決定的。
而且具體的“競技”過程,又分為battle和side-by-兩種模式的side。
在battle模式中,在測試界面輸入好問題后,系統(tǒng)會(huì)隨機(jī)調(diào)用庫中的兩個(gè)模型,但測試人員不知道系統(tǒng)是誰贏的。界面只顯示“模型A”和“模型B”。
當(dāng)模型導(dǎo)出答案后,評(píng)估者需要選擇哪一個(gè)更好,或平局,當(dāng)然,如果模型表現(xiàn)不符合預(yù)期,也有相應(yīng)的選擇。
模型身份只有在做出決定后才能被揭開。
side-by-side由用戶選擇指定的模型進(jìn)行PK,其它測試步驟與battle相同。
但是,只有battle匿名模式下的投票結(jié)果才能被統(tǒng)計(jì),模型在對(duì)話過程中不小心暴露了自己的身份,結(jié)果才會(huì)失敗。
根據(jù)每個(gè)模型對(duì)其它模型進(jìn)行Win。 Rate,能畫出這樣的圖像:
△
而且最后的排名,就是利用Win Rate數(shù)據(jù),通過Elo評(píng)估系統(tǒng)轉(zhuǎn)換成績獲得。
Elo評(píng)估系統(tǒng)是由美國物理學(xué)教授Arpadad計(jì)算玩家相對(duì)技能水平的一種方法。 Elo設(shè)計(jì)。
具體到LMSYS,在初始條件下,所有模型評(píng)分(R)全部設(shè)定為1000,然后根據(jù)這個(gè)公式換算出期望的勝率。(E)。
隨著測試的持續(xù)進(jìn)行,將按實(shí)際評(píng)分進(jìn)行。(S)修改分?jǐn)?shù),S有1、0和0.5三種取值,分別對(duì)應(yīng)三種情況:勝利、失敗和平手。
下面的公式顯示了調(diào)整算法,其中K是指數(shù),需要測試人員根據(jù)實(shí)際情況進(jìn)行調(diào)整。
最終將所有有效數(shù)據(jù)納入計(jì)算之后,獲得模型Elo評(píng)分。
然而,在實(shí)際操作過程中,LMSYS團(tuán)隊(duì)發(fā)現(xiàn)該算法的穩(wěn)定性不足,因此又采用了統(tǒng)計(jì)方法進(jìn)行調(diào)整。
它們通過Bootstrap反復(fù)取樣,得到了更穩(wěn)定的結(jié)果,并對(duì)置信度區(qū)間進(jìn)行了估計(jì)。
Elo評(píng)分經(jīng)過最終修正,成為排名的依據(jù)。
One More Thing
Llama 已能在模型推理平臺(tái)Groq(不是馬斯克的Grok)上運(yùn)行。
這一平臺(tái)最大的亮點(diǎn)就是“快”,之前用Mixtral模型跑出了每秒近500。 速度token。
跑Llama 三、也相當(dāng)快,實(shí)測70B可以跑到每秒300左右。 Token,8B版本更接近800。
參考鏈接:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144
本文來自微信微信官方賬號(hào)“量子位”(ID:QbitAI),作者:克雷西,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com