大型盲測試煉場上市,國產黑馬沖進世界七強,中文并列第一。
智能東西5月22日報道,星期二,LMSYS,一個著名的大型試驗場。 Chatboat Arena盲目測評結果更新,國內大型獨角獸1000億元參數閉源大型Yi-Large在最新榜單中排名世界第七,在中國大型模型中排名第一。超過Llama-3-70BB、Claude 3 Sonnet;其中文分榜與GPT-4o并列第一。
LMSYS Chatboat 第三方非營利組織LMSYSArena Org發(fā)布,其盲測結果來自于全球用戶的真實投票數量,目前已超過1170萬。本次比賽共有44個模型,包括開源大模型Llamama。 3-70B,還包括各大廠商的閉源模式。
Chatbot Arena評估過程涵蓋了各種因素的共同作用,從用戶直接參與投票到盲目測試,再到大規(guī)模投票和動態(tài)更新的評分機制,保證了評估的客觀性、權威性和專業(yè)性,能夠更準確地反映大模型在實際應用中的表現。
GPT-4o上周OpenAI的測試版本就是“im-also-a-good-gpt2-chatbot"馬甲闖入Chatbot 排名超過GPT-4的Arena排名-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-一批國際大廠,如3-70b,是主要的底座模型。OpenAI CEO Sam Gpt-4o發(fā)布后,Altman還親自轉帖引用LMSYSYS。 Arena盲測擂臺的測試結果。
根據Elo最新公布的評分,GPT-4o以1287分排名第一,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 Opus、Yi-在1240上下評分位置上,Large等模型緊隨其后。
排名前六的模型都來自OpenAIAI,海外巨頭。、Google、Anthropic,且GPT-4、Gemini 1.5 Pro等模型均為萬億級超大參數規(guī)模旗艦模型,其它模型均為數千億參數等級。
零一萬物是榜單上唯一一家自有模型進入前十的中國大模型公司,按機構排名在OpenAI。、Google、在Anthropic之后,排名第四。Yi-Large大模型以僅1000億參數排名第7,評分為1236。
Bard之后(Gemini Pro)、Llama-3-70b-Instruct、Claude 3 Sonnet的分數約為1200分;阿里巴巴的Qwen-Max大型Elo分數為1186,排名第12。;GLM-4大型智譜AIElo分數為1175,排名第15。
提高Chatbot 在Arena查詢的整體質量中,LMSYS還實施了反復刪除數據的機制,并提交了刪除冗余查詢后的列表。這一新機制旨在消除過多冗余的用戶提醒,例如重復過多的“您好”。這種冗余提醒可能會影響排名的準確性。LMSYS明確表示,刪除冗余查詢后的列表將在后續(xù)成為默認列表。
去除冗余查詢后的列表, Yi-與Claude相比,LargeElo評分更進一步。 3 Opus、GPT-4-0125-preview并列第四。
LMSYS Chatbot Arena 盲目測試煉場公開投票地址:
https://arena.lmsys.org/
LMSYS Chatbot Leaderboard 評估排名(滾動更新):
https://chat.lmsys.org/?leaderboard
01.將一個GPU擠出更多的價值,李開討論了大模型價格戰(zhàn)的影響。
根據零一萬物CEO李開復博士的說法,取得了上述優(yōu)異成績,Yi-Large的大模型尺寸不到谷歌和OpenAI的1/10,訓練用的GPU計算率不到他們的1/10。其背后,一年前零一萬物的GPU計算率僅為谷歌和OpenAI的5%。;而且這幾支海外頂級AI隊伍都是千人級的,零一萬物的模型加上基礎設施隊伍總共不到百人。
他說:“我們可以把同樣的GPU擠出更多的價值,這是我們今天能取得這些成就的一個重要原因。李開復說:“如果我們只評估1000億元的模型,至少在這個排名中是世界第一。我們仍然為這些點感到驕傲。一年前,我們落后于OpenAI和谷歌,開始做大模型研發(fā)已經7到10年了。現在,我們和他們的差距是6個月,這大大減少了?!?/p>
為什么追得這么快?零一萬物模型訓練負責人黃文浩博士說,零一萬物在模型訓練中的每一步決策都是正確的,包括提高數據質量和做scaling需要很長時間。 Law,下一步就是不斷提高數據質量,做scale up。
與此同時,零一萬物非常重視Infra的建設,算法Infra是一個協(xié)同設計的過程,從而使計算率達到更好的水平。在這個過程中,它的人才團隊是工程,Infra、三位一體的算法。
李開復說,零一萬物希望從最小到最大都能成為中國最好的模型。未來可能會有更小的模型發(fā)布,他們會努力在同樣的尺寸下達到行業(yè)的第一梯隊,在代碼、中文、英文等諸多方面表現出色。有各種簡單的應用機會,零一萬物的打法是“一個都不放過”。
他還注意到了最近的大型API價格戰(zhàn)。李開復認為零一萬物的定價還是很合理的,他也在花很多精力進一步降價。
"100萬只token,花十幾塊還是花幾塊錢有很大區(qū)別?我認為我們是一個不可避免的選擇,100萬只token應用非常廣泛,應用非常困難?!彼f,零一萬物的API橫跨國內外,有信心在全球范圍內表現良好,性價比合理。他說:“到目前為止,我們剛剛宣布的性能肯定是國內性價比最高的。每個人都可能使用千token、百萬token,每個人都可以自己計算?!?/p>
在他看來,每年整個市場的推理成本都會降到之前的1/10,今天的API模型調用比例還是很低的。如果能被更多的人使用,這是一個非常好的消息。
李開復認為,大模型公司不會做出不理智的雙輸游戲。技術是最重要的。如果技術不好,他們只會通過支付金錢來做生意。如果中國以后就這樣卷土重來,大家都寧愿失去一切,也不愿讓別人贏,那么一切都會離開國外市場。
黃文昊分享說,目前零一萬物沒有數據短缺的問題。看到數據有很多潛力可以挖掘,有一兩個數量級的空間。最近有一些關于多模式的發(fā)現,可以增加一兩個額外的數量級。
02.Yi-Large:GPT-4o與中文排名第一,挑戰(zhàn)性任務評估排名第二。
智譜GLM44在國內大型模型制造商中、阿里Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-這次34B-chat都參加了盲測。
除了名單之外,LMSYS的語言類別還增加了三種語言評價:英語、中文和法語。中文語言分單上,Yi-Large和OpenAI GPT-4o排名并列第一,Qwen-Max和GLM-四也都排在前列。
編程能力,長問題和最新推出的 “艱難提示” ,這些評價都是LMSYS給出的目的性名單,以專業(yè)性和高難度為基礎。
在編程能力(Coding)排行榜上,Yi-在Anthropic旗艦模型Claude中,Large的Elo成績超過了Claude。 3 Opus,與GPT-4o相比,僅低于GPT-4o-Turbo、GPT-4并排第二。
在長提問(Longer Query)榜單上,Yi-與GPT-4相比,Large同樣位居世界第二。-Turbo、GPT-4、Claude 3 Opus并排。
艱難提示詞(Hard Prompts)類別包括Arena用戶提交的提醒,這些提醒經過特別設計,更加復雜,要求更高,更加嚴格。
當面對挑戰(zhàn)性任務時,LMSYS認為這一提醒能夠檢測到最新語言模型的性能。這個列表,Yi-Large和GPT-4-Turbo、GPT-4、Claude 3 Opus并排排名第二。
進入benchmark時代后,盲測機制提供了更加公平的大模型評估機制
如何對大模型進行客觀公正的評價,一直是業(yè)界普遍關注的話題。經過去年混亂的大模型評價浪潮,行業(yè)更加注重評價集的專業(yè)性和客觀性。
就像Chatbot Arena不僅可以為模型提供公平的評價,還可以通過大規(guī)模的用戶參與來保證評價結果的真實性和權威性,提供真實的用戶反饋,選擇盲測機制,防止操縱結果,不斷更新評分系統(tǒng)。
LMSYS Chatbotbot是Org發(fā)布的 Arena以其新穎的“試煉場”方式,以及測試團隊的嚴謹性,成為全球公認的標桿。
Google JeffffFDeepMind首席科學家 曾經引用LMSYS的Dean Chatbot 為了證明Bard產品的性能,Arena的排名數據。
AndrejoopenAI創(chuàng)始團隊成員 Karpathy發(fā)帖稱贊道:“Chatbot Arena is awesome. ”
發(fā)布Chatbot LMSYSYSA評估列表 Org是由加州大學伯克利分校的學生和教師、加州大學圣地亞哥分校和卡耐基梅隆大學共同創(chuàng)辦的開放研究機構。
01萬物模型培訓負責人黃文浩博士總結說,LMSYS評價機制的問題來自真實用戶聊天,動態(tài)隨機變化。沒有人能預測問題的分布,所以不能優(yōu)化模型的單一能力,客觀性更好。此外,它由用戶評分,評估結果將更接近用戶在實際應用中的偏好。
雖然主要人員來自大學,但LMSYS的研究項目與行業(yè)非常接近。他們不僅開發(fā)了自己的大語言模型,還向行業(yè)導出了各種數據(他們推出的MT-Bench是權威評估集,指令遵循方向)。、評估工具,還開發(fā)了一種分布式結構,用于加快大模型訓練和推理,提供在線live大模型打擂臺測試所需的算率。
Chatbot Arena參考了搜索引擎時代的橫向比較和評價思路。首先,它以匿名模型的形式向用戶呈現所有上傳和評價的“參與”模型。然后號召真正的用戶輸入自己的提示,在不知道模型名稱的情況下,由真正的用戶回答兩種模型產品。
https在盲測平臺://arena.lmsys.org/上,兩組大模型相比,客戶自主輸入問大模型問題,模型A、模型B兩側各生成兩個PK模型的真實結果,用戶在結果下方投票四個選項之一:A模型更好,B模型更好,兩者平局,或者兩者都不好。提交后,可以進行下一輪PK。
在線即時盲測和匿名投票是通過眾籌真實用戶進行的,Chatbot Arena不僅可以減少偏見的影響,還可以最大限度地防止基于測試集刷榜的概率,從而提高最終結果的客觀性。經過清洗和匿名處理,Chatbot Arena將公開所有用戶的投票數據。
收集真實用戶投票數據后,LMSYS Chatbot Arena還使用Elo評分系統(tǒng)來量化模型的性能,進一步優(yōu)化評分機制,確保排名的客觀性和公平性。
Elo評分系統(tǒng)是由匈牙利裔美國科學家Arpadad基于統(tǒng)計原理的權威評價系統(tǒng)。 Elo博士的成立旨在量化和評估各種游戲的競技水平。Elo等級分級制度在國際象棋、圍棋、足球、籃球、電子競技等運動中發(fā)揮著重要作用。
在Elo評分系統(tǒng)中,每個參與者都會得到標準的分數。每場比賽結束后,參與者的分數將根據結果進行調整。系統(tǒng)會根據參與者的分數來計算他們贏得比賽的概率。一旦低分球員擊敗高分球員,低分球員可以獲得更多的分數,反之亦然。
04.結論:后發(fā)有后發(fā)優(yōu)勢,中國人做商品比美國人好。
隨著大型模型進入商業(yè)應用,模型的實際性能迫切需要通過對具體應用場景的嚴格考驗。整個市場正在探索一個更客觀、更公正、更權威的評價體系。像Chatbot這樣的大型制造商正在積極參與 在Arena這樣的評估平臺上,產品的競爭力是通過實際的用戶反饋和專業(yè)的評估機制來確認的。
李開復認為,美國擅長做突破性研究,擁有一批創(chuàng)造性很強的科學家。然而,中國人的聰明、努力和努力不容忽視。零一萬物把7-10年的差距降到只有6個月,證明做一個好的模型絕對不僅僅是看更多的論文,更多的是發(fā)明新的東西,先做還是后做。
“做得最好的是強大的?!痹谒磥?,后發(fā)有后發(fā)優(yōu)勢,美國的創(chuàng)造力值得學習。“但我認為我們比執(zhí)行力、良好的感覺、商品和商業(yè)模式更強大?!?/p>
零一萬物的企業(yè)模式初步客戶在國外,因為他們的團隊判斷海外用戶的支付意愿或金額遠大于國內用戶。按照中國現在的說法 B卷的情況,業(yè)務做一單賠一單,這種情況在AI初期就是AI。 1.0時代太多了,零一萬物團隊不愿意這樣做。
“我們今天可以看到的模型表現超過了其他模型,歡迎不同意的同行來到LMSYS打擂臺,證明我錯了。但是直到那天,我們會繼續(xù)說我們是最好的模型。”李開復說。
本文來自微信微信官方賬號的“智東西”(ID:zhidxcom),作者:ZeR0,編輯:漠影,36氪經授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com