AI跑分意義漸失,谷歌提議讓AI玩游戲一決高下
時(shí)隔八年,在生成式人工智能誕生之后,谷歌再度舉辦了“AI棋王爭霸賽”。OpenAI o4 - mini、DeepSeek - R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美AI業(yè)界的頂尖模型將兩兩對決。
據(jù)谷歌介紹,此次比賽旨在通過策略游戲中的正面較量,評估并推動(dòng)AI模型在復(fù)雜推理和決策能力方面的進(jìn)步,以解決現(xiàn)有基準(zhǔn)測試難以跟上模型發(fā)展速度的問題。同時(shí),舉辦此次賽事也是為了宣傳其全新的、公開的基準(zhǔn)測試平臺(tái)Kaggle Game Arena。
與常規(guī)的AI基準(zhǔn)測試不同,Kaggle Game Arena的測試題目是“策略游戲”。谷歌推出讓AI玩游戲的平臺(tái),是因?yàn)閭鹘y(tǒng)的AI基準(zhǔn)測試已陷入困境,難以反映旗艦?zāi)P偷恼鎸?shí)能力。簡單來講,部分AI廠商為了名利,將各種AI基準(zhǔn)測試弄得烏煙瘴氣,所以谷歌作為業(yè)界巨頭,選擇站出來糾正這一現(xiàn)象。
在這一輪AI熱潮中,“錢變得不值錢”是一個(gè)獨(dú)特的現(xiàn)象。以往,獨(dú)角獸企業(yè)指的是成立時(shí)間短、估值超10億美元且未上市的科技創(chuàng)新企業(yè)。但現(xiàn)在,只要?jiǎng)?chuàng)始人有一定技術(shù)背景,一家AI初創(chuàng)企業(yè)拿到10億美元估值輕而易舉。
甚至出現(xiàn)了Builder.ai這種宣稱人工智能編程,實(shí)則靠印度程序員手寫代碼的騙子公司。金融業(yè)對此現(xiàn)象的解釋是,他們對AI革命可能帶來的機(jī)遇存在“錯(cuò)失恐懼”(FOMO),這促使他們大量投資各類看似靠譜的AI公司,從而造就了AI領(lǐng)域的非理性繁榮。
如此一來,創(chuàng)業(yè)者利用投資市場的AI FOMO情緒抬高公司估值也在情理之中。那么,如何讓AI初創(chuàng)公司更具價(jià)值呢?由于當(dāng)下AI技術(shù)高深,投資者判斷AI公司實(shí)力的方法很簡單,就是看跑分,跑分高的就是優(yōu)質(zhì)標(biāo)的。
“不服跑個(gè)分”成了AI企業(yè)宣傳產(chǎn)品的核心手段。如果經(jīng)常關(guān)注AI消息,對LMArena基準(zhǔn)測試、大模型競技場Chatbot Arena等榜單肯定不陌生。當(dāng)跑分成績與融資掛鉤,“刷榜”現(xiàn)象就出現(xiàn)了。
目前市面上評測大模型能力的基準(zhǔn)測試多種多樣,主要涉及知識(shí)推理、數(shù)學(xué)和編程。以知名AI開源社區(qū)HuggingFace出品的榜單為例,主要評測大模型遵循指令的能力以及在長文本中進(jìn)行多步驟推理的能力等。
和PC上的3DMark、手機(jī)上的安兔兔一樣,AI基準(zhǔn)測試通過設(shè)定一系列客觀且可復(fù)現(xiàn)的場景,來測試AI模型在不同領(lǐng)域的能力。但為了保證可復(fù)現(xiàn)和一致性,AI基準(zhǔn)測試缺乏靈活性,這就為“刷榜”提供了空間。AI模型可以通過記憶能力記住基準(zhǔn)測試數(shù)據(jù)集中的題目,然后針對性訓(xùn)練,從而獲得高分。
例如,在GSM8K、MATH等測試AI模型數(shù)學(xué)能力的測試集中,GPT - 4o、Gemini 1.5 Pro等模型常常能獲得80%以上的超高正確率,甚至還出現(xiàn)了基準(zhǔn)測試方配合AI廠商刷榜的情況。今年春季,Meta的新一代開源模型Llama 4就出現(xiàn)了跑分領(lǐng)先但實(shí)際表現(xiàn)不佳的情況。有AI研究人員發(fā)現(xiàn),Llama4在發(fā)布前針對大模型競技場Chatbot Arena測試了27個(gè)不同版本,卻只公布了最佳成績。
由此可見,基準(zhǔn)測試越來越難以衡量AI模型,尤其是最先進(jìn)的“State - of - the - Art”模型。因此,谷歌開發(fā)了Kaggle Game Arena,并舉辦“AI國際象棋棋王爭霸賽”,為各大廠商的旗艦?zāi)P吞峁┱故緦?shí)力的舞臺(tái)。
為何谷歌選擇游戲作為測試大模型能力的場景呢?他們認(rèn)為,游戲在既定規(guī)則下具有隨機(jī)性,非常適合衡量AI的智能。明確的規(guī)則能約束AI,使其不會(huì)偏離方向,而足夠強(qiáng)的隨機(jī)性又能讓AI展現(xiàn)出能力上限。此外,游戲還具備結(jié)果可衡量、過程可視化、推理可驗(yàn)證以及零和博弈的特點(diǎn)。
實(shí)際上,游戲與AI業(yè)界關(guān)系密切。以O(shè)penAI為例,普通人是因?yàn)镃hatGPT而熟知它,而《DOTA2》玩家早在2019年就對OpenAI印象深刻。當(dāng)時(shí),OpenAI的OpenAI Five程序輕松擊敗冠軍戰(zhàn)隊(duì)OG,初步證明AI不僅能在棋類對弈中取勝,在更復(fù)雜的電子競技游戲中也能戰(zhàn)勝人類。
據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對話所言,通過為《DOTA2》開發(fā)OpenAI Five,OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)椤盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)”,這正是ChatGPT比以往AI產(chǎn)品更智能的關(guān)鍵。
如果AI能在游戲中表現(xiàn)出色,不僅能證明其智能水平,還具有極高的商業(yè)化前景。要知道,游戲廠商一直渴望獲得更智能的NPC來提升玩家體驗(yàn)。
【本文圖片來自網(wǎng)絡(luò) 】
本文來自微信公眾號 “三易生活”(ID:IT - 3eLife),作者:三易菌,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com