AI跑分意義漸失,谷歌提議讓AI玩游戲一決高下
時(shí)隔八年,在生成式人工智能誕生之后,谷歌再度舉辦了“AI棋王爭(zhēng)霸賽”。OpenAI o4 - mini、DeepSeek - R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美AI業(yè)界的頂尖模型將兩兩對(duì)決。

據(jù)谷歌介紹,此次比賽旨在通過(guò)策略游戲中的正面較量,評(píng)估并推動(dòng)AI模型在復(fù)雜推理和決策能力方面的進(jìn)步,以解決現(xiàn)有基準(zhǔn)測(cè)試難以跟上模型發(fā)展速度的問(wèn)題。同時(shí),舉辦此次賽事也是為了宣傳其全新的、公開(kāi)的基準(zhǔn)測(cè)試平臺(tái)Kaggle Game Arena。

與常規(guī)的AI基準(zhǔn)測(cè)試不同,Kaggle Game Arena的測(cè)試題目是“策略游戲”。谷歌推出讓AI玩游戲的平臺(tái),是因?yàn)閭鹘y(tǒng)的AI基準(zhǔn)測(cè)試已陷入困境,難以反映旗艦?zāi)P偷恼鎸?shí)能力。簡(jiǎn)單來(lái)講,部分AI廠商為了名利,將各種AI基準(zhǔn)測(cè)試弄得烏煙瘴氣,所以谷歌作為業(yè)界巨頭,選擇站出來(lái)糾正這一現(xiàn)象。
在這一輪AI熱潮中,“錢(qián)變得不值錢(qián)”是一個(gè)獨(dú)特的現(xiàn)象。以往,獨(dú)角獸企業(yè)指的是成立時(shí)間短、估值超10億美元且未上市的科技創(chuàng)新企業(yè)。但現(xiàn)在,只要?jiǎng)?chuàng)始人有一定技術(shù)背景,一家AI初創(chuàng)企業(yè)拿到10億美元估值輕而易舉。
甚至出現(xiàn)了Builder.ai這種宣稱人工智能編程,實(shí)則靠印度程序員手寫(xiě)代碼的騙子公司。金融業(yè)對(duì)此現(xiàn)象的解釋是,他們對(duì)AI革命可能帶來(lái)的機(jī)遇存在“錯(cuò)失恐懼”(FOMO),這促使他們大量投資各類看似靠譜的AI公司,從而造就了AI領(lǐng)域的非理性繁榮。

如此一來(lái),創(chuàng)業(yè)者利用投資市場(chǎng)的AI FOMO情緒抬高公司估值也在情理之中。那么,如何讓AI初創(chuàng)公司更具價(jià)值呢?由于當(dāng)下AI技術(shù)高深,投資者判斷AI公司實(shí)力的方法很簡(jiǎn)單,就是看跑分,跑分高的就是優(yōu)質(zhì)標(biāo)的。
“不服跑個(gè)分”成了AI企業(yè)宣傳產(chǎn)品的核心手段。如果經(jīng)常關(guān)注AI消息,對(duì)LMArena基準(zhǔn)測(cè)試、大模型競(jìng)技場(chǎng)Chatbot Arena等榜單肯定不陌生。當(dāng)跑分成績(jī)與融資掛鉤,“刷榜”現(xiàn)象就出現(xiàn)了。

目前市面上評(píng)測(cè)大模型能力的基準(zhǔn)測(cè)試多種多樣,主要涉及知識(shí)推理、數(shù)學(xué)和編程。以知名AI開(kāi)源社區(qū)HuggingFace出品的榜單為例,主要評(píng)測(cè)大模型遵循指令的能力以及在長(zhǎng)文本中進(jìn)行多步驟推理的能力等。
和PC上的3DMark、手機(jī)上的安兔兔一樣,AI基準(zhǔn)測(cè)試通過(guò)設(shè)定一系列客觀且可復(fù)現(xiàn)的場(chǎng)景,來(lái)測(cè)試AI模型在不同領(lǐng)域的能力。但為了保證可復(fù)現(xiàn)和一致性,AI基準(zhǔn)測(cè)試缺乏靈活性,這就為“刷榜”提供了空間。AI模型可以通過(guò)記憶能力記住基準(zhǔn)測(cè)試數(shù)據(jù)集中的題目,然后針對(duì)性訓(xùn)練,從而獲得高分。

例如,在GSM8K、MATH等測(cè)試AI模型數(shù)學(xué)能力的測(cè)試集中,GPT - 4o、Gemini 1.5 Pro等模型常常能獲得80%以上的超高正確率,甚至還出現(xiàn)了基準(zhǔn)測(cè)試方配合AI廠商刷榜的情況。今年春季,Meta的新一代開(kāi)源模型Llama 4就出現(xiàn)了跑分領(lǐng)先但實(shí)際表現(xiàn)不佳的情況。有AI研究人員發(fā)現(xiàn),Llama4在發(fā)布前針對(duì)大模型競(jìng)技場(chǎng)Chatbot Arena測(cè)試了27個(gè)不同版本,卻只公布了最佳成績(jī)。
由此可見(jiàn),基準(zhǔn)測(cè)試越來(lái)越難以衡量AI模型,尤其是最先進(jìn)的“State - of - the - Art”模型。因此,谷歌開(kāi)發(fā)了Kaggle Game Arena,并舉辦“AI國(guó)際象棋棋王爭(zhēng)霸賽”,為各大廠商的旗艦?zāi)P吞峁┱故緦?shí)力的舞臺(tái)。

為何谷歌選擇游戲作為測(cè)試大模型能力的場(chǎng)景呢?他們認(rèn)為,游戲在既定規(guī)則下具有隨機(jī)性,非常適合衡量AI的智能。明確的規(guī)則能約束AI,使其不會(huì)偏離方向,而足夠強(qiáng)的隨機(jī)性又能讓AI展現(xiàn)出能力上限。此外,游戲還具備結(jié)果可衡量、過(guò)程可視化、推理可驗(yàn)證以及零和博弈的特點(diǎn)。
實(shí)際上,游戲與AI業(yè)界關(guān)系密切。以O(shè)penAI為例,普通人是因?yàn)镃hatGPT而熟知它,而《DOTA2》玩家早在2019年就對(duì)OpenAI印象深刻。當(dāng)時(shí),OpenAI的OpenAI Five程序輕松擊敗冠軍戰(zhàn)隊(duì)OG,初步證明AI不僅能在棋類對(duì)弈中取勝,在更復(fù)雜的電子競(jìng)技游戲中也能戰(zhàn)勝人類。

據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對(duì)話所言,通過(guò)為《DOTA2》開(kāi)發(fā)OpenAI Five,OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)椤盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)”,這正是ChatGPT比以往AI產(chǎn)品更智能的關(guān)鍵。
如果AI能在游戲中表現(xiàn)出色,不僅能證明其智能水平,還具有極高的商業(yè)化前景。要知道,游戲廠商一直渴望獲得更智能的NPC來(lái)提升玩家體驗(yàn)。
【本文圖片來(lái)自網(wǎng)絡(luò) 】
本文來(lái)自微信公眾號(hào) “三易生活”(ID:IT - 3eLife),作者:三易菌,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





