亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

AI跑分意義漸失，谷歌提議讓AI玩游戲一決高下

08-13 06:30

AI具備出色的游戲能力，實(shí)際上蘊(yùn)含著極高的商業(yè)化潛力。

時(shí)隔八年，在生成式人工智能誕生之后，谷歌再度舉辦了“AI棋王爭(zhēng)霸賽”。OpenAI o4 - mini、DeepSeek - R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美AI業(yè)界的頂尖模型將兩兩對(duì)決。

據(jù)谷歌介紹，此次比賽旨在通過(guò)策略游戲中的正面較量，評(píng)估并推動(dòng)AI模型在復(fù)雜推理和決策能力方面的進(jìn)步，以解決現(xiàn)有基準(zhǔn)測(cè)試難以跟上模型發(fā)展速度的問(wèn)題。同時(shí)，舉辦此次賽事也是為了宣傳其全新的、公開(kāi)的基準(zhǔn)測(cè)試平臺(tái)Kaggle Game Arena。

與常規(guī)的AI基準(zhǔn)測(cè)試不同，Kaggle Game Arena的測(cè)試題目是“策略游戲”。谷歌推出讓AI玩游戲的平臺(tái)，是因?yàn)閭鹘y(tǒng)的AI基準(zhǔn)測(cè)試已陷入困境，難以反映旗艦?zāi)Ｐ偷恼鎸?shí)能力。簡(jiǎn)單來(lái)講，部分AI廠商為了名利，將各種AI基準(zhǔn)測(cè)試弄得烏煙瘴氣，所以谷歌作為業(yè)界巨頭，選擇站出來(lái)糾正這一現(xiàn)象。

在這一輪AI熱潮中，“錢(qián)變得不值錢(qián)”是一個(gè)獨(dú)特的現(xiàn)象。以往，獨(dú)角獸企業(yè)指的是成立時(shí)間短、估值超10億美元且未上市的科技創(chuàng)新企業(yè)。但現(xiàn)在，只要?jiǎng)?chuàng)始人有一定技術(shù)背景，一家AI初創(chuàng)企業(yè)拿到10億美元估值輕而易舉。

甚至出現(xiàn)了Builder.ai這種宣稱人工智能編程，實(shí)則靠印度程序員手寫(xiě)代碼的騙子公司。金融業(yè)對(duì)此現(xiàn)象的解釋是，他們對(duì)AI革命可能帶來(lái)的機(jī)遇存在“錯(cuò)失恐懼”（FOMO），這促使他們大量投資各類看似靠譜的AI公司，從而造就了AI領(lǐng)域的非理性繁榮。

如此一來(lái)，創(chuàng)業(yè)者利用投資市場(chǎng)的AI FOMO情緒抬高公司估值也在情理之中。那么，如何讓AI初創(chuàng)公司更具價(jià)值呢？由于當(dāng)下AI技術(shù)高深，投資者判斷AI公司實(shí)力的方法很簡(jiǎn)單，就是看跑分，跑分高的就是優(yōu)質(zhì)標(biāo)的。

“不服跑個(gè)分”成了AI企業(yè)宣傳產(chǎn)品的核心手段。如果經(jīng)常關(guān)注AI消息，對(duì)LMArena基準(zhǔn)測(cè)試、大模型競(jìng)技場(chǎng)Chatbot Arena等榜單肯定不陌生。當(dāng)跑分成績(jī)與融資掛鉤，“刷榜”現(xiàn)象就出現(xiàn)了。

目前市面上評(píng)測(cè)大模型能力的基準(zhǔn)測(cè)試多種多樣，主要涉及知識(shí)推理、數(shù)學(xué)和編程。以知名AI開(kāi)源社區(qū)HuggingFace出品的榜單為例，主要評(píng)測(cè)大模型遵循指令的能力以及在長(zhǎng)文本中進(jìn)行多步驟推理的能力等。

和PC上的3DMark、手機(jī)上的安兔兔一樣，AI基準(zhǔn)測(cè)試通過(guò)設(shè)定一系列客觀且可復(fù)現(xiàn)的場(chǎng)景，來(lái)測(cè)試AI模型在不同領(lǐng)域的能力。但為了保證可復(fù)現(xiàn)和一致性，AI基準(zhǔn)測(cè)試缺乏靈活性，這就為“刷榜”提供了空間。AI模型可以通過(guò)記憶能力記住基準(zhǔn)測(cè)試數(shù)據(jù)集中的題目，然后針對(duì)性訓(xùn)練，從而獲得高分。

例如，在GSM8K、MATH等測(cè)試AI模型數(shù)學(xué)能力的測(cè)試集中，GPT - 4o、Gemini 1.5 Pro等模型常常能獲得80%以上的超高正確率，甚至還出現(xiàn)了基準(zhǔn)測(cè)試方配合AI廠商刷榜的情況。今年春季，Meta的新一代開(kāi)源模型Llama 4就出現(xiàn)了跑分領(lǐng)先但實(shí)際表現(xiàn)不佳的情況。有AI研究人員發(fā)現(xiàn)，Llama4在發(fā)布前針對(duì)大模型競(jìng)技場(chǎng)Chatbot Arena測(cè)試了27個(gè)不同版本，卻只公布了最佳成績(jī)。

由此可見(jiàn)，基準(zhǔn)測(cè)試越來(lái)越難以衡量AI模型，尤其是最先進(jìn)的“State - of - the - Art”模型。因此，谷歌開(kāi)發(fā)了Kaggle Game Arena，并舉辦“AI國(guó)際象棋棋王爭(zhēng)霸賽”，為各大廠商的旗艦?zāi)Ｐ吞峁┱故緦?shí)力的舞臺(tái)。

為何谷歌選擇游戲作為測(cè)試大模型能力的場(chǎng)景呢？他們認(rèn)為，游戲在既定規(guī)則下具有隨機(jī)性，非常適合衡量AI的智能。明確的規(guī)則能約束AI，使其不會(huì)偏離方向，而足夠強(qiáng)的隨機(jī)性又能讓AI展現(xiàn)出能力上限。此外，游戲還具備結(jié)果可衡量、過(guò)程可視化、推理可驗(yàn)證以及零和博弈的特點(diǎn)。

實(shí)際上，游戲與AI業(yè)界關(guān)系密切。以O(shè)penAI為例，普通人是因?yàn)镃hatGPT而熟知它，而《DOTA2》玩家早在2019年就對(duì)OpenAI印象深刻。當(dāng)時(shí)，OpenAI的OpenAI Five程序輕松擊敗冠軍戰(zhàn)隊(duì)OG，初步證明AI不僅能在棋類對(duì)弈中取勝，在更復(fù)雜的電子競(jìng)技游戲中也能戰(zhàn)勝人類。

據(jù)前OpenAI首席科學(xué)家Ilya Sutskever與黃仁勛對(duì)話所言，通過(guò)為《DOTA2》開(kāi)發(fā)OpenAI Five，OpenAI的訓(xùn)練模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)椤盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)（RLHF）”，這正是ChatGPT比以往AI產(chǎn)品更智能的關(guān)鍵。

如果AI能在游戲中表現(xiàn)出色，不僅能證明其智能水平，還具有極高的商業(yè)化前景。要知道，游戲廠商一直渴望獲得更智能的NPC來(lái)提升玩家體驗(yàn)。

【本文圖片來(lái)自網(wǎng)絡(luò) 】

本文來(lái)自微信公眾號(hào) “三易生活”（ID：IT - 3eLife），作者：三易菌，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

震撼！曼聯(lián)再出大手筆，1.3億雙簽，今夏轉(zhuǎn)會(huì)豪擲超3.5億

微軟GitHub CEO托馬斯?多姆克離職創(chuàng)業(yè)

空山基中國(guó)西南首展登陸成都，京基智農(nóng)開(kāi)啟新增長(zhǎng)篇章

榜樣力量 | 米新秀：用“三三調(diào)解法”化解借貸難題

加納喬強(qiáng)硬表態(tài)：只轉(zhuǎn)切爾西，否則留曼聯(lián)

項(xiàng)目推薦

康小虎 · 健康小屋

藍(lán)絲帶