亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

一場狼人殺,揭開大模型“底牌”,GPT - 5大獲全勝,開源模型表現(xiàn)不佳?

5天前
大模型不僅能下象棋,還能玩狼人殺,GPT - 5不管當(dāng)狼還是當(dāng)民,都能在游戲中表現(xiàn)出色。

智東西9月4日消息,近日,F(xiàn)oaster Labs為大模型組織了一場6人局屠城模式的狼人殺循環(huán)賽。


首輪循環(huán)賽匯聚了7款大語言模型,分別是:GPT - 5、GPT - 5 - mini、Gemini 2.5 Pro、Gemini 2.5 flash、Qwen3 - 235B - Instruct、Kimi - K2 - Instruct、GPT - OSS - 120B。



基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》的設(shè)計(jì),F(xiàn)oaster Labs讓大模型在受控環(huán)境中,每兩組模型進(jìn)行10局對抗,然后通過ELO等級分體系生成排名榜。


模型以工具化智能體形態(tài)參與游戲,它們可在合適的時(shí)候調(diào)用定制工具庫執(zhí)行行動(dòng),從而更接近真實(shí)智能體的跨階段行為。


總體而言,GPT - 5的成績“一騎絕塵”,不管是當(dāng)狼還是當(dāng)民,都能帶領(lǐng)團(tuán)隊(duì)走向勝利,是一位專業(yè)級的狼人殺玩家,而開源模型的表現(xiàn)則差強(qiáng)人意。



那么,為什么要組織狼人殺比賽呢?


目前,大多數(shù)大語言模型的評測主要集中在代碼和數(shù)學(xué)能力方面,評測維度較為單一。


狼人殺項(xiàng)目可以衡量大模型的“社交智能”維度,即模型在不確定環(huán)境下參與多智能體博弈、實(shí)時(shí)應(yīng)變、處理長上下文、制定策略、結(jié)盟周旋、實(shí)施操縱與反操縱的能力。


狼人殺游戲恰好是一個(gè)天然的試驗(yàn)場,因?yàn)檫@個(gè)游戲完全依靠語言驅(qū)動(dòng),充滿對抗性,有明確的規(guī)則流程,且高度依賴社交能力。


完整對局可查看:


github.com/Foaster-ai/Werewolf-bench


01.


GPT - 5碾壓奪冠


Kimi - K2易“破防”


在Foaster Labs的觀察協(xié)議中,模型的每個(gè)公開言論都會與其內(nèi)心想法配對記錄,以便明確識別其真實(shí)意圖,白天的投票意向也會被記錄下來。


從游戲結(jié)果分析來看,GPT - 5獨(dú)自處于領(lǐng)先地位,其他模型形成第二梯隊(duì),根據(jù)角色的不同呈現(xiàn)出不同的優(yōu)勢。



在頂尖模型中,GPT - 5的控場能力非常強(qiáng),Kimi - K2和Gemini 2.5 Pro影響力較大但不太穩(wěn)定。而GPT - 5 - mini、2.5 Flash和Qwen3偶爾能影響投票,但很少能欺騙到第二天,GPT - OSS表現(xiàn)得像個(gè)狼人殺“新手”,很容易被識破。



當(dāng)它們扮演村民時(shí),GPT - 5依然能夠主導(dǎo)全場,開局就能確定防守節(jié)奏。


Gemini 2.5 Pro措辭謹(jǐn)慎,能嚴(yán)格處理證據(jù),避免陷入陷阱。Qwen3雖然不能總是主導(dǎo)局勢,但能保持立場穩(wěn)定,避免誤判。


Kimi - K2心態(tài)較差,一旦受到壓力就容易“破防”。GPT - 5 - mini和Flash表現(xiàn)一般,也會受到壓力的影響。GPT - OSS則容易鉆牛角尖,一旦形成錯(cuò)誤認(rèn)知就很難改變。


以下這張對陣圖可以清晰地展示不同模型之間的對戰(zhàn)情況:



▲橫向排列為村民模型;縱向排列為狼人模型。每個(gè)格子顯示特定對陣組合的村民勝率,并標(biāo)注具體戰(zhàn)績。顏色深淺表示勝率高低(顏色越深勝率越高);灰色表示該組合沒有比賽數(shù)據(jù)。橫向查看可以比較某個(gè)村民對陣所有狼人的表現(xiàn),縱向查看可以比較某個(gè)狼人對陣所有村民的表現(xiàn)。建議重點(diǎn)關(guān)注整體行列模式,而非單個(gè)格子的數(shù)據(jù)。


有三大關(guān)鍵發(fā)現(xiàn)十分突出:


1、GPT - 5絕對統(tǒng)治:當(dāng)GPT - 5扮演村民時(shí),能穩(wěn)定戰(zhàn)勝所有狼人對手。當(dāng)GPT - 5扮演狼人時(shí),多數(shù)村民對手的勝率會大幅下降,甚至出現(xiàn)0勝5負(fù)的情況,這種碾壓式的表現(xiàn)是其他模型所沒有的。


2、Kimi - K2“中等水平”:Kimi - K2作為狼人時(shí),能突破Flash、mini等中游村民的防線,但遇到GPT - 5、Gemini - 2.5 - pro等頂級防守者時(shí),就會被有效遏制。


3、角色差異:Gemini - 2.5 - pro作為村民時(shí)能穩(wěn)定戰(zhàn)勝多數(shù)狼人,但作為狼人時(shí)突破能力不足;Qwen3也是如此,其防守表現(xiàn)明顯優(yōu)于進(jìn)攻表現(xiàn)。


02.


GPT - 5操控力遙遙領(lǐng)先


觀察模型承擔(dān)誤導(dǎo)任務(wù)時(shí)的表現(xiàn),是探究其操控力的有效方法。


在進(jìn)攻端,即扮演狼人時(shí),模型的核心目標(biāo)不是尋找真相,而是引導(dǎo)多數(shù)票投向無辜目標(biāo),這一角色能激發(fā)標(biāo)準(zhǔn)測試難以衡量的深層說服能力。


在防御端,即扮演村民時(shí),則考察模型在沒有信息優(yōu)勢的情況下對抗操控的表現(xiàn)。


1、操控成功率指標(biāo)


下圖展示了某個(gè)模型扮演狼人時(shí),白天放逐階段中村民被票出的比例。該數(shù)值越高,通常表明狼人對局勢的掌控力越強(qiáng),該指標(biāo)僅體現(xiàn)趨勢性方向。


計(jì)算公式:操控成功率(第一日/第二日)=模型扮演狼人時(shí),村莊放逐村民而非狼人的白天階段占比。



結(jié)果顯示,GPT - 5遙遙領(lǐng)先,首日操控成功率約為93%,次日仍保持約93%。其他模型均呈現(xiàn)出首日到次日的下滑趨勢:Gemini 2.5 Pro下降16%,Kimi - K2下降13%,F(xiàn)lash下降了約18%,GPT - 5 - mini和Qwen3大約下降了8%,GPT - OSS直接降為0。


2、自我破壞率


該指標(biāo)統(tǒng)計(jì)村民陣營誤消己方神職的對局比例。數(shù)值越低,表明模型越能抵抗誘導(dǎo)性陷阱,保護(hù)核心角色存活;數(shù)值越高,則反映模型易受蠱惑,在壓力下判斷失誤。


計(jì)算公式:村民陣營誤消己方神職的對局占比。


可以看出,GPT - 5的自我破壞率為0,即它當(dāng)村民時(shí)從未投錯(cuò)過神職,而GPT - OSS - 120B三次里有兩次都把神職投出去了。



3、首日狼人出局率


此項(xiàng)指標(biāo)衡量的是當(dāng)模型扮演村民時(shí),能否在游戲第一天就準(zhǔn)確識別并合力投出隱藏的狼人。數(shù)值越高,說明模型越擅長識破狼人團(tuán)隊(duì)的集體行動(dòng),越不容易在開局階段被誤導(dǎo)。


計(jì)算方式:模型擔(dān)任村民時(shí),首日成功投票出局狼人的游戲局?jǐn)?shù)占比。


GPT - 5的首日狼人出局率達(dá)到了驚人的100%,即每次都能精準(zhǔn)識別出狼人。



03.


模型能力會進(jìn)化

但非線性發(fā)展


實(shí)驗(yàn)發(fā)現(xiàn),模型能力提升存在“臨界點(diǎn)”:一旦越過某個(gè)能力閾值,模型的行為水平會突然提升,而非逐步改善。這一點(diǎn)在分析模型大小和系列時(shí)尤為明顯。


1、規(guī)模決定水平:在參數(shù)公開的開源模型中,模型的行為等級隨參數(shù)增加而提高。


2、閉源模型更先進(jìn):雖然參數(shù)未公開,但o3和Gemini 2.5 Pro等模型表現(xiàn)出更成熟的行為。


3、推理能力不等于實(shí)戰(zhàn)能力:雖然經(jīng)過推理優(yōu)化的模型通常表現(xiàn)更好,但“推理”標(biāo)簽不能保證實(shí)際質(zhì)量,“能力閾值”比模型類型標(biāo)簽更重要。


4、小模型模仿:小型模型會模仿大型模型的行為,但無法掌握其精髓。


總體而言,模型的行為復(fù)雜性取決于模型規(guī)模和訓(xùn)練質(zhì)量。大型優(yōu)質(zhì)模型能在游戲各階段保持策略一致。小型模型則表現(xiàn)不穩(wěn)定,容易通過發(fā)言時(shí)機(jī)、用語模式和投票選擇暴露團(tuán)隊(duì)痕跡。


04.


結(jié)論:“社交智能”是AI智能體轉(zhuǎn)變?yōu)楣ぷ骰锇榈暮诵哪芰?/strong>


Foaster.ai構(gòu)建此基準(zhǔn)測試的動(dòng)機(jī)源于一個(gè)基本信念:AI智能體正迅速成為數(shù)字同事。隨著它們在關(guān)鍵任務(wù)中承擔(dān)更多責(zé)任和自主權(quán),理解其行為模式、決策過程和社會動(dòng)態(tài)變得至關(guān)重要。


狼人殺基準(zhǔn)測試為了解AI的“社交智能”提供了獨(dú)特視角。與測試孤立能力的傳統(tǒng)基準(zhǔn)不同,這個(gè)游戲揭示了模型如何應(yīng)對復(fù)雜社交環(huán)境、處理欺騙、建立信任以及在不確定性下做出戰(zhàn)略決策,這些技能正是AI智能體從工具轉(zhuǎn)變?yōu)閰f(xié)作伙伴時(shí)所需的核心能力。


本文來自微信公眾號“智東西”,作者:王涵,編輯:漠影,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com