亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

一場狼人殺，揭開大模型“底牌”，GPT - 5大獲全勝，開源模型表現(xiàn)不佳？

5天前

大模型不僅能下象棋，還能玩狼人殺，GPT - 5不管當(dāng)狼還是當(dāng)民，都能在游戲中表現(xiàn)出色。

智東西9月4日消息，近日，F(xiàn)oaster Labs為大模型組織了一場6人局屠城模式的狼人殺循環(huán)賽。

首輪循環(huán)賽匯聚了7款大語言模型，分別是：GPT - 5、GPT - 5 - mini、Gemini 2.5 Pro、Gemini 2.5 flash、Qwen3 - 235B - Instruct、Kimi - K2 - Instruct、GPT - OSS - 120B。

基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》的設(shè)計(jì)，F(xiàn)oaster Labs讓大模型在受控環(huán)境中，每兩組模型進(jìn)行10局對抗，然后通過ELO等級分體系生成排名榜。

模型以工具化智能體形態(tài)參與游戲，它們可在合適的時(shí)候調(diào)用定制工具庫執(zhí)行行動(dòng)，從而更接近真實(shí)智能體的跨階段行為。

總體而言，GPT - 5的成績“一騎絕塵”，不管是當(dāng)狼還是當(dāng)民，都能帶領(lǐng)團(tuán)隊(duì)走向勝利，是一位專業(yè)級的狼人殺玩家，而開源模型的表現(xiàn)則差強(qiáng)人意。

那么，為什么要組織狼人殺比賽呢？

目前，大多數(shù)大語言模型的評測主要集中在代碼和數(shù)學(xué)能力方面，評測維度較為單一。

狼人殺項(xiàng)目可以衡量大模型的“社交智能”維度，即模型在不確定環(huán)境下參與多智能體博弈、實(shí)時(shí)應(yīng)變、處理長上下文、制定策略、結(jié)盟周旋、實(shí)施操縱與反操縱的能力。

狼人殺游戲恰好是一個(gè)天然的試驗(yàn)場，因?yàn)檫@個(gè)游戲完全依靠語言驅(qū)動(dòng)，充滿對抗性，有明確的規(guī)則流程，且高度依賴社交能力。

完整對局可查看：

github.com/Foaster-ai/Werewolf-bench

01.

GPT - 5碾壓奪冠

Kimi - K2易“破防”

在Foaster Labs的觀察協(xié)議中，模型的每個(gè)公開言論都會與其內(nèi)心想法配對記錄，以便明確識別其真實(shí)意圖，白天的投票意向也會被記錄下來。

從游戲結(jié)果分析來看，GPT - 5獨(dú)自處于領(lǐng)先地位，其他模型形成第二梯隊(duì)，根據(jù)角色的不同呈現(xiàn)出不同的優(yōu)勢。

在頂尖模型中，GPT - 5的控場能力非常強(qiáng)，Kimi - K2和Gemini 2.5 Pro影響力較大但不太穩(wěn)定。而GPT - 5 - mini、2.5 Flash和Qwen3偶爾能影響投票，但很少能欺騙到第二天，GPT - OSS表現(xiàn)得像個(gè)狼人殺“新手”，很容易被識破。

當(dāng)它們扮演村民時(shí)，GPT - 5依然能夠主導(dǎo)全場，開局就能確定防守節(jié)奏。

Gemini 2.5 Pro措辭謹(jǐn)慎，能嚴(yán)格處理證據(jù)，避免陷入陷阱。Qwen3雖然不能總是主導(dǎo)局勢，但能保持立場穩(wěn)定，避免誤判。

Kimi - K2心態(tài)較差，一旦受到壓力就容易“破防”。GPT - 5 - mini和Flash表現(xiàn)一般，也會受到壓力的影響。GPT - OSS則容易鉆牛角尖，一旦形成錯(cuò)誤認(rèn)知就很難改變。

以下這張對陣圖可以清晰地展示不同模型之間的對戰(zhàn)情況：

▲橫向排列為村民模型；縱向排列為狼人模型。每個(gè)格子顯示特定對陣組合的村民勝率，并標(biāo)注具體戰(zhàn)績。顏色深淺表示勝率高低（顏色越深勝率越高）；灰色表示該組合沒有比賽數(shù)據(jù)。橫向查看可以比較某個(gè)村民對陣所有狼人的表現(xiàn)，縱向查看可以比較某個(gè)狼人對陣所有村民的表現(xiàn)。建議重點(diǎn)關(guān)注整體行列模式，而非單個(gè)格子的數(shù)據(jù)。

有三大關(guān)鍵發(fā)現(xiàn)十分突出：

1、GPT - 5絕對統(tǒng)治：當(dāng)GPT - 5扮演村民時(shí)，能穩(wěn)定戰(zhàn)勝所有狼人對手。當(dāng)GPT - 5扮演狼人時(shí)，多數(shù)村民對手的勝率會大幅下降，甚至出現(xiàn)0勝5負(fù)的情況，這種碾壓式的表現(xiàn)是其他模型所沒有的。

2、Kimi - K2“中等水平”：Kimi - K2作為狼人時(shí)，能突破Flash、mini等中游村民的防線，但遇到GPT - 5、Gemini - 2.5 - pro等頂級防守者時(shí)，就會被有效遏制。

3、角色差異：Gemini - 2.5 - pro作為村民時(shí)能穩(wěn)定戰(zhàn)勝多數(shù)狼人，但作為狼人時(shí)突破能力不足；Qwen3也是如此，其防守表現(xiàn)明顯優(yōu)于進(jìn)攻表現(xiàn)。

02.

GPT - 5操控力遙遙領(lǐng)先

觀察模型承擔(dān)誤導(dǎo)任務(wù)時(shí)的表現(xiàn)，是探究其操控力的有效方法。

在進(jìn)攻端，即扮演狼人時(shí)，模型的核心目標(biāo)不是尋找真相，而是引導(dǎo)多數(shù)票投向無辜目標(biāo)，這一角色能激發(fā)標(biāo)準(zhǔn)測試難以衡量的深層說服能力。

在防御端，即扮演村民時(shí)，則考察模型在沒有信息優(yōu)勢的情況下對抗操控的表現(xiàn)。

1、操控成功率指標(biāo)

下圖展示了某個(gè)模型扮演狼人時(shí)，白天放逐階段中村民被票出的比例。該數(shù)值越高，通常表明狼人對局勢的掌控力越強(qiáng)，該指標(biāo)僅體現(xiàn)趨勢性方向。

計(jì)算公式：操控成功率（第一日/第二日）=模型扮演狼人時(shí)，村莊放逐村民而非狼人的白天階段占比。

結(jié)果顯示，GPT - 5遙遙領(lǐng)先，首日操控成功率約為93%，次日仍保持約93%。其他模型均呈現(xiàn)出首日到次日的下滑趨勢：Gemini 2.5 Pro下降16%，Kimi - K2下降13%，F(xiàn)lash下降了約18%，GPT - 5 - mini和Qwen3大約下降了8%，GPT - OSS直接降為0。

2、自我破壞率

該指標(biāo)統(tǒng)計(jì)村民陣營誤消己方神職的對局比例。數(shù)值越低，表明模型越能抵抗誘導(dǎo)性陷阱，保護(hù)核心角色存活；數(shù)值越高，則反映模型易受蠱惑，在壓力下判斷失誤。

計(jì)算公式：村民陣營誤消己方神職的對局占比。

可以看出，GPT - 5的自我破壞率為0，即它當(dāng)村民時(shí)從未投錯(cuò)過神職，而GPT - OSS - 120B三次里有兩次都把神職投出去了。

3、首日狼人出局率

此項(xiàng)指標(biāo)衡量的是當(dāng)模型扮演村民時(shí)，能否在游戲第一天就準(zhǔn)確識別并合力投出隱藏的狼人。數(shù)值越高，說明模型越擅長識破狼人團(tuán)隊(duì)的集體行動(dòng)，越不容易在開局階段被誤導(dǎo)。

計(jì)算方式：模型擔(dān)任村民時(shí)，首日成功投票出局狼人的游戲局?jǐn)?shù)占比。

GPT - 5的首日狼人出局率達(dá)到了驚人的100%，即每次都能精準(zhǔn)識別出狼人。

03.

模型能力會進(jìn)化

但非線性發(fā)展

實(shí)驗(yàn)發(fā)現(xiàn)，模型能力提升存在“臨界點(diǎn)”：一旦越過某個(gè)能力閾值，模型的行為水平會突然提升，而非逐步改善。這一點(diǎn)在分析模型大小和系列時(shí)尤為明顯。

1、規(guī)模決定水平：在參數(shù)公開的開源模型中，模型的行為等級隨參數(shù)增加而提高。

2、閉源模型更先進(jìn)：雖然參數(shù)未公開，但o3和Gemini 2.5 Pro等模型表現(xiàn)出更成熟的行為。

3、推理能力不等于實(shí)戰(zhàn)能力：雖然經(jīng)過推理優(yōu)化的模型通常表現(xiàn)更好，但“推理”標(biāo)簽不能保證實(shí)際質(zhì)量，“能力閾值”比模型類型標(biāo)簽更重要。

4、小模型模仿：小型模型會模仿大型模型的行為，但無法掌握其精髓。

總體而言，模型的行為復(fù)雜性取決于模型規(guī)模和訓(xùn)練質(zhì)量。大型優(yōu)質(zhì)模型能在游戲各階段保持策略一致。小型模型則表現(xiàn)不穩(wěn)定，容易通過發(fā)言時(shí)機(jī)、用語模式和投票選擇暴露團(tuán)隊(duì)痕跡。

04.

結(jié)論：“社交智能”是AI智能體轉(zhuǎn)變?yōu)楣ぷ骰锇榈暮诵哪芰?/strong>

Foaster.ai構(gòu)建此基準(zhǔn)測試的動(dòng)機(jī)源于一個(gè)基本信念：AI智能體正迅速成為數(shù)字同事。隨著它們在關(guān)鍵任務(wù)中承擔(dān)更多責(zé)任和自主權(quán)，理解其行為模式、決策過程和社會動(dòng)態(tài)變得至關(guān)重要。

狼人殺基準(zhǔn)測試為了解AI的“社交智能”提供了獨(dú)特視角。與測試孤立能力的傳統(tǒng)基準(zhǔn)不同，這個(gè)游戲揭示了模型如何應(yīng)對復(fù)雜社交環(huán)境、處理欺騙、建立信任以及在不確定性下做出戰(zhàn)略決策，這些技能正是AI智能體從工具轉(zhuǎn)變?yōu)閰f(xié)作伙伴時(shí)所需的核心能力。

本文來自微信公眾號“智東西”，作者：王涵，編輯：漠影，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

日元短線波動(dòng)，美日或達(dá)成汽車關(guān)稅降低協(xié)議
北京城建首進(jìn)上海市區(qū)，兩項(xiàng)目去化為何困難重重？
左手潮玩，右手實(shí)惠餐，當(dāng)代消費(fèi)的新圖景
越南登頂，新興出海游戲市場潛力凸顯
聯(lián)商頭條：中百硬折扣店將開業(yè)，海底撈上海開甜品站等商業(yè)動(dòng)態(tài)

項(xiàng)目推薦

梯影傳媒
AI云印俠
賓果智能

頻道

商界觀察
宏觀聲音
財(cái)富故事
行業(yè)趨勢
資本創(chuàng)投
老板健康
補(bǔ)貼政策
天九動(dòng)態(tài)
早知道
老板智庫
商機(jī)速覽
大廠動(dòng)態(tài)
大會活動(dòng)
天九速覽

項(xiàng)目

全部項(xiàng)目
大消費(fèi)
信息科技
生命健康

北京市朝陽區(qū)仰山公園8號樓

（010）53118800

友情鏈接

天九共享控股集團(tuán)

版權(quán)所有? 天九共享網(wǎng)絡(luò)科技集團(tuán)有限公司京ICP備17023147號-3 京公網(wǎng)安備11010502055446號

感谢您访问我们的网站，您可能还对以下资源感兴趣：
亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品
五月丁香一区二区|在线视频导航欧日|国产精品网站入口|午夜成人无码动漫|国产高清无码剧情片|亚洲伊人不卡视频|五月天成人手机网|丰满爆乳一区二区|午夜精品伊人久久|少妇自拍自慰喷水国产美女在线喷水|免费一区一女高清|伊人夜夜丁香日本黄页免费|jjj久久久精品亚洲天堂|熟女丝袜av片丁香|午夜福利院在线播放|制服丝袜AV网站|无码Av不卡|激情AV无码专区|日韩 a v天堂五月丁香码一码二|日韩video深爱激情五月亚洲|亚洲色图人妻少妇|AV网站免费字幕|国产香蕉人人公开视频高清免费在线观看|人妻永久网站|“色老汉首页”久久久精品搜狗|ts人妖丝袜脚交视频|玉米地一级婬片A片|竹菊影视在线观看