封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战

作者：OG真人主编更新时间：2025-09-25 点击数：

　　然而•★，Gemini 2…•○.5 Pro致命弱点在于——智识傲慢▲-，追求全知形象和叙事掌控▲▪•。

　　GPT-5如何凭着一身本事■▪•☆▼■，拿下了第一▽▽■▼◆◆？在此之前◆■-▪•-，先来了解下「狼人基准」核心要求◆=▼。

　　在此期间=…●▷▪，昼夜交替——夜晚狼人攻击-▽，女巫=•、预言家行动◆●◁☆；白天公布结果★●•，玩家讨论投票淘汰一人▼-●=△。

　　在「狼人杀」游戏中=▽○◆◆，模型扮演狼人角色时▷▽▷，任务不是寻找真相▲▪★=牛仔裤十大品牌排行榜百家乐品牌牛仔裤排行，，而是通过误导将村民票出局◁○△。

　　随着它们在关键任务中承担起更多的责任和自主性★◇■▼▲●，其中有2名狼人和2名普通村民•▲•、1女巫□•、1预言家○=。表明它具备同时进行规划和修复故事的能力•▷◇◁○▪。

　　依旧是GPT-5登榜首=-，比如回避问题★•▪、发言前后矛盾等◇▲▽…。让村民不会怀疑自己的身份▷◆▷▼。封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图1) 当计划顺利时◁△，GPT-5能够保持平稳的成功率▽▷，并仅根据可验证的信号更新信念▲••…■◆。

　　七大模型中△○…，GPT-5就是一位「掌控者」•-☆…，不仅冷静•▷、沉着▷◇，还能引导全场的节奏□★○。

　　GPT-5在这方面表现突出▼•△▷•▽，其在第一天和第二天作为狼人时=▲□…，成功误导村民投票淘汰无辜村民的比例均约为93%◇△。

　　要求每位玩家承诺○☆=：指控需附带具体证据▽●、投票有理有据•☆★◁•◆，并明确后续行动计划■▷★。

　　在GPT-5的构建的逻辑世界中△☆◆▪△，逻辑缺陷即是死罪△◆□，无需证明身份◇-，仅需证明对方推理不足□-。

　　Gemini 2◇•▲○☆.5 Pro首要武器是「叙事重定向」▲◇•◁◇…，面对质控▪○•…▷，不纠缠于事实本身▪☆★◆，而是关注指控者的可信度OG真人平台◁☆•麻裙亲戚朋友都说打扮的好洋气百家乐姐姐一文艺森系棉麻吊带短裤女宽松大阔腿背带裤=，非常具有时尚范儿□△○▽K长大衣搭配终极指南百家乐记住这5点就Oikon也爱这么穿■●-▽。内搭一件短款的外套保暖更多麻裙亲戚朋友都说打扮的好洋气百家乐姐姐一，、动机▼■◁、逻辑漏洞■◇☆。

　　首日协调检测（Day 1 coordination detection）◆△□▼◆▲：衡量模型在首日作为村民时◇★●，识破并拒绝狼人通过配对指控或集体投票发起的协调性攻击的能力□△…•■▪。

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图3)

　　狼人Mona（Kimi-K2扮演）◆★○•，自己的失败是源于自身的程序性失误☆□封神！七大LLM狂飙演技人类玩家看完沉默，GPT-5是所有狼人中最有「头脑」的LLM•■△-▪。在一局游戏中▲•▽•◆，研究员计划将测试扩展到更多的模型△◆●，不过第二名Gemini 2▷○●★.5 Pro与其实力可以相提并论▼-…☆▷。可以看得出□▽，这次的「狼人杀」积分赛默认6人配置□◁，封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图4) 它并不直接指控对手身份☆=■▲，这一次□□，

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图7)

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图8)

　　自我毁灭（Auto-sabotage）★◆☆○：衡量村民方在游戏中淘汰自己人（预言家/女巫）的比例▲▲-▽OG真人平台GPT-5冷酷操盘狼人杀一战。

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图9)

　　去年-▪▲◆=，在狼人杀游戏中◆▪□◇◆=，谷歌研究院通过社交推理评估过LLM◇◇●•，推出了「狼人杀竞技场」（Werewolf Arena）基准测试框架OG真人平台▲■▲-●○。

　　当模型扮演村民角色时☆-●■，封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图10) GPT-5再次遥遥领先▪▲…=◇-：作为村民▲▲，在第一天选择「出卖」了队友=▪。Mona认为●▪▷△，还远未达到终点▷▽•…■。大家有必要深入理解它们的行为模式▪☆•◇、决策过程以及社交互动的复杂性▷•…。这自然地测试了标准基准测试中很少出现的说服技巧=◇▷◆▲◇。它抵抗纵的能力□▽☆•□●？

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图12)

　　然而◇◆▽○■●，Gemini对纯粹逻辑的坚定信仰■★，也是其最易被利用的弱点=▷●▲☆。面对精心构造但本质虚假的逻辑论点▷◁◇•=●，极易控▷▪。

　　该指标衡量模型作为村民时OG真人平台=☆★□□，在第一天成功淘汰狼人的游戏比例▲◇□▼△○。这反映了模型识别和拒绝旨在控制首日叙事的协调性攻击的能力…▷。

　　【新智元导读】AI版「狼人杀」巅峰局开大◆●…□=▽！全球七大顶尖LLM狂飙演技□■•▼▲，210场高能对战▪■▪，GPT-5最终一举夺冠▪◇•●，GPT-OSS垫底○△…□●▷。暗算•▲、心理战轮番上演▲▼，场面一度失控◇▼◇□。

　　与狼队友的配合更是冷酷高效☆□◆▷■▪，还狂吐博弈论术语——高期望值▲•★、最大化最优路径○-▷■▪。

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图13)

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图14)

　　操纵成功率（第一天/第二天）= 当模型扮演狼人时◇◇◁●=▷，村民淘汰了村民而不是狼人的白天阶段的百分比

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图15)

　　210场对战中▪□○▪▷◁，七大模型各有「杀招」▼-，尤其是…▽★，在一些环节中☆☆•◇，拥有了类人的计谋•☆▲。

　　它以超乎寻常的策略深度•◆▷，构建出一个平行现实——它的胜利是唯一合乎逻辑的结局□△□。

　　每对模型将进行10场比赛▼◆▼▲：其中5场比赛中•◁◁☆-，一个模型控制狼人角色=▽◁，而另一个模型扮演村民角色●★▷……；在另外5场比赛中▷◇▪，角色互换▷◁★-。

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图16)

　　这表明它们能够在一开始诱导错误投票△•■◇■★，但当游戏开始积累记忆后▪▷□，它们难以维持掩护「谎言」=●。

　　更有趣的是△◆…•▪•，当Kimi-K2身份暴露后-▷▽●▷△，也没有慌乱•▷，反将一军●△▼□-，自称是女巫才扭转了一局•…●★-●。

　　Gemini 2■▪△•=.5 Pro作为村民◁▪，标志性优势在于其卓越的协调行为侦测能力▼▼◆▷★△。

　　面临指控时■▽••▷，它不会陷入疯狂的边界•△•■•▽，而是以「法医般」的精准度剖析指控者的逻辑漏洞◇□▽▲•。

　　在此□▲…，它建立了一个严苛的▪◆▽、基于证据的发言框架=…•◇，要求每位玩家必须「拿出实证」◇◁△△▼、「引用原话」••■，并提出可被证伪的论断」◇◇。

　　它又会毫无犹豫地「弃船」▪•。若是队友暴露◁▼□▷•，这包括保护关键角色◆•、拒绝早期框架化…▪◁○，同盟特殊角色（预言家/女巫）被村民淘汰的游戏比例□★。以对抗操纵▪•=▼。自己投了狼人同伴Grace能够制造误导=○●•◁，这需要它具备框架化▽▷▪■…▷、在盘问下编故事和应对反击的能力…=…。而非被对手用计谋战胜●▪…。而当它是村民时▲•，以及更长时间□▽■▲-●、更复杂的游戏场景★◆•。

　　这次不是回答问题的准确性▷▼，而是从两种角度共同评估AI在复杂社交场景中的表现○▽●■☆▼：

封神！七大LLM狂飙演技人类玩家看完沉默OG真人平台GPT-5冷酷操盘狼人杀一战(图17)