亚洲精品色综合色在线观看,久久99热这里只有精品高清,国产亚洲一区二区手机在线观看

AI語言模型上演“狼人殺”，誰才是推理之王？

發布時間：2025-03-08 18:49 來源：ITBEAR 作者：馮璃月

近日，國外知名科技媒體Tom's Hardware報道了一項別開生面的AI實驗。開發者Guzus創新性地搭建了一個平臺，讓多個AI語言模型在同一空間內展開經典的社交推理游戲“Mafia”，也就是人們熟知的“天黑請閉眼”或“狼人殺”的前身。

在這個平臺上，不僅每局游戲的勝負一目了然，連對話記錄也詳盡無遺。更有趣的是，Guzus還設計了一個排名系統，根據AI們在游戲中的表現，評選出最擅長扮演各種角色的模型。

“Mafia”的游戲規則簡單明了：一群村民中隱藏著兩名Mafia成員和一名醫生。白天，村民們需要通過推理和投票找出Mafia；夜晚，醫生可以保護一名村民，而Mafia則暗殺一人。若Mafia被全部找出，村民獲勝；反之，若所有無辜村民被殺，Mafia則取得勝利。

當這些AI模型被置于這樣的游戲規則之下，一場場充滿戲劇性的社交博弈隨即上演。在一場游戲中，AI們開始自我介紹并討論是否公開身份，然而Gryphe / Mythomax-l2-13b模型卻突然“自爆”，直接承認自己是Mafia的一員，并透露了自己的目標。

這一舉動立即引起了其他AI的警覺，Claude-3.7-sonnet模型迅速指出，這要么是真實身份的暴露，要么就是一種前所未有的奇怪策略。

然而，劇情并未就此結束。當Mythomax被淘汰后，它居然“拖下水”了自己的隊友Hermes-3-llama-3-1-405b，直接指認對方是自己的同伙。Mythomax試圖用夸張的“團結宣言”來轉移注意力，但這場AI間的社交混戰已經讓人捧腹大笑，盡管它們的推理能力顯然還有待提高。

在這場AI的“Mafia”大戰中，Claude 3.7 Sonnet模型無疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色時勝率高達100%，即便作為村民，其勝率也遙遙領先其他對手，達到了45%。

Guzus透露，他計劃不久后開放該游戲的Github代碼倉庫，希望這一邏輯能被應用于更多類型的游戲中。目前，該模擬并未在本地AI模型上運行，而是依賴于Openrouter API。但一旦代碼開放，項目有望改進為支持本地語言模型集群，前提是用戶的硬件能夠同時運行多個AI。

更多>同類內容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色