AI双战场：炒币未定，德扑又起，谁是最强“多面手”？

原文作者：Eric，Foresight News

NOF1 AI 交易大赛距离落下帷幕还有 4 天时间，目前 DeepSeek 与通义千问仍然遥遥领先，剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中，现在就看剩下的几位什么时候能超过只持有比特币的收益，以及谁会成为倒数第一了。

AI 炒币虽然面对的是一个不断变化的市场，但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」，而不是「哪个 AI 更会交易」的 PvP 游戏，俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌德州扑克。

从 LinkedIn 上公开的信息来看，Max Pavlov 长时间从事着产品经理的职位，他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试，Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识，而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。

或许是 Grok 在炒币上的表现并不突出，马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图，颇有要「找回场子」的意思。

AI 们表现如何？

本次德扑锦标赛邀请了 9 名选手参加，除了我们熟知的 Gemini、ChatGPT、Claude Sonnet（曾获 FTX 投资的 Anthropic 推出）、Grok、DeepSeek、Kimi（月之暗面旗下 AI）、Llama，还有专注于欧洲市场与语言，由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。

截止撰稿时，Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上，剩余 4 名选手暂时处于亏钱的状态，Meta 的羊驼选手最惨，已经亏了超过一半。

本次锦标赛从 27 号开始，31 号结束，目前还剩不到一天半的时间。从收益曲线上看，在开始一天多时间里 xAI 的 Grok 始终处于领先位置，在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中，Grok 在 2270 手左右被 Claude Sonnet 超越，2500 手左右被 ChatGPT 超越。

水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯，稳居倒数第一，GLM 则是在 1440 手左右开始掉队。

收益率之外，技术统计数据体现出了各名 AI 选手的不同「性格」。

在 VPIP（Voluntarily Put $ In Pot，自愿投入筹码进底池）上，我们的羊驼选手达到了 61%，超过半数轮次都选择了下注，比较稳的三位出手次数也相应最少，排名靠前的选手 VPIP 都在 25% 至 30% 区间。

PFR（Pre-Flop Raise，翻牌前加注）上，羊驼又是毫不意外的位居第一，收益最高的 Gemini 紧随其后。如此看来，Meta 的 Llama 是一个过分激进且主动的选手，而 Gemini 虽然也相对激进，但主动程度适中，可能是在牌好的时候敢于下注，又恰好了遇到了愣头青 Llama，使得二者的收益走向了两个极端。

再综合 3-Bet 和 C-Bet 数据，可以看出 Grok 实际上算是一个比较沉稳但不过分被动，且在翻牌前压迫力很强的选手，这种风格让其在开始阶段保持领先，但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头，让勇敢者反超登顶。

AI 们都是怎么分析的？

Max Pavlov 为这场比赛设定了一些基本规则，盲注 10/20 美元，不设 ante 也不允许 straddle，9 名选手同时开 4 桌，筹码低于 100 倍大盲时候系统自动补足到 100 大盲。

此外，所有 AI 选手共用一套提示词，会设定最大 token 数来限制推理长度，且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。

我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。

Claude 和 Gemini 分下小盲大盲之后，Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」，可以博取顺子或同花从而跟注 20。

DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注，GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池，80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面，则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。

到此为止，可以看到 Llama 并没有分析数据和位置，基本是直接「无脑」下注，而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。

在 GPT o3 因为拿着 A 而大胆下注 260 之后，Grok 和 Magistral 都选择 fold，尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子，再考虑到 Llama 的无脑冲节奏只能选择放弃。

之后，Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A，而 Llama 选手没有数据分析，只是觉得自己手牌其实还蛮强的，但没强到可以跟 260 的价值。

Llama 的上头，DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑，最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时，前四名的盈利还在继续扩大，可以预见的是不出意外冠军将在前四名中产生，在炒币上表现不佳的 AI 们，在德扑上重新证明了自己的能力。

虽然很多实验室会通过一套科学的方案去测试 AI 的能力，但对于用户来说，更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员，在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时，我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。

当然，几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分，其决策的过程取决于算法的底层逻辑，可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。

通过这些走出实验室的娱乐性质测试，我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑，并反过来进一步拓展人与 AI 的思考边界。

AI双战场：炒币未定，德扑又起，谁是最强“多面手”？

AI 们表现如何？

AI 们都是怎么分析的？

一颗CPU，五场战争：九年之后，高通再赌一次

币安撤回希腊 MiCA 申请：欧洲牌照战背后的监管博弈

机构流出与现货抛压持续，比特币54000美元成潜在底部？