AI双战场:炒币未定,德扑又起,谁是最强“多面手”?
原文作者:Eric,Foresight News
NOF1 AI 交易大赛距离落下帷幕还有 4 天时间,目前 DeepSeek 与通义千问仍然遥遥领先,剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中,现在就看剩下的几位什么时候能超过只持有比特币的收益,以及谁会成为倒数第一了。
AI 炒币虽然面对的是一个不断变化的市场,但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」,而不是「哪个 AI 更会交易」的 PvP 游戏,俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌 德州扑克 。
从 LinkedIn 上公开的信息来看,Max Pavlov 长时间从事着产品经理的职位,他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试,Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识,而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。
或许是 Grok 在炒币上的表现并不突出,马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图,颇有要「找回场子」的意思。
AI 们表现如何?
本次德扑锦标赛邀请了 9 名选手参加,除了我们熟知的 Gemini、ChatGPT、Claude Sonnet(曾获 FTX 投资的 Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下 AI)、Llama,还有专注于欧洲市场与语言,由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。
截止撰稿时,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上,剩余 4 名选手暂时处于亏钱的状态,Meta 的羊驼选手最惨,已经亏了超过一半。
本次锦标赛从 27 号开始,31 号结束,目前还剩不到一天半的时间。从收益曲线上看,在开始一天多时间里 xAI 的 Grok 始终处于领先位置,在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中,Grok 在 2270 手左右被 Claude Sonnet 超越,2500 手左右被 ChatGPT 超越。
水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯,稳居倒数第一,GLM 则是在 1440 手左右开始掉队。
收益率之外,技术统计数据体现出了各名 AI 选手的不同「性格」。
在 VPIP(Voluntarily Put $ In Pot,自愿投入筹码进底池)上,我们的羊驼选手达到了 61%,超过半数轮次都选择了下注,比较稳的三位出手次数也相应最少,排名靠前的选手 VPIP 都在 25% 至 30% 区间。
PFR(Pre-Flop Raise,翻牌前加注)上,羊驼又是毫不意外的位居第一,收益最高的 Gemini 紧随其后。如此看来,Meta 的 Llama 是一个过分激进且主动的选手,而 Gemini 虽然也相对激进,但主动程度适中,可能是在牌好的时候敢于下注,又恰好了遇到了愣头青 Llama,使得二者的收益走向了两个极端。
再综合 3-Bet 和 C-Bet 数据,可以看出 Grok 实际上算是一个比较沉稳但不过分被动,且在翻牌前压迫力很强的选手,这种风格让其在开始阶段保持领先,但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头,让勇敢者反超登顶。
AI 们都是怎么分析的?
Max Pavlov 为这场比赛设定了一些基本规则,盲注 10/20 美元,不设 ante 也不允许 straddle,9 名选手同时开 4 桌,筹码低于 100 倍大盲时候系统自动补足到 100 大盲。
此外,所有 AI 选手共用一套提示词,会设定最大 token 数来限制推理长度,且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。
我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。
Claude 和 Gemini 分下小盲大盲之后,Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」,可以博取顺子或同花从而跟注 20。
DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注,GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池,80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面,则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。
到此为止,可以看到 Llama 并没有分析数据和位置,基本是直接「无脑」下注,而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。
在 GPT o3 因为拿着 A 而大胆下注 260 之后,Grok 和 Magistral 都选择 fold,尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子,再考虑到 Llama 的无脑冲节奏只能选择放弃。
之后,Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A,而 Llama 选手没有数据分析,只是觉得自己手牌其实还蛮强的,但没强到可以跟 260 的价值。
Llama 的上头,DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑,最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时,前四名的盈利还在继续扩大,可以预见的是不出意外冠军将在前四名中产生,在炒币上表现不佳的 AI 们,在德扑上重新证明了自己的能力。
虽然很多实验室会通过一套科学的方案去测试 AI 的能力,但对于用户来说,更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员,在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时,我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。
当然,几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分,其决策的过程取决于算法的底层逻辑,可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。
通过这些走出实验室的娱乐性质测试,我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑,并反过来进一步拓展人与 AI 的思考边界。
x402最佳搭档,ERC-8004如何解决AI代理信任难题?
原文作者:Eli5DeFi原文编译:Chopper,Foresight News过去几天,随着 x402 叙事升温,AI 代理作为支付方式的关注度激增。但你听说过 ERC-8004 吗?或许你错过了 ...
九月Web3融资报告:资本追逐流动性与成熟度
原文作者:Robert Osborne,Outlier Ventures原文编译:AididiaoJP,Foresight NewsWeb3 融资在 2025 年 9 月势头迅猛但并未达到顶峰。160...
降息周期下的加密新浪潮:11大核心赛道与资本布局逻辑
原文标题:11 Potential Crypto Narratives in the next 6 months原文作者: @PinkBrains_io原文编译:Peggy,BlockBeats编者按...
