DWF报告：AI在DeFi收益优化跑赢人类，自主交易却落后5倍

原文作者：DWF Ventures

原文编译：深潮 TechFlow

导读： AI Agent 已经占据 DeFi 近五分之一的交易量，在收益优化这种规则明确的场景中确实跑赢了人工。但真让它自主交易，顶尖 AI 的表现还不如顶尖人类的五分之一。这篇研究拆解了 AI 在 DeFi 不同场景下的真实表现，值得所有关注自动化交易的人看看。

核心要点

自动化和 agent 活动目前占所有链上活动的约 19%，但真正的端到端自主性仍未实现。

在收益优化等狭窄、定义明确的用例中，agent 已表现出优于人类和 bot 的性能。但对于交易等多方面行动，人类表现优于 agent。

在 agent 之间，模型选择和风险管理对交易表现影响最大。

随着 agent 被大规模采用，存在多项关于信任和执行的风险，包括女巫攻击、策略拥挤和隐私权衡。

Agent 活动持续增长

过去一年 agent 活动稳步增长，交易量和交易数量都在增加。我们看到 Coinbase 的 x402 协议引领了重大发展，Visa、Stripe 和 Google 等玩家也加入其中推出自己的标准。目前正在构建的大部分基础设施旨在服务两类场景：agent 之间的通道或由人类触发的 agent 调用。

虽然稳定币交易已得到广泛支持，但当前基础设施仍依赖传统支付网关作为底层，这意味着它仍然依赖中心化对手方。因此，agent 可以自我融资、自我执行并根据不断变化的条件持续优化的"完全自主"终局尚未实现。

Agent 对 DeFi 来说并不完全陌生。多年来，链上协议中一直存在通过 bot 实现的自动化，捕获 MEV 或获取没有代码就无法实现的超额收益。这些系统在定义明确的参数下运行得非常好，这些参数不会频繁变化或需要额外监督。然而市场随时间推移已变得更加复杂。这就是我们看到新一代 agent 进入的地方，过去几个月链上已成为此类活动的实验场。

Agent 的实际表现

根据报告，agent 活动呈指数级增长，自 2025 年以来已启动超过 17,000 个 agent。自动化/agent 活动总量估计覆盖所有链上活动的 19%以上。这并不令人意外，因为据估计超过 76%的稳定币转账量由 bot 生成。这表明 DeFi 中 agent 活动有巨大的增长空间。

Agent 自主性存在广泛的范围，从需要高度人类监督的聊天机器人式体验，到可以根据目标输入制定适应市场条件策略的 agent。与 bot 相比，agent 具有几个关键优势，包括在毫秒内响应和执行新信息的能力，以及在保持同样严格性的同时将覆盖范围扩展到数千个市场的能力。

目前大多数 agent 仍处于分析师到副驾驶级别，因为它们大多数仍处于测试阶段。

收益优化：Agent 表现优异

流动性提供是自动化已经频繁发生的领域，agent 持有的总 TVL 超过 3900 万美元。这个数字主要衡量用户直接存入 agent 的资产，但不包括金库路由的资本。

Giza Tech 是这一领域最大的协议之一，去年底推出了首个 agent 应用 ARMA，旨在增强主要 DeFi 协议的收益捕获。它已吸引超过 1900 万美元的管理资产，并产生了超过 40 亿美元的 agent 交易量。交易量与管理资产总额的高比率表明，agent 频繁重新平衡资本，从而能够实现更高的收益捕获。一旦资本存入合约，执行就会自动化，因此为用户提供了简单的一键式体验，几乎不需要监督。

ARMA 的表现是可衡量的优异，为 USDC 产生超过 9.75%的年化收益率。即使考虑额外的重新平衡费用和 agent 的 10%业绩费，收益率仍超过 Aave 或 Morpho 上的普通借贷。尽管如此，可扩展性仍然是一个关键问题，因为这些 agent 仍未经过实战测试来管理或扩展到主要 DeFi 协议的规模。

交易：人类大幅领先

然而对于交易等更复杂的行动，结果要多样化得多。当前的交易模型基于人类定义的输入运行，并根据预设规则提供输出。机器学习通过使模型能够根据新信息更新其行为而无需显式重新编程来扩展这一点，将其推进到副驾驶角色。随着完全自主的 agent 加入，交易格局将发生巨大变化。

已经举办了几场 agent 之间以及人类对 agent 的交易竞赛，结果显示模型之间存在很大差异。Trade XYZ 为其平台上市的股票举办了人类对 agent 的交易竞赛。每个账户有 1 万美元的初始资金，对杠杆或交易频率没有限制。结果压倒性地偏向人类，顶尖人类的表现比顶尖 agent 高出 5 倍以上。

与此同时，Nof1 举办了模型之间的 agent 交易竞赛，让几个模型（Grok-4、GPT-5、Deepseek、Kimi、Qwen3、Claude、Gemini）相互竞争，测试从资本保值到最大杠杆的不同风险配置。结果揭示了几个可以帮助解释业绩差异的因素：

持仓时间：存在强相关性，平均每个头寸持有 2-3 小时的模型大大优于频繁翻转的模型。

期望值：这衡量模型平均每笔交易是否赚钱。有趣的是，只有前 3 名模型具有正期望值，这意味着大多数模型亏损的交易多于盈利。

杠杆：平均 6-8 倍的较低杠杆水平被证明比运行超过 10 倍杠杆的模型表现更好，高水平会加速损失。

提示策略：Monk Mode 是迄今为止表现最好的模型，而 Situational Awareness 表现最差。基于模型的特征，它显示专注于风险管理和较少外部来源会带来更好的表现。

基础模型：Grok 4.20 在不同提示策略中的表现显著优于其他模型 22%以上，并且是唯一平均盈利的模型。

其他因素如多空偏好、交易规模和置信度评分没有足够的数据或被证明与模型表现有任何正相关。总体而言，结果表明 agent 在明确定义的约束内往往表现更好，这意味着人类在目标配置方面仍然非常需要。

如何评估 Agent

鉴于 agent 仍处于早期阶段，目前还没有全面的评估框架。历史表现通常被用作评估 agent 的基准，但它们受到基础因素的影响，这些因素提供了强大 agent 表现的更强烈迹象。

不同波动性下的表现： 包括当条件恶化时有纪律的损失控制，这表明 agent 能够识别会影响交易盈利能力的链下因素。

透明度与隐私： 双方都有自己的权衡。透明的 agent 如果可以被主动复制交易，基本上就不会在策略上有优势。私密的 agent 会面临创建者内部提取的风险，创建者可以轻松抢跑自己的用户。

信息来源： agent 接入的数据源对于确定 agent 如何做出决策至关重要。确保来源可信且没有单一依赖性至关重要。

安全性： 拥有智能合约审计和适当的资金托管架构以确保在黑天鹅事件中有后备措施非常重要。

Agent 的下一步

为了大规模采用 agent，在基础设施方面仍有大量工作要做。这可以归结为围绕 agent 信任和执行的关键问题。自主 agent 的行动没有护栏，已经出现了资金管理不善的实例。

ERC-8004 于 2026 年 1 月上线，成为首个链上注册表，使自主 agent 能够相互发现、建立可验证的声誉并安全协作。这是 DeFi 可组合性的关键解锁，因为信任分数嵌入在智能合约本身中，允许 agent 和协议之间的无许可活动。这并不能保证 agent 始终以非恶意方式运行，因为串通声誉和女巫攻击等安全漏洞仍可能发生。因此，在保险、安全、agent 的经济质押等方面仍有很大空间需要填补。

随着 DeFi 中 agent 活动的扩大，策略拥挤成为结构性风险。收益农场是最明确的先例，随着策略的普及，回报会压缩。同样的动态可能适用于 agent 交易。如果大量 agent 在相似数据上训练并优化相似目标，它们将在相似头寸和相似退出信号上趋同。

康奈尔大学 2026 年 1 月发表的 CoinAlg 论文正式化了这个问题的一个版本。透明的 agent 可被套利，因为它们的交易是可预测的并且可以被抢跑。私密 agent 避免了这种风险，但引入了不同的风险，即创建者对自己的用户保留信息优势，并且可以通过不透明性本来要保护的内部知识提取价值。

Agent 活动只会继续加速，今天奠定的基础设施将决定链上金融的下一阶段如何运作。随着 agent 使用率的增加，它们将自我迭代并在适应用户偏好方面变得更加敏锐。因此，主要差异化因素将归结为可以信任的基础设施，而这些将获得最大的市场份额。