为什么多模态的模块化是Web3 AI的错觉?
原文作者: @BlazingKevin_ ,the Researcher at Movemaker
英伟达已经悄然收复了 Deepseek 带来的全部跌幅,甚至再度攀上新高,多模态模型的进化并没有带来混乱,反而加深了Web2 AI 的技术壁垒——从语义对齐到视觉理解,从高维嵌入到特征融合,复杂模型正以前所未有的速度整合各种模态的表达方式,构建出一个愈发封闭的 AI 高地。美股市场也用脚投票,无论是币股还是 AI 股,纷纷走出一波小牛行情。而这股热浪,却和 Crypto 没有一点联系。我们看到的Web3 AI 尝试,特别是近几个月 Agent 方向的演化,方向性几乎完全错误:一厢情愿地想用去中心化结构去拼装Web2式的多模态模块化系统,实际上是一种技术和思维的双重错位。在模块耦合性极强、特征分布高度不稳定、算力需求日益集中的今天,多模态模块化在Web3里根本立不住。我们要指出的是:Web3 AI 的未来不在模仿,而在策略性迂回。从高维空间的语义对齐,到注意力机制中的信息瓶颈,再到异构算力下的特征对齐,我将一一展开,解释为什么Web3 AI 要以农村包围城市作为战术纲领.
Web3 AI 基于扁平化的多模态模型,语义无法对齐导致性能低下
在现代 Web2 AI 的多模态系统中,“语义对齐”指的是将来自不同模态(如图像、文本、音频、视频等)的信息映射到同一个、或可互相转换的语义空间中,使得模型能够理解并比较这些原本形式迥异的信号背后的内在含义。举例来说,一张猫的照片和一句“a cute cat”这段文字,模型需要在高维嵌入空间中将它们投影到彼此接近的位置,这样才能在检索、生成或推理时做到“看图能说话”“听音能联想画面”。
只有在实现高维嵌入空间的前提下, 将工作流分成不同模块才有降本增效的意义. 但是在web3 Agent 协议里, 却无法实现高维嵌入, 因为模块化是Web3 AI 的错觉.
如何理解高维嵌入空间? 在最直观的层面,把“高维嵌入空间”想象成一个坐标系——就像平面上的 x–y 坐标那样,你可以用一对数字来定位一个点。只是在我们常见的二维平面里,一个点由两个数(x, y)完全决定;而在“高维”空间里,每个点要用更多的数字来描述,可能是 128 个、 512 个,甚至上千个数字。
由浅入深,分三步来理解:
-
二维示例:
想想你在地图上标记了几个城市的坐标,比如北京(116.4, 39.9)、上海(121.5, 31.2)、广州(113.3, 23.1)。这里每个城市就对应一个“二维嵌入向量”(embedding vector):两维坐标把地理位置信息编码进了数字里。
如果你想衡量城市之间的“相似度”——在地图上距离近的城市往往在同一经济区或气候区——就可以直接比较它们坐标的欧氏距离。
-
扩展到多维:
现在假设你不仅想描述“地理空 间”上的位置,还想加上一些“气候特征”(平均气温、降雨量)、“人口特征”(人口密度、GDP)等。你就可以为每个城市分配一个包含这 5、 10、甚至更多维度的向量。
比如广州的 5 维向量可能是 [ 113.3, 23.1, 24.5, 1700, 14.5 ],分别代表经度、纬度、平均气温、年降雨量(毫米)、经济指数。这个“多维空间”允许你同时按地理、气候、经济等多个维度比较城市:如果两个城市的向量很接近,就意味着它们在这几种属性上都非常相似。
-
切换到语义——为什么要“嵌入”:
在自然语言处理(NLP)或计算机视觉中,我们也希望把“词语”、“句子”或者“图像”映射到一个这样的多维向量里,让“相似意思的”词或图像在空间里靠得更近。这个映射过程就叫“嵌入”(embedding)。
举例:我们训练一个模型,把“cat”(猫)映射到一个 300 维向量 v₁,把“dog”(狗)映射到另一个向量 v₂,把“不相关”的词比如“economy”(经济)映射到 v₃。那么在这个 300 维空间中,v₁ 和 v₂ 的距离会很小(因为它们都是动物、经常在类似的语言环境中出现),而 v₁ 距离 v₃ 会很大。
随着模型在海量文本或图像-文本对上训练,它学到的每一维并不直接对应“经度”、“纬度”之类的可解释属性,而是某种“隐含语义特征”。有的维度可能捕捉到“动物 vs. 非动物”这一粗粒度划分,有的维度可能区分“家养 vs. 野生”,还有的维度可能对应“可爱 vs. 威猛”的感觉……总之,成百上千个维度共同工作,才能把各种复杂的、交织的语义层面都编码进去。
高维和低维的差距是什么? 只有足够多的维度,才能容纳多种多样、互相交织的语义特征, 只有高维能让它们在各自的语义纬度上有更清晰的位置。 当语义无法被区分,即语义无法对齐时, 低维空间中不同信号相互“挤压”,导致模型在检索或分类时频繁产生混淆,准确率大幅下降;其次,策略生成阶段难以捕捉细微差异,容易漏掉关键交易信号或误判风险阈值,直接拖累收益表现;再者,跨模块协同变得不可能,各 Agent 各自为政,信息孤岛现象严重,整体响应时延增大、鲁棒性变差;最后,面对复杂市场场景,低维结构几乎无容量承载多源数据,系统稳定性和扩展性都难以保障,长期运行势必陷入性能瓶颈和维护困境, 导致产品落地后表现和最初的预想差距甚远.
那么Web3 AI 或者 Agent 协议能够实现高维嵌入空间吗? 首先回答高维空间是怎么实现的, 传统意义上的“高维度”要求各子系统——如市场情报、策略生成、执行落地、风险控制——在数据表示和决策流程上相互对齐、互补增益。而多数 Web3 Agent 只是把现成 API(CoinGecko、DEX 接口等)各自封装成独立“Agent”,缺乏统一的中枢嵌入空间和跨模块注意力机制,导致信息无法在模块间多角度、多层次地交互,只能走线性流水线,表现出单一功能,无法形成整体闭环优化。
很多 Agent 直接调用外部接口,甚至未对接口返回数据做足够的微调或特征工程。例如市场分析 Agent 仅简单取价格与成交量,交易执行 Agent 只按接口参数下单,风险控制 Agent 只是按照几个阈值报警。它们各司其职,但缺乏对同一风险事件或市场信号的多模态融合与深度语义理解,导致系统不能在面对极端行情或跨资产机会时,快速生成综合性、多角度的策略。
因此, 要求Web3 AI 实现高维空间, 变相等于要求 Agent 协议自行开发所有涉及的 API 接口, 这与其模块化的初衷是背道而驰, Web3 AI 里中小企业描绘的模块化多模态系统是经不起推敲的. 高维度架构要求端到端的统一训练或协同优化:从信号捕捉到策略演算,再到执行和风控,所有环节共享同一套表示和损失函数。Web3 Agent 的“模块即插件”思路反而加剧了碎片化——每个 Agent 升级、部署、调参都在各自 silo 内完成,难以同步迭代,也无有效的集中监控与反馈机制,造成维护成本飙升,整体性能受限。
要实现具有行业壁垒的全链路智能体,需要从端到端的联合建模、跨模块的统一嵌入,以及协同训练与部署的系统化工程才能破局, 但是当前市场并没有这样的痛点存在, 自然也没有市场需求.
低维度空间中,注意力机制无法被精密设计
高水平的多模态模型需要设计精密的注意力机制. “注意力机制”本质上是一种动态分配计算资源的方式,能够让模型在处理某一模态输入时,有选择地“聚焦”到最相关的部分。最常见的是 Transformer 中的自注意力(self‑attention)和跨注意力(cross‑attention)机制:自注意力使模型内部能够衡量序列中各元素两两间的依赖关系,比如文本中每个词与其他词的重要性;跨注意力则让一条模态的信息(如文本)在对另一条模态(如图像的特征序列)进行解码或生成时决定“看”哪些图像特征。通过多头注意力(multi‑head attention),模型能在不同的子空间同时学习多种对齐方式,从而捕捉更复杂、更细粒度的关联。
注意力机制发挥作用的前提是多模态具备高维度, 在高维度空间中, 精密的注意力机制能在最短时间里从海量高维度空间中找到最核心的部分. 在解释为什么注意力机制需要被放在高维度空间中才能施展作用前, 我们先了解以 Transformer 解码器为代表Web2 AI 在设计注意力机制时的流程. 核心思想是在处理序列(文字、图像 patch、音频帧)时,模型给每个元素动态分配“注意力权重”,让它聚焦最相关的信息,而不是盲目平等对待。
简单来说, 如果把注意力机制比作一台车,设计 Query‑Key‑Value 就是设计发动机. Q-K-V 是帮助我们确定关键信息的机制, Query 指查询(“我要找什么”), Key 指索引(“我有什么标签”), Value 指内容(“这里有什么内容”). 对于多模态模型来说, 你输入给模型的内容可能是一句话,可能是一张图片,也可能是一段音频. 为了在维度空间中检索我们需要的内容, 这些输入会被切割成最小单位, 如一个字符、 一定像素大小的小块或者一段音频帧, 多模态模型会给这些最小单位生成 Query、Key、Value,来进行注意力计算。 当模型处理某个位置时,它会用这一位置的 Query 去对比所有位置的 Key,判断哪些标签与当前需求最匹配,然后根据匹配程度,从对应的位置把 Value 抽取出来并按重要性加权组合,最终得到一个既包含自身信息又融入了全局相关内容的新表示。这样,每一个输出都能根据上下文动态“提问—检索—整合”,实现高效而精准的信息聚焦。
在此发动机的基础上,增添各种零件, 巧妙地把“全局交互”与“可控复杂度”结合起来:缩放点积保障数值稳定,多头并行丰富表达,位置编码保留序列顺序,稀疏变体兼顾效率,残差与归一化助力稳定训练,交叉注意力打通多模态。这些模块化又层层递进的设计,使得 Web2 AI 在处理各种序列与多模态任务时,既拥有强大的学习能力,又能在可承受的算力范围内高效运行。
为什么基于模块化的Web3 AI 不能实现统一的注意力调度? 首先, 注意力机制依赖于统一的 Query–Key–Value 空间,所有输入特征都要被映射到同一个高维向量空间,才能通过点积计算动态权重。而独立 API 各自返回不同格式、不同分布的数据——价格、订单状态、阈值报警——没有统一的嵌入层,根本无法形成一组可交互的 Q/K/V。 其次, 多头注意力允许在同一层同时并行关注不同信息源,然后聚合结果;而独立 API 常常是“先调用 A,再调用 B,再调用 C”,每一步的输出只是下一个模块的输入,缺少并行、多路动态加权的能力,自然无法模拟 注意力机制 中那种同时对所有位置或所有模态打分、再综合的精细调度。最后, 真正的注意力机制会基于整体上下文为每个元素动态分配权重;API 模式下,模块只能看到自己被调用时“独立的”上下文,彼此之间没有实时共享的中枢上下文,也就无法实现跨模块的全局关联和聚焦。
因此,仅靠将各类功能封装成离散的 API——没有共同的向量表示、没有并行加权与聚合,就无法构建出像 Transformer 那样的“统一注意力调度”能力, 就如同一辆发动机性能低下的车无论怎样改装都难以提高上限.
离散型的模块化拼凑,导致特征融合停留在浅显的静态拼接
“特征融合”则是在对齐和注意力的基础上,将不同模态处理后得到的特征向量进行进一步组合,以供下游任务(分类、检索、生成等)直接使用。融合手段可以简单到拼接、加权求和,也可以复杂到双线性池化、张量分解甚至动态路由技术。更高阶的方法则是在多层网络中交替进行对齐、注意力和融合,或者通过图神经网络(GNN)在跨模态特征之间建立更灵活的消息传递路径,以实现信息的深度交互。
自不必说, Web3 AI 当然是停留在最简单的拼接的阶段, 因为动态特征融合的前提是高维空间以及精密的注意力机制, 当前提条件无法具备时, 自然最后阶段的特征融合也无法做到性能出色.
Web2 AI 倾向于端到端联合训练:在同一个高维空间中同时处理图像、文本、音频等所有模态特征,通过注意力层和融合层与下游任务层一起协同优化,模型在前向与反向传播中自动学习最优的融合权重和交互方式;而 Web3 AI 则更多采用离散模块拼接的做法,将图像识别、行情抓取、风险评估等各类 API 封装为独立 Agent,再把它们各自输出的标签、数值或阈值报警简单拼凑,由主线逻辑或人工进行综合决策,这种方式既缺乏统一的训练目标,也没有跨模块的梯度流动。
在 Web2 AI 中,系统依托注意力机制,能够根据上下文实时计算各类特征的重要性分数,并动态调整融合策略;多头注意力还可在同一层面并行捕捉多种不同的特征交互模式,从而兼顾局部细节与全局语义。而 Web3 AI 则常常事先固定好“图像× 0.5 + 文本× 0.3 + 价格× 0.2 ”这样的权重,或用简单的 if/else 规则来判断是否融合,要么根本不做融合,只把各模块输出一并呈现,缺乏灵活性。
Web2 AI 将所有模态特征映射到数千维的高维空间,融合过程不仅是向量拼接,还包括加法、双线性池化等多种高阶交互操作——每一维都有可能对应某种潜在语义,使模型能够捕捉深层次、复杂的跨模态关联。相比之下,Web3 AI 的各 Agent 输出往往仅含几个关键字段或指标,特征维度极低,几乎无法表达诸如“图像内容与文本含义为何匹配”或“价格波动与情感走势的微妙关联”这类细腻信息。
在 Web2 AI 中,下游任务的损失会通过注意力层和融合层不断回传到模型各部分,自动调整哪些特征应当被强化或抑制,形成闭环优化。反观 Web3 AI,其 API 调用结果上报后多仰赖人工或外部流程来评估和调参,缺少自动化的端到端反馈,导致融合策略难以在线迭代和优化。
AI 行业的壁垒正在加深,但是痛点还未出现
正因为要在端到端的训练中同时兼顾跨模态对齐、精密的注意力计算和高维特征融合,Web2 AI 的多模态系统往往是一个极其庞大的工程项目。它不仅需要海量、多样化且精标注的跨模态数据集,还得投入数以千计的 GPU 数周乃至数月的训练时间;在模型架构上,融合了各种最新的网络设计理念和优化技术;在工程实现上,还要搭建可扩展的分布式训练平台、监控系统、模型版本管理与部署流水线;在算法研发上,需要持续研究更高效的注意力变体、更鲁棒的对齐损失以及更轻量的融合策略。这样全链路、全栈式的系统性工作,对资金、数据、算力、人才乃至组织协同的要求都极高,因此构成了极强的行业壁垒,也造就了截至目前少数领先团队所掌握的核心竞争力。
我在 4 月回顾中文 AI 应用, 并对比WEB3 ai 时提到一个观点:在壁垒很强的产业上,Crypto 有可能实现突破,意思某些产业在传统市场中已经非常成熟,但是又出现巨大的痛点,成熟度高意味着有充分的用户熟悉类似商业模式,痛点大意味着用户愿意尝试新的解决方案,即对 Crypto 的接受意愿强,二者缺一不可,即反过来说,如果不是在传统市场中已经非常成熟,但是又出现巨大的痛点的产业,Crypto 无法在其中扎根,不会有生存空间,用户愿意充分了解它的意愿很低,对于它的潜在上限不了解。
WEB3 AI 或者任何打着 PMF 旗号的 Crypto 产品都需要以农村包围城市的战术去发展,应该在边缘阵地小规模试水, 确保基础牢固后, 再等待核心场景也就是目标城市的出现.Web3 AI 的核心在于去中心化,其演进路径体现为高并行、低耦合及异构算力的兼容性。**这使得Web3 AI 在边缘计算等场景中更具优势,适用于轻量化结构、易并行且可激励的任务,例如 LoRA 微调、行为对齐的后训练任务、众包数据训练与标注、小型基础模型训练,以及边缘设备协同训练等。这些场景的产品架构轻巧,路线图可灵活迭代。但是这并不是说机会在现在, 因为WEB2 AI 的壁垒才刚开始形成的初期, Deepseek 的出现反而激发了多模态复杂任务 AI 的进步, 这是头部企业的竞争, 是WEB2 AI 红利出现的早期阶段, 我认为只有当WEB2 AI 的红利消失殆尽时, 它遗留下来的痛点才是WEB3 AI 切入的机会, 正如当初诞生的 DeFi, 而在时间点到来之前, WEB3 AI 的自创痛点还会层出不穷的进入市场, 我们需要仔细辨别其中具有“农村包围城市”的协议, 是否从边缘切入, 先在力量薄弱、市场扎根场景少的乡村(或小市场、小场景)站稳脚跟,逐步积累资源和经验;是否点面结合、环形推进, 能够在一个足够小的应用场景里不断迭代, 更新产品, 如果这都无法做到, 那么想在此基础上依靠 PMF 实现 10 亿美元市值难于登天, 这类项目也不会在关注列表中; 是否可以打持久战与灵活机动, WEB2 AI 的潜在壁垒在动态变化, 与之对应的潜在痛点也在进化, 我们需要关注WEB3 AI 协议是否需有充分的灵活性, 对于不同场景可以灵活转身, 能在农村之间快速移动, 以最快速度向目标城市靠拢, 如果协议本身过于吃基建, 网络架构庞大, 那么可能被淘汰的可能性很大.
关于 Movemaker
Movemaker 是由 Aptos 基金会授权,经 Ankaa 和 BlockBooster 联合发起的首个官方社区组织,专注于推动 Aptos 华语区生态的建设与发展。作为 Aptos 在华语区的官方代表,Movemaker 致力于通过连接开发者、用户、资本及众多生态合作伙伴,打造一个多元、开放、繁荣的 Aptos 生态系统。
免责声明:
本文/博客仅供参考,代表作者的个人观点,并不代表 Movemaker 的立场。本文无意提供:(i) 投资建议或投资推荐;(ii) 购买、出售或持有数字资产的要约或招揽;或 (iii) 财务、会计、法律或税务建议。持有数字资产,包括稳定币和 NFT,风险极高,价格波动较大,甚至可能变得一文不值。您应根据自身的财务状况,仔细考虑交易或持有数字资产是否适合您。如有具体情况方面的问题,请咨询您的法律、税务或投资顾问。本文中提供的信息(包括市场数据和统计信息,若有)仅供一般参考。在编写这些数据和图表时已尽合理注意,但对其中所表达的任何事实性错误或遗漏概不负责。