mt logoMyToken
ETH Gas
EN

告别“算力孤岛”:AI 训练正从中心化枷锁中突围

Favoritecollect
Shareshare

作者: Egor Shulgin | Gonka协议联合创始人,前Apple及Samsung AI算法工程师

多年来,最强大的 AI 系统一直被囚禁在密闭的“黑盒”之中——那些由少数科技巨头掌控、规模宏大的数据中心。在这些设施里,数以万计的 GPU 被塞进同一个物理空间,通过极速的内部网络紧密连接,使大模型能够在高度同步的系统下完成训练。

这种模式长期以来被视为技术上的“必然”。然而,现实正日益清晰:中心化数据中心不仅成本高昂、风险集中,且正在触及物理极限。大语言模型的增长速度呈指数级爆发,仅仅几个月前训练出的系统就已显得过时。现在的问题不再仅仅是“权力是否过于集中”,而是中心化基础设施在物理层面,是否还跟得上 AI 进化的步频。

繁荣背后的阴影:中心化的“物理天花板”

当今的最尖端模型已经榨干了顶级数据中心的每一分潜力。想要训练一个更强大的模型,往往意味着必须平地起一座新的机房,或者对现有设施进行推倒重来式的升级。与此同时,同址办公(Co-located)的数据中心正面临电力密度的极限——大量的能源并非消耗在计算上,而是浪费在了为了让这些硅片不被烧毁的散热系统中。结果显而易见:顶尖 AI 模型的训练能力被锁死在极少数公司手中,且高度集中于美、中两国。

这种中心化不仅是工程难题,更是战略隐患。AI 能力的获取正受到地缘政治、出口管制、能源配给和公司利益的重重限制。当 AI 成为经济生产力、科学研究乃至国家竞争力的基石时,对极少数中心化枢纽的依赖,正将基础设施变成最脆弱的“软肋”。

但如果这种垄断并非不可避免,而仅仅是我们现行训练算法的“副作用”呢?

被忽略的通信瓶颈:中心化训练的隐性限制

现代 AI 模型由于体量巨大,已无法在单一机器上训练。拥有千亿参数的基础模型需要无数 GPU 并行工作,且每隔几秒钟就要同步一次进度,在整个训练周期内这种同步高达数百万次。

行业的默认方案是“同址训练”:将成千上万的 GPU 堆在一起,用特制的昂贵网络硬件连接。这种网络确保了每个处理器都能实时对齐,保证模型副本在训练中完美同步。

这一方案效果显著,但前提极度苛刻:它要求极速内网、物理近距离、极稳定的电力供应以及中心化的运营控制。一旦训练需求跨越物理边界——跨城市、跨国境、跨洲际——系统就会分崩离析。普通互联网的连接速度比数据中心内网慢几个数量级。在现行算法下,高性能 GPU 大部分时间都在“待机”等待同步信号。据估算,若用标准互联网连接训练现代大模型,训练周期将从“月”拉长至“世纪”。这就是为什么过去这种尝试几乎被视为异想天开。

范式转移:当“减少通信”成为核心算法

传统训练模式的核心假设是:机器必须在学习的每一个微小步骤后进行交流。

幸运的是,一种名为“联邦学习”(Federated Learning)的技术从意外的方向带来了转机。它引入了一个极具颠覆性的想法:机器并不需要时刻交流。 它们可以独立工作更长时间,仅偶尔同步一次。

这一洞察演变成了一套更广泛的技术,即“联邦优化”。其中,“低通信频率”方案脱颖而出。通过允许在两次同步之间进行更多的本地计算,它使得在跨地域、低带宽的分布式网络上训练模型成为可能。

DiLoCo:全球化分布式训练的曙光

这种技术飞跃在 DiLoCo(分布式低通信训练)的研发中得到了具象化。

DiLoCo 不再强求实时同步,而是允许每台机器长时间进行本地训练,然后再分享更新。实验结果令人振奋:使用 DiLoCo 训练的模型,其性能足以媲美传统的高度同步模式,但通信需求却降低了数百倍。

至关重要的一点是,这使得在受控数据中心之外进行训练变得可行。开源实现已经证明,大语言模型可以通过标准互联网连接,在点对点(P2P)环境下完成训练,完全脱离了对中心化基础设施的依赖。

这种源自 DeepMind 研究员的灵感,已被 Prime Intellect 等机构采纳,用于训练数十亿参数规模的模型。曾经的研究构想正演变为构建顶级 AI 系统的务实路径。

行业变局:算力权力的再分配

这场从“中心化”到“分布式”的转向,其意义远超效率提升。

如果大模型可以在互联网上训练,AI 开发将不再是豪门的特许权。算力可以从世界各地贡献,由不同的参与者在多样化的环境下提供。这意味着:

  • 跨国界与跨机构的大协作成为可能;

  • 降低对少数基础设施供应商的依赖;

  • 增强面对地缘政治和供应链波动的韧性;

  • 更广泛的人群能够参与到 AI 基础技术的构建中。

在这个新模型下,AI 的权力重心正从“谁拥有最大的机房”转向“谁能最有效地协同全球算力”。

构建开放且可验证的 AI 基础设施

随着训练走向分布式,新的挑战也随之而来:信任与验证。在开放网络中,我们必须确保算力贡献是真实的,且模型未被恶意篡改。

这催生了对密码学验证方法的浓厚兴趣。一些新兴的基础设施项目正在将这些构想付诸实践。例如 Gonka ——一个专为 AI 推理、训练和验证设计的去中心化网络。Gonka 不依赖中心化中心,而是协同独立参与者的算力,通过算法校验确保贡献的真实与可靠。

这种网络完美契合了“低通信训练”的内核:减少对高速私人基建的依赖,强调效率、开放与韧性。在这种语境下,去中心化不再是一个意识形态标签,而是一个工程层面的必然结果——因为算法不再需要时刻同步。

另一条出路

AI 训练的历史一直受制于通信的物理极限。多年来,进步取决于机器之间物理距离的缩短。

但最新的研究告诉我们,这并非唯一的路。通过改变机器的协同方式——沟通更少,而非更多——我们完全可以在全球互联网上培育出强大的模型。

随着算法的演进,AI 的未来也许不再取决于算力位于何处,而取决于它们如何智慧地相连。这一转变将使 AI 开发变得更开放、更具韧性,并最终摆脱中心化的枷锁。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup