告别“算力孤岛”：AI 训练正从中心化枷锁中突围

作者： Egor Shulgin | Gonka协议联合创始人，前Apple及Samsung AI算法工程师

多年来，最强大的 AI 系统一直被囚禁在密闭的“黑盒”之中——那些由少数科技巨头掌控、规模宏大的数据中心。在这些设施里，数以万计的 GPU 被塞进同一个物理空间，通过极速的内部网络紧密连接，使大模型能够在高度同步的系统下完成训练。

这种模式长期以来被视为技术上的“必然”。然而，现实正日益清晰：中心化数据中心不仅成本高昂、风险集中，且正在触及物理极限。大语言模型的增长速度呈指数级爆发，仅仅几个月前训练出的系统就已显得过时。现在的问题不再仅仅是“权力是否过于集中”，而是中心化基础设施在物理层面，是否还跟得上 AI 进化的步频。

繁荣背后的阴影：中心化的“物理天花板”

当今的最尖端模型已经榨干了顶级数据中心的每一分潜力。想要训练一个更强大的模型，往往意味着必须平地起一座新的机房，或者对现有设施进行推倒重来式的升级。与此同时，同址办公（Co-located）的数据中心正面临电力密度的极限——大量的能源并非消耗在计算上，而是浪费在了为了让这些硅片不被烧毁的散热系统中。结果显而易见：顶尖 AI 模型的训练能力被锁死在极少数公司手中，且高度集中于美、中两国。

这种中心化不仅是工程难题，更是战略隐患。AI 能力的获取正受到地缘政治、出口管制、能源配给和公司利益的重重限制。当 AI 成为经济生产力、科学研究乃至国家竞争力的基石时，对极少数中心化枢纽的依赖，正将基础设施变成最脆弱的“软肋”。

但如果这种垄断并非不可避免，而仅仅是我们现行训练算法的“副作用”呢？

被忽略的通信瓶颈：中心化训练的隐性限制

现代 AI 模型由于体量巨大，已无法在单一机器上训练。拥有千亿参数的基础模型需要无数 GPU 并行工作，且每隔几秒钟就要同步一次进度，在整个训练周期内这种同步高达数百万次。

行业的默认方案是“同址训练”：将成千上万的 GPU 堆在一起，用特制的昂贵网络硬件连接。这种网络确保了每个处理器都能实时对齐，保证模型副本在训练中完美同步。

这一方案效果显著，但前提极度苛刻：它要求极速内网、物理近距离、极稳定的电力供应以及中心化的运营控制。一旦训练需求跨越物理边界——跨城市、跨国境、跨洲际——系统就会分崩离析。普通互联网的连接速度比数据中心内网慢几个数量级。在现行算法下，高性能 GPU 大部分时间都在“待机”等待同步信号。据估算，若用标准互联网连接训练现代大模型，训练周期将从“月”拉长至“世纪”。这就是为什么过去这种尝试几乎被视为异想天开。

范式转移：当“减少通信”成为核心算法

传统训练模式的核心假设是：机器必须在学习的每一个微小步骤后进行交流。

幸运的是，一种名为“联邦学习”（Federated Learning）的技术从意外的方向带来了转机。它引入了一个极具颠覆性的想法：机器并不需要时刻交流。它们可以独立工作更长时间，仅偶尔同步一次。

这一洞察演变成了一套更广泛的技术，即“联邦优化”。其中，“低通信频率”方案脱颖而出。通过允许在两次同步之间进行更多的本地计算，它使得在跨地域、低带宽的分布式网络上训练模型成为可能。

DiLoCo：全球化分布式训练的曙光

这种技术飞跃在 DiLoCo（分布式低通信训练）的研发中得到了具象化。

DiLoCo 不再强求实时同步，而是允许每台机器长时间进行本地训练，然后再分享更新。实验结果令人振奋：使用 DiLoCo 训练的模型，其性能足以媲美传统的高度同步模式，但通信需求却降低了数百倍。

至关重要的一点是，这使得在受控数据中心之外进行训练变得可行。开源实现已经证明，大语言模型可以通过标准互联网连接，在点对点（P2P）环境下完成训练，完全脱离了对中心化基础设施的依赖。

这种源自 DeepMind 研究员的灵感，已被 Prime Intellect 等机构采纳，用于训练数十亿参数规模的模型。曾经的研究构想正演变为构建顶级 AI 系统的务实路径。

行业变局：算力权力的再分配

这场从“中心化”到“分布式”的转向，其意义远超效率提升。

如果大模型可以在互联网上训练，AI 开发将不再是豪门的特许权。算力可以从世界各地贡献，由不同的参与者在多样化的环境下提供。这意味着：

跨国界与跨机构的大协作成为可能；
降低对少数基础设施供应商的依赖；
增强面对地缘政治和供应链波动的韧性；
更广泛的人群能够参与到 AI 基础技术的构建中。

在这个新模型下，AI 的权力重心正从“谁拥有最大的机房”转向“谁能最有效地协同全球算力”。

构建开放且可验证的 AI 基础设施

随着训练走向分布式，新的挑战也随之而来：信任与验证。在开放网络中，我们必须确保算力贡献是真实的，且模型未被恶意篡改。

这催生了对密码学验证方法的浓厚兴趣。一些新兴的基础设施项目正在将这些构想付诸实践。例如 Gonka ——一个专为 AI 推理、训练和验证设计的去中心化网络。Gonka 不依赖中心化中心，而是协同独立参与者的算力，通过算法校验确保贡献的真实与可靠。

这种网络完美契合了“低通信训练”的内核：减少对高速私人基建的依赖，强调效率、开放与韧性。在这种语境下，去中心化不再是一个意识形态标签，而是一个工程层面的必然结果——因为算法不再需要时刻同步。

另一条出路

AI 训练的历史一直受制于通信的物理极限。多年来，进步取决于机器之间物理距离的缩短。

但最新的研究告诉我们，这并非唯一的路。通过改变机器的协同方式——沟通更少，而非更多——我们完全可以在全球互联网上培育出强大的模型。

随着算法的演进，AI 的未来也许不再取决于算力位于何处，而取决于它们如何智慧地相连。这一转变将使 AI 开发变得更开放、更具韧性，并最终摆脱中心化的枷锁。