mt logoMyToken
ETH Gas
EN

Gradient 发布分布式 RL 框架 Echo-2,提升AI科研效率超10倍

Favoritecollect
Shareshare

从 OpenAI o1 到 DeepSeek-R1,强化学习(RL)已取代单纯的数据堆砌,成为赋予大模型推理与自我验证能力的核心引擎。然而,RL 训练极其昂贵的试错成本,正在成为提升AI 研究迭代速度的一大阻碍。当前,对一个 30B 规模的模型进行一次后训练往往需要数千美元,而对 600B 级别的大模型进行一次完整的后训练,成本则至少在 10 万美元以上。更重要的是,在真实的研究过程中,几十到上百次不同规模的后训练是非常常见的。这迫使在研究团队中需要在探索与预算之间做抉择。

Gradient 今日正式推出 Echo-2 框架(论文编号 arXiv:2602.02192),旨在通过底层架构的重构,打破这一僵局,解锁 AI 缩放定律的第二曲线。研究表明,Echo-2 能将模型后训练成本降低 10 倍,让研究团队从容试错,在同等预算下拥有超过 10 倍的科研效率。

Echo-2 突破:10.6倍科研效率提升

为了验证 Echo-2 的极限性能,我们在 DAPO-17k 数据集上进行了 Qwen3-30B-A3B 模型的训练基准测试,并与主流云服务商进行了严格对比。

Echo-2 配置:

  • Learner(训练端): 4×H200(保证梯度更新的稳定性)
  • Actors(采样端): 动态编排的分布式、不稳定 H200 算力池
平台 训练时长 训练花费
Fireworks 124 小时 $4,490
Tinker 23.5 小时 $1,122
Echo-2 9.5 小时 $425

实测数据显示,Echo-2 的高效率训练对模型收敛性并无影响。 并且Echo-2 的奖励曲线与价格昂贵的 Fireworks 在统计学上完全重合。这意味着,Echo-2 在利用不可靠、碎片化算力的同时,实现了 零性能损耗 的企业级收敛效果。

技术深潜:解决分布式系统的异构难题

Echo-2 通过解决四大核心工程难题,将分布式 RL 从理论变为生产力工具:

  • **具有“有界陈旧性”的异步 RL:**传统 RL 训练要求“发布策略-等待采样-训练”的严格同步,导致大量算力闲置。Echo-2 解除了这种耦合,允许采样和训练异步进行。通过控制陈旧性(Staleness),Echo-2 可以在保持训练质量的同时,大幅提升系统吞吐量。
  • 三层模块化架构 :Echo-2 将系统解耦为采样层、学习数据层三个独立平面。这意味着切换训练任务(如从数学推理切换到代码生成)只需更改配置,无需重写底层代码。
  • Lattica 通讯协议 :为了解决分布式网络的带宽瓶颈,Echo-2 引入了这种点对点(P2P)神经广播协议。通过将权重分发从线性增长优化为对数级增长,Lattica 在 30B 模型训练中将权重同步的尾延迟从 25 分钟骤降至 14 分钟,解决了分布式网络的“最后一公里”难题。
  • 不稳定实例容错调度 :在实测中,Echo-2 面对云端不稳定实例高达 40% 的突发回收率,通过动态冗余调度策略仍保持了极高的训练稳定性,证明了其在极致成本下的企业级可靠性。

极限压测:拓展 Echo-2 能力边界

为了验证架构的普适性,Gradient 团队进行了更广泛的内部压力测试:

  • 消费级显卡聚合: 在使用 4×A100 作为训练端,分布式 RTX 5090 作为采样端的配置下,Echo-2 在 5 个数学基准测试(如 AIME24, OmniMath)中,以 33-36% 的成本降幅达到了与全 A100 集群一致的分数。
  • Agent 智能体博弈: 除了数学模型,Echo-2 还成功训练了一个 Qwen3-0.6B 的智能体,在无限注德州扑克(No-Limit Texas Hold'em)中击败了更大型的 LLM 对手。这证明了通过 Echo-2,即使是小参数模型,也能利用不可靠算力产出可靠的研究成果。

商业化落地:Logits RLaaS 平台

Echo-2 证明了科研速度不再受限于预算。当单次训练成本从 $4,490 降至 $425,意味着在同样的预算下,研究者可以进行 10 次实验。

基于 Echo-2 框架,Gradient 也还将推出首个 RLaaS(RL 即服务)平台:Logits。

Logits 通过抽象复杂的分布式系统细节,让研究者和企业无需从零搭建基础设施,即可直接调用 Echo-2 架构。值得注意的是,Echo-2 与 Gradient 此前开源的分布式推理引擎 Parallax 深度协同,Logits 平台将直接调用 Parallax 作为 RL 的 Actor,真正实现用模型推理反哺模型进化的闭环生态。

目前,Logits 已面向高校学生和研究人员开放 Early Access 预约。

? 阅读论文: https://arxiv.org/pdf/2602.02192

? Logits Early Access: https://logits.dev

关于 Gradient

Gradient 是一家致力于构建分布式基础设施的AI实验室,专注于前沿大模型的分布式训练、服务与部署。Gradient获得了顶级投资机构支持,正在通过开放高效的基础设施加速未来智能时代的到来。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup