返回Ai开源
GLM-4.5 开源 slime:高效 RL 训练框架全面解析

GLM-4.5 开源 slime:高效 RL 训练框架全面解析

Ai开源 Admin 13 次浏览

GLM-4.5 推出高效 RL 训练框架 slime,全面开源助力大规模模型优化

清华大学知识工程实验室(THUDM)在发布 GLM-4.5 系列模型的同时,正式开源了自主研发的高效强化学习(RL)训练框架 slime。该框架专为大规模模型的后训练优化设计,目标是在保证训练效果的前提下,大幅提升推理与数据生成的效率。


一、原生集成 SGLang 推理优化

slime 在设计之初便采用原生 SGLang 集成构建,将 SGLang 的推理优化能力直接引入训练过程。这种方式不仅减少了训练与推理之间的切换开销,还能充分利用推理引擎的并行与缓存特性,加快数据生成与训练的整体流程。


二、支持同步与异步训练架构

传统 RLHF(基于人类反馈的强化学习)训练在同步模式下,数据生成速度往往受到单一节点延迟的影响。slime 在架构层面实现了训练引擎与环境采样引擎的分离,使其既可以运行在高效的同步模式,也可以灵活切换到异步模式,从而避免 rollouts 阶段的性能瓶颈,提升 GPU 利用率。


三、混精度计算提升性能与稳定性

slime 在 rollouts 生成阶段采用 FP8(8 位浮点)计算,以降低显存占用并提升计算速度;而在模型训练阶段则保持 BF16(16 位浮点)精度,确保训练的稳定性与收敛效果。这种混精度策略在兼顾性能的同时,保证了模型最终输出的质量。


四、与 Megatron 深度融合的分布式设计

slime 基于 Megatron 分布式训练架构构建,并与 SGLang 无缝结合,在保证分布式训练扩展性的同时,让推理与训练过程能够共享优化成果。这种深度融合的设计,使得 slime 不仅适配 GLM-4.5,也具备在其他大型语言模型中快速迁移的潜力。


五、开源与社区共建

目前,slime 已在 GitHub 全面开源,提供了训练脚本、异步样例代码及详细文档。开发者可以直接复用框架,或在其基础上进行二次开发,构建适配自身任务的 RL 训练流程。这一举措为学术界与工业界的大模型优化提供了高效且灵活的基础工具。


详见官网:https://github.com/THUDM/slime

推荐工具

更多