GLM-4.5オープンソーススライム:効率的なRLトレーニングフレームワークの包括的な分析

GLM-4.5 が大規模モデル最適化を支援する効率的な RL トレーニングフレームワークスライムを完全オープンソースで発売

清

華大学知識工学研究所 (THUDM) は、GLM-4.5 シリーズのモデルのリリースにより、自社開発の効率的な強化学習 (RL) トレーニングフレームワークスライムを正式にオープンソース化しました。このフレームワークは、大規模モデルのトレーニング後の最適化を目的として設計されており、トレーニングの有効性を確保しながら推論とデータ生成の効率を大幅に向上させることを目指しています。

1. ネイティブ統合: SGLang 推論最適化

ス

ライムは、設計の最初からネイティブの SGLang 統合で構築されており、SGLang の推論最適化機能をトレーニングプロセスに直接導入します。このアプローチは、トレーニングと推論の間の切り替えオーバーヘッドを削減するだけでなく、推論エンジンの並列およびキャッシュ特性を最大限に活用し、データ生成とトレーニングのプロセス全体を高速化します。

2. 同期および非同期トレーニングアーキテクチャのサポート

従来の

RLHF (人間のフィードバックに基づく強化学習) トレーニングでは、データ生成速度は同期モードでの単一ノードの遅延の影響を受けることがよくあります。 Slime は、アーキテクチャレベルでトレーニングエンジンを環境サンプリングエンジンから分離し、効率的な同期モードで実行したり、非同期モードに柔軟に切り替えたりできるようにすることで、ロールアウト段階でのパフォーマンスのボトルネックを回避し、GPU 使用率を向上させます。

3. 混合精度コンピューティングによりパフォーマンスと安定性が向上

Slime は、ロールアウト生成段階で FP8 (8 ビット浮動小数点) 計算を使用して、メモリ使用量を削減し、計算速度を向上させます。モデルのトレーニング段階では、トレーニングの安定性と収束効果を確保するために、BF16 (16 ビット浮動小数点) の精度が維持されます。この混合精度戦略により、パフォーマンスを考慮しながらモデルの最終出力の品質が保証されます。

4. 分散設計: Megatron と深く統合

slime は Megatron 分散トレーニングアーキテクチャ上に構築され、SGLang とシームレスに統合して、分散トレーニングのスケーラビリティを確保しながら、推論とトレーニングプロセスで最適化結果を共有できるようにします。この深く統合された設計により、slime は GLM-4.5 と互換性があるだけでなく、他の大規模言語モデル間で迅速に移行できる可能性も秘めています。

5. オープンソースとコミュニティの共同構築

現在

、slime は GitHub で完全にオープンソース化されており、トレーニングスクリプト、非同期サンプルコード、および詳細なドキュメントを提供しています。開発者は、フレームワークを直接再利用することも、その上にセカンダリを開発して、自分のタスクに適応する RL トレーニングプロセスを構築することもできます。このイニシアチブは、学界や産業界における大規模モデル最適化のための効率的で柔軟な基本ツールを提供します。

詳細については、公式ウェブサイトを参照してください:https://github.com/THUDM/slime