GLM-4.5 が大規模モデル最適化を支援する効率的な RL トレーニング フレームワーク スライムを完全オープンソースで発売
清華大学知識工学研究所 (THUDM) は、GLM-4.5 シリーズのモデルのリリースにより、自社開発の効率的な強化学習 (RL) トレーニング フレームワーク スライムを正式にオープンソース化しました。 このフレームワークは、大規模モデルのトレーニング後の最適化を目的として設計されており、トレーニングの有効性を確保しながら推論とデータ生成の効率を大幅に向上させることを目指しています。
1. ネイティブ統合: SGLang 推論最適化
スライムは、設計の最初からネイティブの SGLang 統合で構築されており、SGLang の推論最適化機能をトレーニング プロセスに直接導入します。 このアプローチは、トレーニングと推論の間の切り替えオーバーヘッドを削減するだけでなく、推論エンジンの並列およびキャッシュ特性を最大限に活用し、データ生成とトレーニングのプロセス全体を高速化します。
2. 同期および非同期トレーニング アーキテクチャのサポート
従来のRLHF (人間のフィードバックに基づく強化学習) トレーニングでは、データ生成速度は同期モードでの単一ノードの遅延の影響を受けることがよくあります。 Slime は、アーキテクチャ レベルでトレーニング エンジンを環境サンプリング エンジンから分離し、効率的な同期モードで実行したり、非同期モードに柔軟に切り替えたりできるようにすることで、ロールアウト段階でのパフォーマンスのボトルネックを回避し、GPU 使用率を向上させます。
3. 混合精度コンピューティングによりパフォーマンスと安定性が向上
Slime は、ロールアウト生成段階で FP8 (8 ビット浮動小数点) 計算を使用して、メモリ使用量を削減し、計算速度を向上させます。 モデルのトレーニング段階では、トレーニングの安定性と収束効果を確保するために、BF16 (16 ビット浮動小数点) の精度が維持されます。 この混合精度戦略により、パフォーマンスを考慮しながらモデルの最終出力の品質が保証されます。
4. 分散設計: Megatron と深く統合
:slime は Megatron 分散トレーニング アーキテクチャ上に構築され、SGLang とシームレスに統合して、分散トレーニングのスケーラビリティを確保しながら、推論とトレーニング プロセスで最適化結果を共有できるようにします。 この深く統合された設計により、slime は GLM-4.5 と互換性があるだけでなく、他の大規模言語モデル間で迅速に移行できる可能性も秘めています。
5. オープンソースとコミュニティの共同構築
現在、slime は GitHub で完全にオープンソース化されており、トレーニング スクリプト、非同期サンプル コード、および詳細なドキュメントを提供しています。 開発者は、フレームワークを直接再利用することも、その上にセカンダリを開発して、自分のタスクに適応する RL トレーニング プロセスを構築することもできます。 このイニシアチブは、学界や産業界における大規模モデル最適化のための効率的で柔軟な基本ツールを提供します。
詳細については、公式ウェブサイトを参照してください:https://github.com/THUDM/slime