戻るAIはオープンソースです
GLM-4.5オープンソーススライム:効率的なRLトレーニングフレームワークの包括的な分析

GLM-4.5オープンソーススライム:効率的なRLトレーニングフレームワークの包括的な分析

AIはオープンソースです Admin 13 回閲覧

GLM-4.5 が大規模モデル最適化を支援する効率的な RL トレーニング フレームワーク スライムを完全オープンソースで発売

華大学知識工学研究所 (THUDM) は、GLM-4.5 シリーズのモデルのリリースにより、自社開発の効率的な強化学習 (RL) トレーニング フレームワーク スライムを正式にオープンソース化しました。 このフレームワークは、大規模モデルのトレーニング後の最適化を目的として設計されており、トレーニングの有効性を確保しながら推論とデータ生成の効率を大幅に向上させることを目指しています。


1. ネイティブ統合: SGLang 推論最適化

ライムは、設計の最初からネイティブの SGLang 統合で構築されており、SGLang の推論最適化機能をトレーニング プロセスに直接導入します。 このアプローチは、トレーニングと推論の間の切り替えオーバーヘッドを削減するだけでなく、推論エンジンの並列およびキャッシュ特性を最大限に活用し、データ生成とトレーニングのプロセス全体を高速化します。


2. 同期および非同期トレーニング アーキテクチャのサポート

従来の

RLHF (人間のフィードバックに基づく強化学習) トレーニングでは、データ生成速度は同期モードでの単一ノードの遅延の影響を受けることがよくあります。 Slime は、アーキテクチャ レベルでトレーニング エンジンを環境サンプリング エンジンから分離し、効率的な同期モードで実行したり、非同期モードに柔軟に切り替えたりできるようにすることで、ロールアウト段階でのパフォーマンスのボトルネックを回避し、GPU 使用率を向上させます。


3. 混合精度コンピューティングによりパフォーマンスと安定性が向上

Slime は、ロールアウト生成段階で FP8 (8 ビット浮動小数点) 計算を使用して、メモリ使用量を削減し、計算速度を向上させます。 モデルのトレーニング段階では、トレーニングの安定性と収束効果を確保するために、BF16 (16 ビット浮動小数点) の精度が維持されます。 この混合精度戦略により、パフォーマンスを考慮しながらモデルの最終出力の品質が保証されます。


4. 分散設計: Megatron と深く統合

:

slime は Megatron 分散トレーニング アーキテクチャ上に構築され、SGLang とシームレスに統合して、分散トレーニングのスケーラビリティを確保しながら、推論とトレーニング プロセスで最適化結果を共有できるようにします。 この深く統合された設計により、slime は GLM-4.5 と互換性があるだけでなく、他の大規模言語モデル間で迅速に移行できる可能性も秘めています。


5. オープンソースとコミュニティの共同構築

現在

、slime は GitHub で完全にオープンソース化されており、トレーニング スクリプト、非同期サンプル コード、および詳細なドキュメントを提供しています。 開発者は、フレームワークを直接再利用することも、その上にセカンダリを開発して、自分のタスクに適応する RL トレーニング プロセスを構築することもできます。 このイニシアチブは、学界や産業界における大規模モデル最適化のための効率的で柔軟な基本ツールを提供します。


詳細については、公式ウェブサイトを参照してください:https://github.com/THUDM/slime

GLM-4.5 効率的なRLトレーニングフレームワークスライム スライムフレームワークオープンソース SGLangネイティブ統合推論最適化 RLHF大規模モデルの学習後最適化 大規模モデルRLの学習効率が向上しました FP8推論BF16トレーニングの混合精度 混合精度計算の安定性とパフォーマンス メガトロンの分散型ディープインテグレーション ロールアウト段階でのパフォーマンスのボトルネックを解消する GPU使用率最適化手法 推論とデータ生成の高速化 トレーニングエンジンは環境サンプリングから分離されます 推論キャッシュの並列処理の使用率 Slimeは同期トレーニングと非同期トレーニングをサポートします Slimeはさまざまな大規模言語モデルと互換性があります GLM-4.5はスライムと相乗的に作用します 非同期RLトレーニングアーキテクチャの実践 同期モードの効率的な最適化 清華THUDMがスライムを発売 オープンソースのトレーニングスクリプトとドキュメント GitHubオープンソースコミュニティの共同構築 大規模モデルの推論とトレーニングの統合 RLHF トレーニングのベスト プラクティス RLトレーニングにおけるSGLangの応用 メガトロンの並列トレーニングプロトコル トレーニング パイプラインは、大規模なモデルの後に構築されます データの生成とトレーニングは終了しています スライムフレームワークの高速移行機能 大規模モデル最適化ツールの推奨事項 効率的なRLトレーニングフレームワークの比較

おすすめツール

もっと見る