GLM-4.5 lance un cadre de formation RL efficace, entièrement open source pour aider à l’optimisation des modèles à grande échelle Le
laboratoire d’ingénierie des connaissances de l’Université Tsinghua (THUDM) a officiellement ouvert son cadre de formation d’apprentissage par renforcement efficace (RL) auto-développé avec la sortie de la série de modèles GLM-4.5. Ce cadre est conçu pour l’optimisation post-entraînement de modèles à grande échelle, dans le but d’améliorer considérablement l’efficacité de l’inférence et de la génération de données tout en garantissant l’efficacité de l’entraînement.
1. Intégration native SGLang Inference Optimization
slime est construit avec l’intégration native SGLang dès le début de la conception, introduisant directement les capacités d’optimisation d’inférence de SGLang dans le processus d’entraînement. Cette approche réduit non seulement la surcharge de commutation entre l’entraînement et l’inférence, mais utilise également pleinement les caractéristiques de parallèle et de mise en cache du moteur d’inférence, accélérant ainsi le processus global de génération de données et d’entraînement.
2. Prise en charge de l’architecture d’entraînement synchrone et asynchrone
Dansl’entraînement traditionnel RLHF (apprentissage par renforcement basé sur le retour d’information humain), la vitesse de génération des données est souvent affectée par la latence d’un seul nœud en mode synchrone. Slime sépare le moteur d’entraînement du moteur d’échantillonnage d’environnement au niveau architectural, ce qui lui permet de s’exécuter en mode synchrone efficace ou de passer de manière flexible en mode asynchrone, évitant ainsi les goulets d’étranglement des performances lors de l’étape de déploiements et améliorant l’utilisation du GPU.
3. Le calcul en précision mixte améliore les performances et la stabilité
Slime utilise le calcul FP8 (8 bits à virgule flottante) dans la phase de génération des déploiements pour réduire l’utilisation de la mémoire et améliorer la vitesse de calcul. Dans l’étape d’entraînement du modèle, la précision BF16 (virgule flottante 16 bits) est maintenue pour garantir la stabilité et l’effet de convergence de l’entraînement. Cette stratégie de précision de mixage permet d’assurer la qualité du rendu final du modèle tout en tenant compte des performances.
4. Conception distribuée Profondément intégrée à Megatron
slime est construit sur l’architecture de formation distribuée de Megatron et intégré de manière transparente à SGLang pour garantir l’évolutivité de la formation distribuée tout en permettant aux processus d’inférence et de formation de partager les résultats d’optimisation. Cette conception profondément intégrée rend slime non seulement compatible avec GLM-4.5, mais a également le potentiel de migrer rapidement parmi d’autres grands modèles de langage.
5. Co-construction open source et communautaire
Actuellement, slime est entièrement open source sur GitHub, fournissant des scripts de formation, des exemples de code asynchrones et une documentation détaillée. Les développeurs peuvent réutiliser directement le cadre ou développer un développement secondaire par-dessus celui-ci pour créer un processus de formation RL qui s’adapte à leurs propres tâches. Cette initiative fournit un outil de base efficace et flexible pour l’optimisation de grands modèles dans le milieu universitaire et l’industrie.
Voir le site officiel pour plus de détails : https://github.com/THUDM/slime