돌아가기 AI는 오픈 소스입니다.
GLM-4.5 오픈 소스 슬라임: 효율적인 RL 훈련 프레임워크에 대한 포괄적인 분석

GLM-4.5 오픈 소스 슬라임: 효율적인 RL 훈련 프레임워크에 대한 포괄적인 분석

AI는 오픈 소스입니다. Admin 13 회 조회

GLM-4.5, 대규모 모델 최적화를 돕기 위한 완전 오픈 소스인 효율적인 RL 훈련 프레임워크 슬라임 출시

칭화대학교 지식공학연구소(THUDM)는 GLM-4.5 시리즈 모델 출시와 함께 자체 개발한 효율적인 강화 학습(RL) 훈련 프레임워크 슬라임을 공식적으로 오픈 소스로 출시했습니다. 이 프레임워크는 대규모 모델의 훈련 후 최적화를 위해 설계되었으며, 추론 및 데이터 생성의 효율성을 크게 향상시키면서 훈련 효과를 보장하는 것을 목표로 합니다.


1. 기본 통합 SGLang 추론 최적화

슬라임은 설계 초기부터 기본 SGLang 통합으로 구축되어 SGLang의 추론 최적화 기능을 훈련 프로세스에 직접 도입합니다. 이 접근 방식은 훈련과 추론 사이의 전환 오버헤드를 줄일 뿐만 아니라 추론 엔진의 병렬 및 캐싱 특성을 최대한 활용하여 데이터 생성 및 훈련의 전체 프로세스 속도를 높입니다.


2. 동기식 및 비동기식 훈련 아키텍처 지원

기존 RLHF(인간 피드백 기반 강화 학습) 훈련에서 데이터 생성 속도는 동기 모드에서 단일 노드의 대기 시간에 영향을 받는 경우가 많습니다. 슬라임은 아키텍처 수준에서 훈련 엔진을 환경 샘플링 엔진과 분리하여 효율적인 동기 모드에서 실행하거나 비동기 모드로 유연하게 전환할 수 있도록 하여 롤아웃 단계에서 성능 병목 현상을 방지하고 GPU 활용도를 향상시킵니다.


3. 혼합 정밀도 컴퓨팅으로 성능과 안정성 향상

:

Slime은 롤아웃 생성 단계에서 FP8(8비트 부동 소수점) 계산을 사용하여 메모리 사용량을 줄이고 컴퓨팅 속도를 향상시킵니다. 모델 훈련 단계에서는 훈련의 안정성과 수렴 효과를 보장하기 위해 BF16(16비트 부동 소수점) 정확도가 유지됩니다. 이 혼합 정확도 전략은 성능을 고려하면서 모델의 최종 출력 품질을 보장합니다.


4. 분산 설계: Megatron과 긴밀하게 통합

됨:

슬라임은 Megatron 분산 훈련 아키텍처를 기반으로 구축되었으며 SGLang과 원활하게 통합되어 분산 훈련의 확장성을 보장하는 동시에 추론 및 훈련 프로세스가 최적화 결과를 공유할 수 있도록 합니다. 이러한 긴밀하게 통합된 설계로 인해 슬라임은 GLM-4.5와 호환될 뿐만 아니라 다른 대규모 언어 모델 간에 빠르게 마이그레이션할 수 있는 잠재력도 있습니다.


5. 오픈 소스 및 커뮤니티 공동 구축

현재

슬라임은 GitHub에서 완전히 오픈 소스로 제공되어 교육 스크립트, 비동기 샘플 코드 및 자세한 문서를 제공합니다. 개발자는 프레임워크를 직접 재사용하거나 그 위에 보조 프레임워크를 개발하여 자신의 작업에 적응하는 RL 교육 프로세스를 구축할 수 있습니다. 이 이니셔티브는 학계와 산업계의 대규모 모델 최적화를 위한 효율적이고 유연한 기본 도구를 제공합니다.


자세한 내용은 공식 웹사이트를 참조하세요: https://github.com/THUDM/slime

추천 도구

더보기