Z.ai offiziell das Open-Source-Modell für visuelle Sprache GLM-4.5V angekündigt. Das Modell ist führend unter den Open-Source-Modellen seiner Größe, deckt 40+ öffentliche Benchmarks ab und konzentriert sich auf multimodale visuelle Denkfähigkeiten. Der GLM-4.5V basiert auf der GLM-4.5-Air-Basis und verwendet eine 106B-Parameter-MoE-Architektur (Expert Hybrid), die den "denkenden" technischen Weg des GLM-4.1V-Thinking fortsetzt und Online-Erfahrung und API-Zugang bietet.
1. Modellpositionierung und technische Route
- Open-Source-VLM für allgemeines visuelles Denken und multimodale Agenten.
- Basierend auf dem GLM-4.5-Air betragen die gesamten MoE-Parameter etwa 106 B und die aktiven Parameter etwa 12 B.
- Einführung des "Think/Fast Mode"-Switchings: flexibler Kompromiss zwischen tiefer Inferenz und Antwortlatenz.
- Nutzen Sie weiterhin das skalierbare Reinforcement Learning- und Reasoning-Paradigma von GLM-4.1V-Thinking.
2. Umfang der Fähigkeiten und typische Aufgaben
- Bildverständnis und Multi-Image-Reasoning: Szenenverständnis, Cross-Graph-Ausrichtung und Inferenz räumlicher Beziehungen.
- Videoverständnis: Segmentierung langer Videos, Ereigniserkennung, zeitindizierte Erklärung.
- Dokumente und Tabellen: Lesen langer Dokumente, OCR, Tabellenextraktion, Diagrammanalyse.
- GUI/Agent-Szenario: Operationsplanung wie Bildschirmlesen, Elementpositionierung, Klicken/Wischen usw.
- Grounding: Präzises Targeting und Layout-Verständnis.
3. Benchmark-Leistung und Skalenpositionierung
- Beamte sagen, dass das Unternehmen eine führende Position bei Open-Source-Modellen derselben Größe erreicht hat, die 41 bis 42 öffentliche Benchmarks abdeckt.
- Zu den Schlüsselindikatoren gehören Bild-Q&A, Videoverständnis, OCR/DocVQA, Diagramm-Q&A, räumliches und Frontend-Verständnis usw.
- Ziel ist es, ein Gleichgewicht zwischen "reproduzierbarer Verifikation + technischer Benutzerfreundlichkeit" zu finden, anstatt nur Bewertungen hinterherzujagen.
4. Offene Form und Verwendung
- Open-Source-Gewichte und Modellkarten: Stellen Sie Standard- und FP8-Varianten für eine einfache Inferenz und Bereitstellung bereit.
- Code und Evaluierung: Öffnen Sie Repositorys und Beispiele, um Transformers einen schnellen Einstieg zu ermöglichen.
- Online-Erlebnis und API: Bietet Web-Konversationen und offizielle Plattform-APIs, die multimodale Eingaben unterstützen.
- Lizenzierung und Ökologie: Open-Source-Lizenzen werden übernommen; Unterstützung von Evaluierungs-Repositories, Demo-Spaces und Community-Diskussionsforen.
5. Implementierungsvorschläge (technische Perspektive)
- Ressourcenplanung: Es wird empfohlen, Online-API/FP8-Pilotprojekte für die Bereitstellung großer MoE-Modelle zu verwenden und dann lokale Multi-Cards zu evaluieren.
- Auswertung und Kalibrierung: A/B mit eigenen Proben, wobei der Schwerpunkt auf der Robustheit und Analysegenauigkeit langer Dokumente liegt.
- Sicherheit und Compliance: Fügen Sie Desensibilisierungs-, Redlining- und Datenverfolgungsrichtlinien für OCR-/Dokumentszenarien hinzu.
- Beobachtung und Wiedergabe: Zeichnen Sie Eingaben, Ausgaben und Denkverläufe (falls vorhanden) auf, um eine einfache Retrospektive und kontinuierliche Optimierung zu ermöglichen.
- Kombinatorisches Paradigma: Kombinieren Sie mit Abruf-/Tool-Aufrufen, um durchgängige multimodale Agenten-Workflows zu erstellen.
Häufig gestellte Fragen F
: Ist der GLM-4.5V Open Source? Was ist die Lizenz?
A: Es handelt sich um ein Open-Source-Modell, und die Modellkarte ist als vom MIT lizenziert gekennzeichnet.
F: Welche Modalitäten werden unterstützt?
A: Unterstützt die Eingabe von Bildern, Videos, Text und Dateien; Die Ausgabe ist Text und kann von strukturierten Informationen wie Koordinaten des Begrenzungsrahmens begleitet werden.
F: Wie kann man es schnell erleben?
A: Sie können die offizielle Website direkt für Online-Konversationen verwenden. Sie können es auch über die offizielle API oder die Hugging Face-Demo erleben.
F: Wie fange ich mit der lokalen Argumentation an?
A: Transformers-Beispiele und Argumentationsskripte werden offiziell zur Verfügung gestellt; Eine FP8-Variante ist ebenfalls verfügbar, um den Speicherdruck zu reduzieren. Produktionsumgebungen können zuerst die API durchlaufen und dann die Kosten für das Self-Hosting bewerten.
F: Beziehung zum GLM-4.1V-Thinking?
A: Übernehmen Sie die "denkenden" Trainings- und Argumentationsideen und skalieren Sie effektiv auf einer größeren MoE-Architektur.
Umarmendes Gesicht (GLM-4.5V Modellkarte)
https://huggingface.co/zai-org/GLM-4.5V
GitHub (GLM-4.5 Series & Dock Description)
< a href="https://github.com/zai-org/GLM-4.5" rel="noopener noreferrer" target="_blank">https://github.com/zai-org/GLM-4.5
Online-Erfahrung (Chat)<
a href="https://chat.z.ai" rel="noopener noreferrer" target="_blank">https://chat.z.ai