Zurück zu KI ist Open Source
GLM-4.5V veröffentlicht: Open-Source-Visual Reasoning tritt in die Ära des "Denkens" der Multimodalität ein

GLM-4.5V veröffentlicht: Open-Source-Visual Reasoning tritt in die Ära des "Denkens" der Multimodalität ein

KI ist Open Source Admin 4 Aufrufe

Z.ai offiziell das Open-Source-Modell für visuelle Sprache GLM-4.5V angekündigt. Das Modell ist führend unter den Open-Source-Modellen seiner Größe, deckt 40+ öffentliche Benchmarks ab und konzentriert sich auf multimodale visuelle Denkfähigkeiten. Der GLM-4.5V basiert auf der GLM-4.5-Air-Basis und verwendet eine 106B-Parameter-MoE-Architektur (Expert Hybrid), die den "denkenden" technischen Weg des GLM-4.1V-Thinking fortsetzt und Online-Erfahrung und API-Zugang bietet.


1. Modellpositionierung und technische Route

  1. Open-Source-VLM für allgemeines visuelles Denken und multimodale Agenten.
  2. Basierend auf dem GLM-4.5-Air betragen die gesamten MoE-Parameter etwa 106 B und die aktiven Parameter etwa 12 B.
  3. Einführung des "Think/Fast Mode"-Switchings: flexibler Kompromiss zwischen tiefer Inferenz und Antwortlatenz.
  4. Nutzen Sie weiterhin das skalierbare Reinforcement Learning- und Reasoning-Paradigma von GLM-4.1V-Thinking.


2. Umfang der Fähigkeiten und typische Aufgaben

  1. Bildverständnis und Multi-Image-Reasoning: Szenenverständnis, Cross-Graph-Ausrichtung und Inferenz räumlicher Beziehungen.
  2. Videoverständnis: Segmentierung langer Videos, Ereigniserkennung, zeitindizierte Erklärung.
  3. Dokumente und Tabellen: Lesen langer Dokumente, OCR, Tabellenextraktion, Diagrammanalyse.
  4. GUI/Agent-Szenario: Operationsplanung wie Bildschirmlesen, Elementpositionierung, Klicken/Wischen usw.
  5. Grounding: Präzises Targeting und Layout-Verständnis.


3. Benchmark-Leistung und Skalenpositionierung

  1. Beamte sagen, dass das Unternehmen eine führende Position bei Open-Source-Modellen derselben Größe erreicht hat, die 41 bis 42 öffentliche Benchmarks abdeckt.
  2. Zu den Schlüsselindikatoren gehören Bild-Q&A, Videoverständnis, OCR/DocVQA, Diagramm-Q&A, räumliches und Frontend-Verständnis usw.
  3. Ziel ist es, ein Gleichgewicht zwischen "reproduzierbarer Verifikation + technischer Benutzerfreundlichkeit" zu finden, anstatt nur Bewertungen hinterherzujagen.


4. Offene Form und Verwendung

  1. Open-Source-Gewichte und Modellkarten: Stellen Sie Standard- und FP8-Varianten für eine einfache Inferenz und Bereitstellung bereit.
  2. Code und Evaluierung: Öffnen Sie Repositorys und Beispiele, um Transformers einen schnellen Einstieg zu ermöglichen.
  3. Online-Erlebnis und API: Bietet Web-Konversationen und offizielle Plattform-APIs, die multimodale Eingaben unterstützen.
  4. Lizenzierung und Ökologie: Open-Source-Lizenzen werden übernommen; Unterstützung von Evaluierungs-Repositories, Demo-Spaces und Community-Diskussionsforen.


5. Implementierungsvorschläge (technische Perspektive)

  1. Ressourcenplanung: Es wird empfohlen, Online-API/FP8-Pilotprojekte für die Bereitstellung großer MoE-Modelle zu verwenden und dann lokale Multi-Cards zu evaluieren.
  2. Auswertung und Kalibrierung: A/B mit eigenen Proben, wobei der Schwerpunkt auf der Robustheit und Analysegenauigkeit langer Dokumente liegt.
  3. Sicherheit und Compliance: Fügen Sie Desensibilisierungs-, Redlining- und Datenverfolgungsrichtlinien für OCR-/Dokumentszenarien hinzu.
  4. Beobachtung und Wiedergabe: Zeichnen Sie Eingaben, Ausgaben und Denkverläufe (falls vorhanden) auf, um eine einfache Retrospektive und kontinuierliche Optimierung zu ermöglichen.
  5. Kombinatorisches Paradigma: Kombinieren Sie mit Abruf-/Tool-Aufrufen, um durchgängige multimodale Agenten-Workflows zu erstellen.


Häufig gestellte Fragen F

: Ist der GLM-4.5V Open Source? Was ist die Lizenz?

A: Es handelt sich um ein Open-Source-Modell, und die Modellkarte ist als vom MIT lizenziert gekennzeichnet.

F: Welche Modalitäten werden unterstützt?

A: Unterstützt die Eingabe von Bildern, Videos, Text und Dateien; Die Ausgabe ist Text und kann von strukturierten Informationen wie Koordinaten des Begrenzungsrahmens begleitet werden.

F: Wie kann man es schnell erleben?

A: Sie können die offizielle Website direkt für Online-Konversationen verwenden. Sie können es auch über die offizielle API oder die Hugging Face-Demo erleben.

F: Wie fange ich mit der lokalen Argumentation an?

A: Transformers-Beispiele und Argumentationsskripte werden offiziell zur Verfügung gestellt; Eine FP8-Variante ist ebenfalls verfügbar, um den Speicherdruck zu reduzieren. Produktionsumgebungen können zuerst die API durchlaufen und dann die Kosten für das Self-Hosting bewerten.

F: Beziehung zum GLM-4.1V-Thinking?

A: Übernehmen Sie die "denkenden" Trainings- und Argumentationsideen und skalieren Sie effektiv auf einer größeren MoE-Architektur.


Umarmendes Gesicht (GLM-4.5V Modellkarte)

https://huggingface.co/zai-org/GLM-4.5V

GitHub (GLM-4.5 Series & Dock Description)

< a href="https://github.com/zai-org/GLM-4.5" rel="noopener noreferrer" target="_blank">https://github.com/zai-org/GLM-4.5

Online-Erfahrung (Chat)<

a href="https://chat.z.ai" rel="noopener noreferrer" target="_blank">https://chat.z.ai


Empfohlene Tools

Mehr