1. Hintergrund der Plattform
Sie wurde von der China Cyberspace Security Association und dem National Internet Emergency Response Center ins Leben gerufen und zielt darauf ab, hochwertige und zuverlässige chinesische Internet-Korpus-Ressourcen bereitzustellen, um das Training von Modellen für künstliche Intelligenz, die Forschung zur Verarbeitung natürlicher Sprache und andere Anwendungen zu unterstützen.
2. Eigenschaften der Ressourcen
DiePlattform hat das "Chinese Internet Basic Corpus 2.0" gestartet, das 27 Datensätze mit einem Gesamtvolumen von etwa 2,7 TB umfasst, von denen der Basiskorpus etwa 120 GB beträgt und etwa 38 Millionen Daten enthält. Alle Daten werden an der Quelle verifiziert, der Inhalt gefiltert und dedupliziert, um die Genauigkeit und Zuverlässigkeit des Inhalts zu gewährleisten.
3. Open-Source-Wert
Nach der Registrierung und Zertifizierung kann es heruntergeladen und verwendet werden, um verschiedene Anforderungen wie wissenschaftliche Forschung und Industrie zu erfüllen, die Entwicklung der Open-Source-Ökologie zu fördern und die Innovation und Anwendung großer Modelle und Technologien zur Verarbeitung natürlicher Sprache im chinesischen Bereich zu fördern.
Weitere Informationen finden Sie auf der offiziellen Website:
https://corpus.cybersac.cn/?home#/index