Garde-fou de sécurité du noyau Anthropic : Claude lance un classificateur de contenu lié au piratage et met à niveau la sécurité des outils d’IA

Anthropic s’associe aux ministères pour promouvoir des « garde-fous de sécurité nucléaire » : des partenariats public-privé pour construire des classificateurs de contenu pour l’IA. Anthropic a annoncé qu’elle s’était associée à la Nuclear Safety Administration du département américain de l’Énergie pour construire un classificateur de sécurité « conversation liée au nucléaire » pour l’IA et les grands modèles, et qu’elle avait été déployée à l’essai dans le trafic Claude. Cette initiative établit des garde-fous de sécurité plus pratiques pour les outils d’intelligence artificielle et d’IA sous la forme d’une coopération public-privé, en tenant compte de l’intelligence, de l’automatisation et de la mise en œuvre de la conformité.

1. En bref

1. Quelle est la mise à jour La

sécurité de l’IA et de l’intelligence artificielle est entrée dans la phase d’ingénierie : Anthropic et le Laboratoire national ont construit conjointement un classificateur, qui peut distinguer les conversations sensibles et non sensibles liées aux noyaux lors du test initial, avec un taux de précision de près de 90 % et demi, et a été lancé au début du terminal Claude. Utilisé pour identifier les abus potentiels et réduire les faux positifs.

2. Pourquoi est-ce important

gouvernance de la sécurité des grands modèles et des outils d’IA est passée de « l’évaluation des risques » à la « protection en temps réel ». Grâce à la coopération public-privé et à la validation de l’apprentissage automatique, les scénarios à haut risque sont interceptés de manière préventive, tout en veillant à ce que les discussions légitimes telles que l’éducation, la politique et l’énergie ne soient pas trop bloquées.

2. Importance pour les développeurs et les entreprises

1. Suggestions de mise en œuvre

Associez les classificateurs de sécurité à la récupération, à l’examen et à l’audit : prédéterminez les intentions à haut risque, utilisez ChatGPT ou Claude pour réécrire la conformité dans la section centrale, et utilisez des règles automatisées et un échantillonnage et un examen manuels à la fin pour former un processus intelligent de bout en bout.

2. Collaboration écologique

Combiné à la génération de texte de ChatGPT et Claude, Midjourney et Stable Diffusion sont utilisés pour générer du contenu visuel, et des « nœuds de sécurité » sont ajoutés au lien de contenu, permettant aux outils d’IA de maintenir la productivité tout en répondant aux exigences de conformité des grands modèles et aux normes de l’industrie.

3. Jugement

de tendance 1. Le prototype du consensus de l’industrie

Les méthodologies de coopération et de partage public-privé devraient être réutilisées parmi les modèles de pointe, ce qui permettra à davantage d’outils d’IA d’adopter une base de sécurité unifiée et de promouvoir la sécurité de l’apprentissage automatique, de la recherche à la normalisation des produits et de la gouvernance.

2. De la sûreté nucléaire aux domaines à haut risque au sens large

Sur la base de

cette voie, il peut être étendu à des domaines de connaissances à haut risque tels que la biologie, l’industrie chimique et les infrastructures critiques à l’avenir, et construire un système de conformité et de contrôle des risques plus robuste tout en appliquant l’intelligence artificielle à grande échelle.

: Quel est le cœur de cette mise à jour de sécurité de l’IA ?

R : Avec la coopération public-privé comme point de départ, nous établirons un classificateur de sécurité de contenu lié au nucléaire pour l’IA et les grands modèles, servirons à l’identification et à la protection en ligne des outils d’IA tels que Claude, et refléterons la voie de l’ingénierie et de l’automatisation de la sécurité de l’intelligence artificielle.

Q : Les utilisateurs ordinaires seront-ils touchés ?

R : L’objectif est de réduire les productions à haut risque sans affecter l’apprentissage normal et la vulgarisation scientifique. Pour les conversations quotidiennes et le contenu éducatif, les classificateurs ont tendance à publier, et pour les demandes d’armement présumées, des conseils d’interception et de conformité sont déclenchés.

Q : Comment les entreprises peuvent-elles apprendre de cette méthode ?

R : Le classificateur de sécurité est utilisé comme première porte, suivie de la récupération, de la réécriture et de la relecture ; Enregistrez les trajectoires de décision dans les flux de travail des outils d’IA, en combinant l’apprentissage automatique et l’échantillonnage humain pour former des modèles de conformité vérifiables.

Q : Comment cela fonctionne-t-il avec ChatGPT, Claude, Midjourney et Stable Diffusion ?

R : ChatGPT et Claude sont utilisés pour traiter le texte et le réviser, tandis que Midjourney et Stable Diffusion sont responsables de la génération visuelle, et la classification de sécurité et les journaux sont intégrés dans le lien pour mettre l’accent sur la production intelligente et la conformité.

Q : Qu’est-ce que cela signifie pour l’industrie ?

R : La sécurité de l’IA et de l’intelligence artificielle est passée de l’auto-évaluation des entreprises à des garde-fous « au niveau de l’industrie » construits conjointement avec le gouvernement, favorisant la mise en œuvre durable de grands modèles et d’outils d’IA dans les domaines à haut risque.

Articles connexes

Nouveauté de l’API Responses : les connecteurs et les conversations débloquent les applications intelligentes de l’IA

10 outils d’efficacité de l’IA indispensables pour les chefs de produit en 2025

Alibaba lance le modèle de traduction le plus puissant, Qwen3-MT, qui prend en charge 92 langues et couvre 95 % de la population mondiale

Les fonctionnalités de l’agent ChatGPT sont entièrement ouvertes et disponibles immédiatement pour les utilisateurs Plus, Pro et Team

Outils Recommandés