Retour à Informations sur l’IA
Garde-fou de sécurité du noyau Anthropic : Claude lance un classificateur de contenu lié au piratage et met à niveau la sécurité des outils d’IA

Garde-fou de sécurité du noyau Anthropic : Claude lance un classificateur de contenu lié au piratage et met à niveau la sécurité des outils d’IA

Informations sur l’IA Admin 3 vues

Anthropic s’associe aux ministères pour promouvoir des « garde-fous de sécurité nucléaire » : des partenariats public-privé pour construire des classificateurs de contenu pour l’IA. Anthropic a annoncé qu’elle s’était associée à la Nuclear Safety Administration du département américain de l’Énergie pour construire un classificateur de sécurité « conversation liée au nucléaire » pour l’IA et les grands modèles, et qu’elle avait été déployée à l’essai dans le trafic Claude. Cette initiative établit des garde-fous de sécurité plus pratiques pour les outils d’intelligence artificielle et d’IA sous la forme d’une coopération public-privé, en tenant compte de l’intelligence, de l’automatisation et de la mise en œuvre de la conformité.


1. En bref

1. Quelle est la mise à jour La

sécurité de l’IA et de l’intelligence artificielle est entrée dans la phase d’ingénierie : Anthropic et le Laboratoire national ont construit conjointement un classificateur, qui peut distinguer les conversations sensibles et non sensibles liées aux noyaux lors du test initial, avec un taux de précision de près de 90 % et demi, et a été lancé au début du terminal Claude. Utilisé pour identifier les abus potentiels et réduire les faux positifs.

2. Pourquoi est-ce important

La

gouvernance de la sécurité des grands modèles et des outils d’IA est passée de « l’évaluation des risques » à la « protection en temps réel ». Grâce à la coopération public-privé et à la validation de l’apprentissage automatique, les scénarios à haut risque sont interceptés de manière préventive, tout en veillant à ce que les discussions légitimes telles que l’éducation, la politique et l’énergie ne soient pas trop bloquées.


2. Importance pour les développeurs et les entreprises

1. Suggestions de mise en œuvre

Associez les classificateurs de sécurité à la récupération, à l’examen et à l’audit : prédéterminez les intentions à haut risque, utilisez ChatGPT ou Claude pour réécrire la conformité dans la section centrale, et utilisez des règles automatisées et un échantillonnage et un examen manuels à la fin pour former un processus intelligent de bout en bout.

2. Collaboration écologique

Combiné à la génération de texte de ChatGPT et Claude, Midjourney et Stable Diffusion sont utilisés pour générer du contenu visuel, et des « nœuds de sécurité » sont ajoutés au lien de contenu, permettant aux outils d’IA de maintenir la productivité tout en répondant aux exigences de conformité des grands modèles et aux normes de l’industrie.


3. Jugement

de tendance 1. Le prototype du consensus de l’industrie

Les méthodologies de coopération et de partage public-privé devraient être réutilisées parmi les modèles de pointe, ce qui permettra à davantage d’outils d’IA d’adopter une base de sécurité unifiée et de promouvoir la sécurité de l’apprentissage automatique, de la recherche à la normalisation des produits et de la gouvernance.

2. De la sûreté nucléaire aux domaines à haut risque au sens large

Sur la base de

cette voie, il peut être étendu à des domaines de connaissances à haut risque tels que la biologie, l’industrie chimique et les infrastructures critiques à l’avenir, et construire un système de conformité et de contrôle des risques plus robuste tout en appliquant l’intelligence artificielle à grande échelle.


Q

: Quel est le cœur de cette mise à jour de sécurité de l’IA ?

R : Avec la coopération public-privé comme point de départ, nous établirons un classificateur de sécurité de contenu lié au nucléaire pour l’IA et les grands modèles, servirons à l’identification et à la protection en ligne des outils d’IA tels que Claude, et refléterons la voie de l’ingénierie et de l’automatisation de la sécurité de l’intelligence artificielle.

Q : Les utilisateurs ordinaires seront-ils touchés ?

R : L’objectif est de réduire les productions à haut risque sans affecter l’apprentissage normal et la vulgarisation scientifique. Pour les conversations quotidiennes et le contenu éducatif, les classificateurs ont tendance à publier, et pour les demandes d’armement présumées, des conseils d’interception et de conformité sont déclenchés.

Q : Comment les entreprises peuvent-elles apprendre de cette méthode ?

R : Le classificateur de sécurité est utilisé comme première porte, suivie de la récupération, de la réécriture et de la relecture ; Enregistrez les trajectoires de décision dans les flux de travail des outils d’IA, en combinant l’apprentissage automatique et l’échantillonnage humain pour former des modèles de conformité vérifiables.

Q : Comment cela fonctionne-t-il avec ChatGPT, Claude, Midjourney et Stable Diffusion ?

R : ChatGPT et Claude sont utilisés pour traiter le texte et le réviser, tandis que Midjourney et Stable Diffusion sont responsables de la génération visuelle, et la classification de sécurité et les journaux sont intégrés dans le lien pour mettre l’accent sur la production intelligente et la conformité.

Q : Qu’est-ce que cela signifie pour l’industrie ?

R : La sécurité de l’IA et de l’intelligence artificielle est passée de l’auto-évaluation des entreprises à des garde-fous « au niveau de l’industrie » construits conjointement avec le gouvernement, favorisant la mise en œuvre durable de grands modèles et d’outils d’IA dans les domaines à haut risque.

Garde-fou de sécurité nucléaire anthropique Partenariat public-privé Sécurité de l’IA Classificateur de conversations liées au nucléaire La classification de sécurité Claude est en ligne Ingénierie de la sécurité du contenu IA Interception et conformité en temps réel Réduction des faux positifs et des faux positifs Gouvernance de la sécurité des grands modèles Garde-corps de sécurité des outils IA Les gouvernements et les entreprises développent l’IA NNSA en collaboration avec Anthropic Cadre de conformité de l’IA en matière de sûreté nucléaire Identification du contenu des zones à haut risque Stratégie de diffusion de vulgarisation éducative et scientifique Contrôle des risques par l’IA générative La génération de texte peut être reformulée en toute sécurité Plan d’atterrissage du classificateur de sécurité Journaux d’audit et traçabilité Les nœuds sécurisés sont intégrés dans le flux de travail Bonnes pratiques de conformité de l’IA d’entreprise ChatGPT et Claude examinés en collaboration Midjourney est conforme à la norme Stable Diffusion Équipe rouge et évaluation de la sécurité de l’IA Base de sécurité de l’IA de niveau industriel De la sûreté nucléaire aux produits biochimiques Les infrastructures critiques protègent l’IA Guide d’accès au classifieur de sécurité Identification et protection en ligne Automatisation de la modération du contenu par l’IA Mise en œuvre de la conformité et système de contrôle des risques

Outils Recommandés

Plus