Retour à Informations sur l’IA
Analyse complète de Qwen-Image-Edit : Le changement de mot bilingue est plus précis, et l’édition sémantique/au niveau de l’apparence est en place en un seul arrêt

Analyse complète de Qwen-Image-Edit : Le changement de mot bilingue est plus précis, et l’édition sémantique/au niveau de l’apparence est en place en un seul arrêt

Informations sur l’IA Admin 9 vues

Sortie de Qwen-Image-Edit : base de 20B, bilingue, bilingue, changement précis de mots et analyse complète de l’édition d’images au niveau sémantique/de l’apparence. Qwen-Image-Edit est un modèle d’édition d’images lancé sur un socle Qwen-Image à l’échelle 20B. Le modèle prend en charge l’édition précise du texte en chinois et en anglais, en mettant l’accent sur « l’ajout, la suppression et la modification » tout en conservant la police et la mise en page d’origine. Le modèle prend en charge l’édition au niveau sémantique (telle que la rotation d’objets, le transfert de style et la création continue d’IP) et l’édition au niveau de l’apparence (telle que l’ajout/la suppression/la modification d’objets, la modification des couleurs, la modification des arrière-plans et la réparation des détails), et fournit une expérience en ligne, une pondération open source et un accès à l’API cloud.


1. Capacités de base

1) Édition de texte bilingue : Prend en charge l’ajout, la suppression et le remplacement de texte chinois et anglais dans les images, et essayez de conserver la police, la taille et le style d’origine.

2) Édition au niveau sémantique : prend en charge la rotation de la perspective de l’objet à 90°/180°, le transfert de style, la cohérence des caractères et la création continue d’IP, en mettant l’accent sur le fait que la sémantique reste cohérente avec le style global.

3) Édition au niveau de l’apparence : Prend en charge l’ajout/la suppression/la modification, le changement de couleurs, la modification des arrière-plans, la suppression des débris et la réparation des détails tout en gardant inchangées les zones non pertinentes.

4) Idée de pipeline (selon les documents officiels) : L’image d’entrée est introduite simultanément dans le canal de contrôle sémantique visuel et de reconstruction de l’apparence pour équilibrer la « cohérence du contenu » et la « fidélité des pixels ».

5) Intégrité écologique : Fournit une expérience Web, des modèles open source et des exemples d’inférence, ainsi que des API cloud orientées production.


2. Scénarios applicables

  • E-commerce/marque : correction directe des fautes de frappe des affiches, localisation multilingue et mise à jour rapide des affiches promotionnelles.
  • Réseaux sociaux/vidéos courtes : migration de style, génération par lots d’émoticônes et d’avatars.
  • Conception graphique : Les panneaux ajoutent et génèrent des reflets réalistes, enlèvent les débris et réparent les détails locaux.
  • Etape post-image : habillage du personnage, changement d’arrière-plan, ajustement de la posture et de la perspective.


3. Démarrage rapide (en ligne et local)

1) Expérience en ligne : Sélectionnez « Édition d’images » dans le portail de chat officiel, téléchargez une image et décrivez les exigences de modification en chinois et en anglais pour générer des résultats.

2) Inférence de visage étreint : Fournit un exemple d’inférence locale de QwenImageEditPipeline, qui peut charger des poids dans un environnement GPU, saisir image + invite et configurer des paramètres tels que des pas, des valeurs de départ aléatoires et des invites négatives.

3) ModelScope : Fournir simultanément des pages de modèle et des entrées d’expérience, ce qui est pratique pour l’accès et le téléchargement dans l’environnement de réseau domestique.


4. Points d’accès de l’API Alibaba Cloud Model Studio

  • Nom du modèle : qwen-image-edit.
  • Chemin d’interface : L’interface HTTP de la station internationale prend en charge les services de génération multimodale, à l’aide du corps de la requête JSON et de l’authentification par clé API du porteur.
  • Structure d’entrée : input.messages[0].content contient {"image » : « <URL ou Base64>"} et {"text » : « < invites chinoises et anglaises>"}.
  • Contraintes de champ : le texte de l’invite de transfert comporte jusqu’à environ 800 caractères ; Les invites négatives negative_prompt jusqu’à environ 500 caractères ; Permettre la réécriture intelligente des prompt_extend ; le filigrane contrôle le commutateur de filigrane « Qwen-Image » dans le coin inférieur droit.
  • Restrictions d’image : JPG/JPEG/PNG/BMP/TIFF/WEBP ; Largeur et hauteur 512–4096 ; image unique ≤10 Mo ; Les URL ne doivent pas contenir de chinois ; Le lien de résultat est valable 24 heures.
  • Facturation et limite (Singapour) : environ 0,045 $/graphique ; 100 crédits gratuits (valables 180 jours après l’activation) ; Commit RPS=5, Simultanéité=2.
  • Résultat renvoyé : La sortie est un résultat structuré avec des liens d’image ; Il est recommandé de télécharger et de transférer votre propre espace de stockage immédiatement après la mise en œuvre du côté commercial.


5. Utilisation pratique et suggestions de flux de travail

1) L’édition en chaîne est plus stable : désassemblez des cibles complexes en un réglage fin en plusieurs étapes (sélection d’images, correction mot par mot/zone par zone) et convergez progressivement vers l’effet souhaité.

2) Priorité de contrôle de la régionalisation : Pour les modifications au niveau de l’apparence, délimitez d’abord les zones qui doivent être modifiées ou rester inchangées pour réduire la dérive des pixels non pertinente.

3) Les mots clés doivent être vérifiables : objets clairs, positions, couleurs, quantités et styles ; Si nécessaire, coopérez avec les invites négatives pour éliminer les éléments indésirables.

4) Mise en cache et tolérance aux pannes : la rapidité des liens de résultats dans le cloud est limitée, de sorte que les politiques de téléchargement et de mise en cache doivent être conçues en combinaison avec le stockage d’objets, la liste blanche et les files d’attente de nouvelle tentative.

5) Collaboration d’équipe : « Édition de texte », « Édition sémantique » et « Édition d’apparence » sont divisées en différents modèles pour faciliter la réutilisation de l’exploitation et de la conception.


6. Comparaison et positionnement (selon les documents officiels et communautaires)

  • Édition de texte chinois conviviale : Il a une forte capacité à maintenir la forme dans une petite taille de police chinoise et des scénarios de composition complexes.
  • Idée de double contrôle sémantique + apparence : garder un œil sur la « cohérence du contenu » et « l’invariance régionale » en même temps pour réduire le risque de dérive de style.
  • Couverture écologique : les démos de pages Web, les poids open source et les API d’entreprise s’exécutent en parallèle pour raccourcir le chemin de l’expérience à la mise en œuvre.


7. Limites et avertissement sur les risques

  • Les résultats de l’analyse comparative et les expressions « SOTA » proviennent de documents officiels, et l’entreprise réelle doit être vérifiée sur ses propres échantillons.
  • Les scénarios extrêmes (taille de police ultra-petite, perspective/réflexion forte, arrière-plans complexes) peuvent échouer et nécessiter plusieurs ajustements en chaîne.
  • En ce qui concerne les marques, les portraits, les styles spécifiques et les adresses IP, assurez-vous de respecter les droits d’auteur et les spécifications de la plateforme.


Q&R FAQ

: Quels sont les principaux problèmes résolus par Qwen-Image-Edit ?

R : Qwen-Image-Edit résout le problème de la disponibilité des « changements de mots » en chinois et en anglais dans les images, et atteint un équilibre entre l’édition sémantique et l’édition de l’apparence.

Q : Comment en faire l’expérience en ligne ?

R : Sélectionnez « Édition d’image » dans le portail de chat officiel, téléchargez l’image et entrez les instructions de modification en chinois et en anglais pour commencer l’expérience.

Q : Comment est le raisonnement local ?

R : Chargez QwenImageEditPipeline dans Hugging Face, entrez image + invite et configurez des paramètres tels que les pas, les invites négatives, les graines aléatoires, etc.

Q : Quels sont les paramètres clés de l’API cloud ?

R : Vous devez fournir model=qwen-image-edit, image et texte dans les messages ; En option negative_prompt, prompt_extendfiligrane ; Les images doivent respecter les restrictions de format, de taille et de taille.

Q : Comment les prix et les quotas sont-ils calculés ?

R : Le prix à Singapour est d’environ 0,045 $/graphique ; 100 crédits gratuits (valables 180 jours après l’activation) ; Commit RPS=5, Simultanéité=2.

Q : Pourquoi les liens expirent-ils ?

R : Le lien de l’image renvoyé dans le cloud est valable 24 heures et doit être téléchargé et transféré sur votre propre stockage dès que possible.


Références

Blog Officiel (traduction Anglais/Chinois) : https://qwenlm.github.io/blog/qwen-image-edit/

carte de modèle Hugging Face (avec exemple et licence QwenImageEditPipeline) : https://huggingface.co/Qwen/Qwen-Image-Edit

Démo en ligne de Hugging Face (Espace) : https://huggingface.co/spaces/Qwen/Qwen-Image-Edit

Alibaba Cloud Model Studio · Qwen-Image-Edit (API/price/parameters/examples) : https://www.alibabacloud.com/help/en/model-studio/qwen-image-edit

Qwen Chat : https://chat.qwen.ai/?inputFeature=image_edit

GitHub · Référentiel Qwen-Image (Apache-2.0) : https://modelscope.cn/models/Qwen/Qwen-Image-Edit

Outils Recommandés

Plus