Qwen-Image-Edit 包括的な分析: バイリンガルの単語変更がより正確になり、セマンティック/外観レベルの編集がワンストップで行われます

Qwen-Image-Edit リリース: 20B ベース、バイリンガルバイリンガルの正確な単語変更と、セマンティック/外観レベルの画像編集の完全な分析。 Qwen-Image-Editは、20BスケールのQwen-Image台座でローンチされた画像編集モデルです。このモデルは、元のフォントとレイアウトを維持しながら「追加、削除、変更」を重視し、中国語と英語の正確なテキスト編集をサポートしています。このモデルは、セマンティックレベルの編集(オブジェクトの回転、スタイル転送、IPの連続作成など)と外観レベルの編集(オブジェクトの追加/削除/変更、色の変更、背景の変更、詳細の修復など)の両方をサポートし、オンラインエクスペリエンス、オープンソースの重み付け、およびクラウドAPIアクセスを提供します。

1. コア機能1

) バイリンガルテキスト編集: 画像内の中国語と英語のテキストの追加、削除、置換をサポートし、元のフォント、フォントサイズ、スタイルの一貫性を保つようにします。

2) セマンティックレベルの編集: オブジェクトの 90°/180° パースペクティブ回転、スタイル転送、文字の一貫性、IP の連続作成をサポートし、セマンティクスが全体的なスタイルと一貫性を保つことを強調します。

3) 外観レベルの編集: 無関係な領域を変更せずに、追加/削除/変更、色の変更、背景の変更、破片の削除、詳細の修復をサポートします。

4) パイプラインのアイデア (公式資料による): 入力画像は、「コンテンツの一貫性」と「ピクセル忠実度」のバランスをとるために、視覚的な意味制御と外観再構成チャネルに同時に供給されます。

5) 生態学的完全性: Web エクスペリエンス、オープンソースモデルと推論の例、および本番環境指向のクラウド API を提供します。

2. 適用可能なシナリオ

電子商取引/ブランド: ポスターのタイプミスの直接修正、言語間のローカライゼーション、プロモーションポスターの迅速な更新。
ソーシャルメディア/ショートビデオ:スタイルの移行、絵文字とアバターのバッチ生成。
グラフィックデザイン: 看板はリアルな反射を追加して生成し、破片を取り除き、局所的な細部を修復します。
ポストイメージステージ:キャラクターのドレッシング、背景の変更、姿勢と遠近法の調整。

3. クイックスタート (オンラインおよびローカル)

1) オンライン体験: 公式チャットポータルで「画像編集」を選択し、画像をアップロードし、変更要件を中国語と英語で説明して結果を生成します。

2) Hugging Face Inference: GPU 環境で重みをロードし、画像 + プロンプトを入力し、ステップ、ランダムシード、ネガティブプロンプトなどのパラメーターを構成できる QwenImageEditPipeline のローカル推論例を提供します。

3) ModelScope: モデルページとエクスペリエンスエントランスを同時に提供し、国内のネットワーク環境でのアクセスとダウンロードに便利です。

4. Alibaba Cloud Model Studio APIアクセスポイント

モデル名:qwen-image-edit。
インターフェイスパス: 国際ステーションの HTTP インターフェイスは、JSON リクエスト本文とベアラー API キー認証を使用して、マルチモーダル生成サービスをサポートします。
入力構造: input.messages[0].content には、{"image": "<URL または Base64>"} と {"text": "< 中国語と英語のプロンプト>"} が含まれています。
フィールドの制約: フォワードプロンプト テキストの長さは最大約 800 文字です。否定的なプロンプトnegative_prompt最大約 500 文字の長さです。 prompt_extendのインテリジェントな書き換えを可能にします。 ウォーターマークは、右下隅にある「Qwen-Image」ウォーターマークスイッチを制御します。
画像制限: JPG/JPEG/PNG/BMP/TIFF/WEBP; 幅と高さ 512–4096;1 枚の画像 ≤10MB; URL には中国語を含めることはできません。結果リンクは 24 時間有効です。
請求と制限 (シンガポール): 約 $0.045/グラフ。 100 無料クレジット (アクティベーション後 180 日間有効)。コミット RPS=5、同時実行=2。
結果を返す: 出力は、画像リンクを含む構造化された結果です。ビジネス側が実装されたらすぐに自分のストレージをダウンロードして転送することをお勧めします。

5. 実用的な操作とワークフローの提案1

) チェーン編集がより安定します: 複雑なターゲットを多段階の微調整 (フレーム選択、単語ごと/ゾーンごとの補正) に分解し、徐々に目的の効果に収束します。

2) 地域化制御の優先順位: 外観レベルの変更の場合は、まず、無関係なピクセルドリフトを減らすために、変更する必要がある領域、または変更しないままの領域を描写します。

3) プロンプトワードは検証可能である必要があります: 明確なオブジェクト、位置、色、数量、スタイル。必要に応じて、否定的なプロンプトに協力して、不要な要素を排除します。

4) キャッシュとフォールトトレランス: クラウド結果リンクの適時性は限られているため、ダウンロードおよびキャッシュポリシーは、オブジェクトストレージ、ホワイトリスト、および再試行キューと組み合わせて設計する必要があります。

5)チームコラボレーション:「テキスト編集」、「セマンティック編集」、「外観編集」は、操作とデザインの再利用を容易にするために、異なるテンプレートに分割されています。

6. 比較と位置付け (公式およびコミュニティ資料による)

中国語のテキスト編集に優しい: 小さな中国語のフォントサイズや複雑な組版シナリオでも形状を維持する強力な能力を備えています。
セマンティック+外観の二重制御のアイデア:「コンテンツの一貫性」と「地域不変性」を同時に監視して、スタイルのドリフトのリスクを減らします。
エコロジカルカバレッジ:Webページのデモ、オープンソースの重み付け、エンタープライズレベルのAPIが並行して実行され、エクスペリエンスから実装までの道のりを短縮します。

7. 制限とリスク警告

ベン

チマーク結果と「SOTA」表現は公式資料からのものであり、実際のビジネスは独自のサンプルで検証する必要があります。
極端なシナリオ (超小さなフォントサイズ、強い遠近感/反射、複雑な背景) は失敗する可能性があり、複数のチェーンの微調整が必要になります。
商標、肖像画、特定のスタイル、IP に関しては、著作権とプラットフォームの仕様を必ず遵守してください。

Q&A FAQ

Q: Qwen-Image-Edit はどのような主要な問題を解決しますか?

A: Qwen-Image-Editは、画像内の中国語と英語の「単語の変更」が利用できるという問題を解決し、意味編集と外観編集のバランスを実現します。

Q: オンラインで体験するにはどうすればよいですか?

A: 公式チャットポータルで「画像編集」を選択し、画像をアップロードし、中国語と英語で変更手順を入力してエクスペリエンスを開始します。

Q: ローカル推論はどうですか?

A: Hugging Face に QwenImageEditPipeline をロードし、image + prompt を入力し、ステップ、ネガティブプロンプト、ランダムシードなどのパラメーターを構成します。

Q: クラウド API の主なパラメータは何ですか?

A: メッセージには model=qwen-image-edit、image と text を指定する必要があります。オプションのnegative_prompt、prompt_extend、透かし; 画像は、形式、サイズ、サイズの制限を満たす必要があります。

Q: 価格と割り当てはどのように計算されますか?

A: シンガポールの価格は約 $0.045/チャートです。 100 無料クレジット (アクティベーション後 180 日間有効)。コミット RPS=5、同時実行=2。

Q: リンクの有効期限が切れるのはなぜですか?

A: クラウドで返される画像リンクは 24 時間有効であり、できるだけ早くダウンロードして自分のストレージに転送する必要があります。

参考文献

公式ブログ(英語/中国語翻訳): https://qwenlm.github.io/blog/qwen-image-edit/

Hugging Face モデルカード (QwenImageEditPipeline サンプルとライセンスを含む): https://huggingface.co/Qwen/Qwen-Image-Edit

Hugging Face オンラインデモ (スペース): https://huggingface.co/spaces/Qwen/Qwen-Image-Edit

Alibaba Cloud Model Studio · Qwen-Image-Edit (API/price/parameters/examples): https://www.alibabacloud.com/help/en/model-studio/qwen-image-edit

Qwen チャット: https://chat.qwen.ai/?inputFeature=image_edit

GitHub · Qwen-Imageリポジトリ(Apache-2.0):https://github.com/QwenLM/Qwen-Image

Qwen-Image テクニカルレポート (arXiv): https://arxiv.org/abs/2508.02324

ModelScope モデルページ: https://modelscope.cn/models/Qwen/Qwen-Image-Edit

関連記事

BaiduはGenFlow 2.0をリリースしました:複雑なタスクの5+同時処理、プロセス全体での手動介入をサポート

ChatGPT Go India の発売: ₹399/月より高い制限とより長い思い出を手に入れましょう

アリババは、92の言語をサポートし、世界人口の95%をカバーする最も強力な翻訳モデルであるQwen3-MTを発表しました

ChatGPT エージェントの機能は完全にオープンで、Plus、Pro、および Team ユーザーはすぐに利用できます

おすすめツール