一句話生成“DC 神奇女俠”，精通中文的國產AIGC神器來襲

導語：中文世界的AIGC已然開啟。透過智源研究院大模型研究團隊開源的雙語 AltDiffusion 模型，可以實現精細長中文Prompts高階創作。

近來，生成式AI（AIGC）正如火如荼地展開。擴散模型在影象的生成上正在超越GANs，成為文字生成最先進的模型。透過該模型，文字在生成圖片、影片、音訊，以及分子設計等“一鍵生成”的技術上都開始應用。

在國外，OpenAI、META和谷歌等廠商正在不斷髮布最新研發成果。國內科技公司華為、阿里、商湯等也紛紛湧入這一領域。

對於中文世界的創作者來說，如果應用Dall·E 2等國外工具，將會面臨的難題是：思考英文Prompts準確表達的絞盡腦汁，翻譯軟體詞不達意的尷尬，精細構思的 Prompts 在畫面生成中找不到一絲痕跡，亦或面對文化誤解中的“中國風”哭笑不得……

日前，智源研究院大模型研究團隊開源最新雙語AltDiffusion模型，為中文世界帶來專業級AI文圖創作的強勁動力：

支援精細

長中文 Prompts 高階創作；

無需文化轉譯，從原汁原味中國話直達形神兼備中國畫；

且在繪畫水平上達到低門檻中英對齊原版 Stable Diffusion 級震撼視效，可以說是講中文的世界級 AI 繪畫高手。

創新模型 AltCLIP 為這一工作的基石，為原 CLIP 模型補齊更強的跨語言三大能力。AltDiffusion 和 AltCLIP 模型均為多語言模型，中英雙語為第一階段工作，程式碼與模型已開源。

AltDiffusion

https：//github。com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion

AltCLIP

https：//github。com/FlagAI-Open/FlagAI/examples/AltCLIP

HuggingFace space試玩地址：

https：//huggingface。co/spaces/BAAI/bilingual_stable_diffusion

技術報告

AltCLIP： Altering the Language Encoder in CLIP for Extended Language Capabilities

https：//arxiv。org/abs/2211。06679

專業級中文 AltDiffusion

長Prompt精細繪畫 + 原生中國風，

滿足中文AI創作高手的高需求

得益於以

AltCLIP

為基礎的強大中英雙語言對齊能力，

AltDiffusion

達到近似於 Stable Diffusion 程度的視效水平，尤其具備更懂中國話、更善中國畫的獨特優勢，非常值得專業級中文AI文圖創作者期待。

長Prompt生成，畫面效果毫不遜色

Prompt長短是檢驗模型文圖生成能力的分水嶺，越長的Prompt，越考驗語言理解、圖文對齊和跨語言這三大能力。

在同樣的中英文長 Prompt 輸入調校下，AltDiffusion 在不少圖片生成案例中表現力甚至更勝一籌：元素構成豐富精彩、細節描摹細膩精準。

主流模型同主題創作效果如下：

更懂中國話，更善中國畫

除中英文 Prompts 輸入表現近似之外，AltDiffusion 還能補齊西方世界裡中國畫風的不足，利用中文圖文對繼續微調出中文特色的生成，例如國畫風格生成模型，產出真正的“中國風”。

飽覽旖旎國風美

AltDiffusion更懂中文，在中國文化語境中的意義描摹上指哪打哪，秒懂創作者意圖。例如對“唐朝盛景”的描繪，避免出現因文化誤解而產生的跑題情況。

尤其對原生於中國文化的概念，理解與表現更為精確，得以避免“日本風”與“中國風”混淆，令人啼笑皆非的狀況。例如，與Stable Diffusion在中英文輸入對應唐裝人物風格的Prompts，差異一目瞭然。

對比兩種”中國風“

在特定風格的生成中，會原生以中文文化語境為身份主體，進行風格創作，例如對於下面帶有“古建築”的prompt，會預設生成中國古代建築。在創作風格上更加貼閤中文創作者身份。

中英雙語，生成效果對齊

AltDiffusion基於Stable Diffusion，透過將原來Stable Diffusion中的CLIP替換成AltCLIP，並且用中英文圖文對對模型進行進一步的訓練得到。得益於 AltCLIP 強大的語言對齊能力，AltDiffusion 的生成效果在英文上與 Stable Diffusion 很接近，在中英文雙語的表現上也體現了一致性。

如“戴帽子小狗”的同義中英文Prompts 輸入AltDiffusion後，生成畫面效果基本對齊，一致性極高：

在對“男孩”的畫面增加描述詞為“中國男孩“之後，在原小男孩形象基礎上，精準調整成典型“中國”孩子，在語言控制生成中展現出極佳語言理解能力和精準的生成表達結果。