阿里Qwen-Image圖像生成模型登頂HuggingFace,或成新時代圖像編輯利器
新時代的PS來了,你會用嗎?就在8月19日,阿里發(fā)布了圖像生成基礎模型Qwen-Image。該模型通過系統(tǒng)性的數(shù)據(jù)工程、漸進式的學習策略、改進的多任務訓練范式以及可擴展的架構(gòu)優(yōu)化,致力于解決復雜文本渲染和精準圖像編輯的核心難題。
近年來,圖像生成技術(shù)作為AI領域的重要分支取得顯著進展。無論是文本直接生成圖像(T2I),還是對現(xiàn)有圖像進行編輯(TI2I),關鍵在于機器能否精準理解并以視覺形式再現(xiàn)人類意圖。盡管擴散模型等架構(gòu)提升了生成圖像的分辨率與細節(jié)表現(xiàn)力,但該領域仍面臨兩大挑戰(zhàn)。
在文本到圖像的生成任務中,模型對復雜、多維度文本指令的理解與對齊能力不足。處理多行文本渲染、非字母文字(如漢字)渲染、特定位置文字嵌入以及文字與視覺元素融合等精細任務時,現(xiàn)有模型效果不佳。
在圖像編輯任務中,確保編輯后的圖像與原始圖像在視覺和語義上保持一致是難題。這既要求視覺上只修改目標區(qū)域,不影響其他部分細節(jié);也要求語義上進行結(jié)構(gòu)性調(diào)整(如改變?nèi)宋镒藨B(tài))時,保留主體身份特征與場景整體邏輯。
01
Qwen團隊發(fā)布《Qwen-Image Technical Report》技術(shù)報告,詳細介紹Qwen-Image的功能。
為實現(xiàn)精準文本渲染,Qwen-Image構(gòu)建了全面的數(shù)據(jù)處理體系。該體系大規(guī)模收集數(shù)十億級圖文數(shù)據(jù),注重質(zhì)量。數(shù)據(jù)經(jīng)過七個階段的精細化過濾管道,從低分辨率基礎篩選到高分辨率美學提純,提升了數(shù)據(jù)質(zhì)量與圖文對齊度。
考慮到真實圖像中漢字等內(nèi)容的長尾分布特性,模型通過“純粹渲染”“組合渲染”和“復雜渲染”三種策略合成高質(zhì)量文本圖像數(shù)據(jù),彌補自然數(shù)據(jù)不足。在此基礎上,采用由簡到繁的“課程學習”策略訓練,增強了渲染復雜中英文文本的能力。
為實現(xiàn)精準圖像編輯,Qwen-Image提出增強的多任務學習框架。其核心是將輸入圖像編碼為兩種互補特征:一是通過Qwen2.5-VL模型提取的高層“語義特征”,用于理解圖像內(nèi)容和編輯指令;二是通過變分自編碼器(VAE)提取的低層“重建特征”,用于保留圖像視覺細節(jié)和紋理。
這兩種特征作為引導信號輸入到多模態(tài)擴散Transformer(MMDiT)中?!半p重編碼”設計使模型在執(zhí)行編輯指令時,能平衡語義連貫性與視覺保真度。
Qwen-Image的模型架構(gòu)由Qwen2.5-VL(條件編碼器)、VAE(圖像壓縮與解碼)和MMDiT(核心生成網(wǎng)絡)三部分組成。VAE采用“單編碼器、雙解碼器”架構(gòu),為未來視頻生成任務奠定基礎。MMDiT引入MSROPE新型位置編碼方法,改善了文本與圖像特征的對齊。
訓練過程是漸進式的,從低分辨率到高分辨率,從無文本圖像到有文本圖像,結(jié)合監(jiān)督微調(diào)(SFT)與直接偏好優(yōu)化(DPO)等強化學習方法,優(yōu)化生成結(jié)果質(zhì)量與指令遵循準確性。大量測試和評估表明,Qwen-Image在圖像生成、文本渲染和圖像編輯任務上達到業(yè)界領先水平。
下面來看一些實際生成效果。我故意讓Qwen-Image生成自然界不存在的東西。結(jié)果顯示,Qwen的冰山渲染效果比GPT-5更好,但火焰跟冰山較為割裂,而GPT-5用熔巖填充火焰和冰山之間的部分,畫面更自然。
提示詞:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.
Qwen-Image:
GPT-5:
在圖片重構(gòu)方面,GPT-5除貓整體改變,包括背景。因要求貓漂浮在空中,GPT-5把貓送上了大氣層,而Qwen-Image讓貓漂浮在半空中。
提示詞:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon
原圖片:
Qwen-Imgae:
GPT-5:
有意思的是,由于原圖片中出現(xiàn)星條旗,GPT-5和Gemini都不能完成對原圖片的修改。但Qwen-Image完成了命令,不過生成圖片中馬斯克變得更蒼老了。
提示詞:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.
原圖:
Qwen-Image:
02
Qwen-Image展現(xiàn)出強大的圖像生成與編輯能力,它能成為“AI版的Photoshop”嗎?要回答這個問題,需比較它與傳統(tǒng)圖像編輯軟件的異同。
從功能上看,Qwen-Image與Photoshop有相似的編輯能力,但實現(xiàn)方式不同。Photoshop依賴工具箱、圖層和濾鏡,用戶直接操作實現(xiàn)修改;Qwen-Image依賴自然語言指令,用戶通過“描述”完成編輯。
在對象處理方面,Photoshop用套索、魔棒等工具精確選區(qū)后操作;Qwen-Image通過文本指令實現(xiàn)類似操作,還能理解風格要求并自動化處理。
在材質(zhì)與風格轉(zhuǎn)換上,Photoshop提供濾鏡庫等功能;Qwen-Image通過指令完成,如將普通圖標變?yōu)樘囟L格的冰箱貼。此外,其精準的文本編輯能力對標Photoshop的文字工具。
在處理圖像結(jié)構(gòu)性變化時,比如人物姿態(tài)調(diào)整,Qwen-Image展現(xiàn)出超越傳統(tǒng)工具的潛力。Photoshop調(diào)整姿態(tài)需手動修改,且難保證衣物紋理和背景過渡自然;Qwen-Image能理解指令,在保持人物身份、服裝細節(jié)和背景一致性的前提下生成新姿態(tài)。
然而,不能簡單將Qwen-Image視為Photoshop的替代品,二者核心工作范式存在根本差異。
最重要的是控制粒度。Photoshop提供像素級精確控制,用戶可精確控制像素顏色;Qwen-Image是語義級、概率性控制,用戶描述“什么”而非“如何做”,編輯結(jié)果有一定隨機性。
Photoshop基于圖層的工作流是非線性、非破壞性的,用戶可隨時修改圖層;Qwen-Image的編輯更像“一次性”再生成過程,雖有“鏈式編輯”,但與PS圖層調(diào)整邏輯不同。
精通Photoshop需掌握復雜知識;使用Qwen-Image需掌握“提示詞工程”。它降低了圖像編輯技術(shù)門檻,但引入新技能壁壘。
Qwen-Image并非Photoshop的直接替代品,而是全新的圖像內(nèi)容創(chuàng)作與編輯范式。Photoshop為專業(yè)人士提供精確控制能力;Qwen-Image將人的意圖從技術(shù)操作中解放出來,側(cè)重于創(chuàng)意構(gòu)想實現(xiàn)和語義內(nèi)容調(diào)整。
它們滿足不同場景需求。專業(yè)設計師進行精細排版和品牌設計離不開Photoshop;需要快速產(chǎn)出創(chuàng)意概念圖、營銷素材或無專業(yè)設計技能的用戶,Qwen-Image更高效、直觀。
目前一些修圖軟件的AI功能較淺,未來二者可能深度融合,如在Photoshop中嵌入強大的語義理解和生成引擎,Qwen-Image標志著融合之路的“語義引擎”端達到新高度。
本文來自微信公眾號“直面AI”,作者:苗正,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com