又一國產(chǎn)圖像大模型開源,實(shí)測連續(xù)P圖絕了,中文渲染是短板
6B參數(shù)生圖模型殺進(jìn)開源SOTA。

智東西12月8日報道,今日,美團(tuán)正式發(fā)布并開源圖像生成模型LongCat-Image,這是一款在圖像編輯能力上達(dá)到開源SOTA水準(zhǔn)的6B參數(shù)模型,重點(diǎn)瞄準(zhǔn)文生圖與單圖編輯兩大核心場景。

從官方披露的基準(zhǔn)測試結(jié)果來看,LongCat-Image主要對標(biāo)了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流開源與閉源生圖模型,其核心優(yōu)化集中在“編輯可控性”和“中文文字渲染”兩項能力上。
而在實(shí)際體驗中,它在連續(xù)改圖、風(fēng)格變化和材質(zhì)細(xì)節(jié)上表現(xiàn)較好,但在復(fù)雜排版場景下,中文文字渲染仍存在不穩(wěn)定的情況。在涉及復(fù)雜UI設(shè)計、游戲界面生成等任務(wù)時,模型的審美也暴露出一定短板,這或許與其不具備聯(lián)網(wǎng)搜索能力有關(guān)。
在體驗入口方面,美團(tuán)也同步提供了多種使用方式。在移動端,LongCat APP已支持文生圖與圖生圖能力;在網(wǎng)頁端,用戶也可通過https://longcat.ai/進(jìn)入圖片生成入口進(jìn)行體驗。
對于開發(fā)者而言,LongCat-Image的模型權(quán)重與代碼也已同步開源:
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image
GitHub: https://github.com/meituan-longcat/LongCat-Image
下面我們就來看看LongCat-Image的模型結(jié)構(gòu)、評測成績和具體的實(shí)測表現(xiàn)。
01.從模型結(jié)構(gòu)到評測成績,LongCat-Image,把“編輯可控性”和“中文渲染”作為主攻方向
從模型設(shè)計上看,LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構(gòu),并通過漸進(jìn)式學(xué)習(xí)策略,在僅6B參數(shù)規(guī)模下兼顧了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染三項能力的協(xié)同提升。

▲模型架構(gòu)
這套訓(xùn)練路線并非從零開始堆參數(shù),而是基于文生圖中期訓(xùn)練模型進(jìn)行初始化,并在后續(xù)階段采用文生圖與指令編輯的多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,來避免編輯能力在后訓(xùn)練階段被壓縮的問題。
在圖像編輯能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個編輯類基準(zhǔn)中取得了開源SOTA成績。

▲客觀基準(zhǔn)測試性能對比
LongCat-Image通過多源數(shù)據(jù)預(yù)訓(xùn)練、指令改寫策略與人工精標(biāo)SFT數(shù)據(jù)的引入,使模型在面對復(fù)雜編輯要求時更不容易出現(xiàn)風(fēng)格漂移和結(jié)構(gòu)失真。
針對中文文字渲染這一長期痛點(diǎn),LongCat-Image采用了覆蓋8105個規(guī)范漢字的合成字形數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并在SFT階段引入真實(shí)世界文本圖片強(qiáng)化排版與字體泛化能力,在RL階段還引入OCR與美學(xué)雙獎勵模型共同約束,最終在ChineseWord評測中取得90.7分的成績,領(lǐng)先于現(xiàn)有開源模型。
在真實(shí)感方面,LongCat-Image通過對抗訓(xùn)練和嚴(yán)格的數(shù)據(jù)篩選機(jī)制,刻意繞開AIGC“塑料感”的紋理陷阱,并在RL階段引入AIGC檢測器作為獎勵信號,反向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理與光影變化。
綜合評測結(jié)果顯示,在人類主觀評分(MOS)維度上,LongCat-Image在文本對齊、視覺真實(shí)度與美學(xué)質(zhì)量等多個子項中的表現(xiàn)已接近Seedream4.0等商業(yè)模型水平。

▲人類主觀評分(MOS)對比

▲并列對比評估勝率(SBS)
在圖像編輯任務(wù)的并列對比評估(SBS)中,LongCat-Image-Edit在綜合質(zhì)量與一致性兩項關(guān)鍵指標(biāo)上,對NanoBanana和Qwen-Image-Edit等模型均取得較高勝率。
整體來看,LongCat-Image在圖像編輯任務(wù)上已逼近部分閉源模型水平,在文生圖基礎(chǔ)能力上也保持在開源頭部陣營。
02.從漫畫重繪到玩偶產(chǎn)品渲染,連續(xù)編輯穩(wěn)定,但中文渲染仍是短板
從實(shí)際體驗過程來看,LongCat-Image在“連續(xù)指令可編輯性”上的表現(xiàn)是較為穩(wěn)定的,我們直接拿近期大火的《瘋狂動物城2》相關(guān)圖片進(jìn)行測試,在同一角色基礎(chǔ)上連續(xù)進(jìn)行多輪修改。

▲參考圖
指令:修改為像素風(fēng)格作品。

指令:重繪為彩色,保留像素質(zhì)感。

指令:圖片角色重繪為模仿樂高積木主題的動物。

在漫畫圖像測試中,通過像素風(fēng)、彩色像素重繪以及模仿樂高積木動物主題的連續(xù)重繪指令,模型可以保持角色結(jié)構(gòu)穩(wěn)定,同時完成風(fēng)格與材質(zhì)的多輪遷移。多次修改過程中,人物輪廓和構(gòu)圖基本未出現(xiàn)明顯錯誤。
在此基礎(chǔ)上,我們也進(jìn)一步嘗試了電影海報的制作場景,用同一角色圖進(jìn)行主視覺海報生成與多語言標(biāo)題渲染測試。
指令:電影《瘋狂動物城2》的宣傳海報,海報的主畫面是電影主角的精彩場面,主標(biāo)題用藝術(shù)手寫字體“瘋狂動物城2”,下面附上英文名“Zootopia”,另外附上電影海報需要的其他小字,文字清晰可辨認(rèn)。

在電影海報場景中,模型對參考圖的繼承能力較為穩(wěn)定,無論是角色形象還是動態(tài)姿勢,都能與原始圖片保持較高一致度,中英文標(biāo)題的主標(biāo)題表現(xiàn)也較為清晰。不過在“小字”區(qū)域,一系列細(xì)節(jié)文字仍然存在亂碼與英文混雜的問題,說明中文文字渲染在復(fù)雜排版場景下依然存在不穩(wěn)定性。
進(jìn)一步測試人物檔案式中文海報時,模型可以正確渲染部分核心字段信息,但仍不可避免地出現(xiàn)中英文錯位與局部亂碼。
指令:生成動畫電影角色的人物檔案式宣傳海報,用文字體現(xiàn)以下信息: 尼克?王爾德(Nick Wilde),是一只在迪士尼動畫電影《瘋狂動物城》中出場的狐貍。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 職業(yè):從騙子到警察。 搭檔:兔子警官朱迪。 經(jīng)典臺詞:“傷了你的小心臟?”

在產(chǎn)品級渲染測試中,朱迪警官玩偶在影棚光、臺燈暖光、自然光客廳與床品光照等多個現(xiàn)實(shí)場景下的質(zhì)感表現(xiàn)相對穩(wěn)定。短絨毛的細(xì)節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質(zhì)對比都能夠被較為準(zhǔn)確地表現(xiàn)出來,整體更接近商業(yè)產(chǎn)品渲染效果。

相比之下,在主流模型較為擅長的游戲界面生成場景中,LongCat-Image的短板更為明顯。無論是卡牌游戲、射擊游戲,還是MOBA類第一視角界面,整體風(fēng)格都偏向十多年前的UI設(shè)計審美,與當(dāng)下主流游戲產(chǎn)品存在明顯代差。
指令:生成一個卡牌游戲界面。

指令:生成一個射擊游戲界面。

指令:生成一個英雄聯(lián)盟的游戲界面。

指令:生成一個王者榮耀第一視角的游戲界面。

從本次測試結(jié)果來看,LongCat-Image在改圖與產(chǎn)品渲染類任務(wù)中的可用性更高,而在游戲界面與復(fù)雜排版場景中的表現(xiàn)相對一般。
03.結(jié)語:開源圖像模型進(jìn)入“可控編輯”競賽,AI生圖戰(zhàn)況升級
從LongCat-Image的整體定位來看,美團(tuán)并沒有試圖用更大的參數(shù)規(guī)模去正面沖擊旗艦級生圖模型,而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個方向上深挖。
圖像模型的競爭焦點(diǎn),正在快速向“能否真正進(jìn)入設(shè)計、產(chǎn)品、品牌等具體生產(chǎn)流程”的實(shí)用能力集中。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




