亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

國(guó)產(chǎn)圖像大模型再添開源新作,LongCat-Image實(shí)測(cè)連續(xù)編輯表現(xiàn)亮眼,中文渲染仍有提升空間

1天前
6B參數(shù)規(guī)模的生圖模型躋身開源領(lǐng)域頂尖水平。


智東西12月8日消息,今日,美團(tuán)正式推出并開源了圖像生成模型LongCat-Image。這是一款參數(shù)規(guī)模為6B的模型,在圖像編輯能力上達(dá)到了開源領(lǐng)域的頂尖水準(zhǔn),主要聚焦于文生圖單圖編輯這兩大核心應(yīng)用場(chǎng)景。



根據(jù)官方公布的基準(zhǔn)測(cè)試結(jié)果,LongCat-Image主要與Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流的開源和閉源生圖模型進(jìn)行了對(duì)標(biāo),其核心優(yōu)化方向集中在“編輯可控性”和“中文文字渲染”這兩項(xiàng)關(guān)鍵能力上。


在實(shí)際使用體驗(yàn)中,該模型在連續(xù)修改圖片、風(fēng)格變換以及材質(zhì)細(xì)節(jié)呈現(xiàn)方面表現(xiàn)出色,但在面對(duì)復(fù)雜排版場(chǎng)景時(shí),中文文字渲染依然存在不穩(wěn)定的情況。在處理復(fù)雜UI設(shè)計(jì)、游戲界面生成等任務(wù)時(shí),模型的審美也暴露出一定的不足,這可能與其不具備聯(lián)網(wǎng)搜索功能有關(guān)。


在體驗(yàn)入口方面,美團(tuán)也同步提供了多種使用途徑。在移動(dòng)端,LongCat APP已經(jīng)支持文生圖和圖生圖功能;在網(wǎng)頁(yè)端,用戶可以通過(guò)https://longcat.ai/進(jìn)入圖片生成入口進(jìn)行體驗(yàn)。


對(duì)于開發(fā)者來(lái)說(shuō),LongCat-Image的模型權(quán)重和代碼也已同步開源:


Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image


GitHub: https://github.com/meituan-longcat/LongCat-Image


接下來(lái),我們將詳細(xì)了解LongCat-Image的模型結(jié)構(gòu)、評(píng)測(cè)成績(jī)以及具體的實(shí)測(cè)表現(xiàn)。


01.從模型結(jié)構(gòu)到評(píng)測(cè)成績(jī),LongCat-Image以“編輯可控性”和“中文渲染”為核心發(fā)展方向


從模型設(shè)計(jì)角度來(lái)看,LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構(gòu),并借助漸進(jìn)式學(xué)習(xí)策略,在僅6B的參數(shù)規(guī)模下,實(shí)現(xiàn)了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染三項(xiàng)能力的協(xié)同提升。



▲模型架構(gòu)


這套訓(xùn)練方案并非從零開始盲目增加參數(shù),而是基于文生圖中期訓(xùn)練模型進(jìn)行初始化,并在后續(xù)階段采用文生圖與指令編輯的多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,以此避免編輯能力在后續(xù)訓(xùn)練階段被削弱的問(wèn)題。


在圖像編輯能力方面,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個(gè)編輯類基準(zhǔn)測(cè)試中取得了開源領(lǐng)域的頂尖成績(jī)



▲客觀基準(zhǔn)測(cè)試性能對(duì)比


LongCat-Image通過(guò)引入多源數(shù)據(jù)預(yù)訓(xùn)練、指令改寫策略以及人工精心標(biāo)注的SFT數(shù)據(jù),使得模型在應(yīng)對(duì)復(fù)雜編輯要求時(shí),更不容易出現(xiàn)風(fēng)格偏移和結(jié)構(gòu)失真的情況。


針對(duì)中文文字渲染這一長(zhǎng)期存在的難題,LongCat-Image采用了覆蓋8105個(gè)規(guī)范漢字的合成字形數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并在SFT階段引入真實(shí)世界的文本圖片來(lái)強(qiáng)化排版和字體泛化能力,在RL階段還引入了OCR與美學(xué)雙獎(jiǎng)勵(lì)模型共同進(jìn)行約束,最終在ChineseWord評(píng)測(cè)中獲得了90.7分的成績(jī),領(lǐng)先于現(xiàn)有的開源模型。


在真實(shí)感方面,LongCat-Image通過(guò)對(duì)抗訓(xùn)練和嚴(yán)格的數(shù)據(jù)篩選機(jī)制,刻意避開AIGC常見的“塑料感”紋理問(wèn)題,并在RL階段引入AIGC檢測(cè)器作為獎(jiǎng)勵(lì)信號(hào),反向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理和光影變化。


綜合評(píng)測(cè)結(jié)果顯示,在人類主觀評(píng)分(MOS)維度上,LongCat-Image在文本對(duì)齊、視覺真實(shí)度與美學(xué)質(zhì)量等多個(gè)子項(xiàng)上的表現(xiàn)已經(jīng)接近Seedream4.0等商業(yè)模型的水平。



▲人類主觀評(píng)分(MOS)對(duì)比



▲并列對(duì)比評(píng)估勝率(SBS)


在圖像編輯任務(wù)的并列對(duì)比評(píng)估(SBS)中,LongCat-Image-Edit在綜合質(zhì)量與一致性這兩項(xiàng)關(guān)鍵指標(biāo)上,相對(duì)于NanoBanana和Qwen-Image-Edit等模型都取得了較高的勝率。


整體而言,LongCat-Image在圖像編輯任務(wù)上已經(jīng)接近部分閉源模型的水平,在文生圖基礎(chǔ)能力上也處于開源領(lǐng)域的頭部陣營(yíng)。


02.從漫畫重繪到玩偶產(chǎn)品渲染,連續(xù)編輯表現(xiàn)穩(wěn)定,中文渲染仍是待優(yōu)化之處


從實(shí)際體驗(yàn)過(guò)程來(lái)看,LongCat-Image在“連續(xù)指令可編輯性”方面的表現(xiàn)較為穩(wěn)定。我們直接使用近期熱門的《瘋狂動(dòng)物城2》相關(guān)圖片進(jìn)行測(cè)試,在同一角色的基礎(chǔ)上連續(xù)執(zhí)行多輪修改指令。



▲參考圖


指令:修改為像素風(fēng)格作品。



指令:重繪為彩色,保留像素質(zhì)感。



指令:圖片角色重繪為模仿樂(lè)高積木主題的動(dòng)物。



在漫畫圖像測(cè)試中,通過(guò)像素風(fēng)、彩色像素重繪以及模仿樂(lè)高積木動(dòng)物主題的連續(xù)重繪指令,模型能夠保持角色結(jié)構(gòu)穩(wěn)定,同時(shí)完成風(fēng)格與材質(zhì)的多輪遷移。在多次修改過(guò)程中,人物輪廓和構(gòu)圖基本沒有出現(xiàn)明顯錯(cuò)誤。


在此基礎(chǔ)上,我們進(jìn)一步嘗試了電影海報(bào)的制作場(chǎng)景,使用同一角色圖進(jìn)行主視覺海報(bào)生成與多語(yǔ)言標(biāo)題渲染測(cè)試。


指令:電影《瘋狂動(dòng)物城2》的宣傳海報(bào),海報(bào)的主畫面是電影主角的精彩場(chǎng)面,主標(biāo)題用藝術(shù)手寫字體“瘋狂動(dòng)物城2”,下面附上英文名“Zootopia”,另外附上電影海報(bào)需要的其他小字,文字清晰可辨認(rèn)。



在電影海報(bào)場(chǎng)景中,模型對(duì)參考圖的繼承能力較為穩(wěn)定,無(wú)論是角色形象還是動(dòng)態(tài)姿勢(shì),都能與原始圖片保持較高的一致度,中英文標(biāo)題的主標(biāo)題表現(xiàn)也較為清晰。不過(guò)在“小字”區(qū)域,一系列細(xì)節(jié)文字仍然存在亂碼與英文混雜的問(wèn)題,這表明中文文字渲染在復(fù)雜排版場(chǎng)景下依然存在不穩(wěn)定性。


進(jìn)一步測(cè)試人物檔案式中文海報(bào)時(shí),模型可以正確渲染部分核心字段信息,但仍不可避免地出現(xiàn)中英文錯(cuò)位與局部亂碼的情況。


指令:生成動(dòng)畫電影角色的人物檔案式宣傳海報(bào),用文字體現(xiàn)以下信息: 尼克?王爾德(Nick Wilde),是一只在迪士尼動(dòng)畫電影《瘋狂動(dòng)物城》中出場(chǎng)的狐貍。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 職業(yè):從騙子到警察。 搭檔:兔子警官朱迪。 經(jīng)典臺(tái)詞:“傷了你的小心臟?”



在產(chǎn)品級(jí)渲染測(cè)試中,朱迪警官玩偶在影棚光、臺(tái)燈暖光、自然光客廳與床品光照等多個(gè)現(xiàn)實(shí)場(chǎng)景下的質(zhì)感表現(xiàn)相對(duì)穩(wěn)定。短絨毛的細(xì)節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質(zhì)對(duì)比都能夠被較為準(zhǔn)確地呈現(xiàn)出來(lái),整體效果更接近商業(yè)產(chǎn)品渲染水平。



相比之下,在主流模型較為擅長(zhǎng)的游戲界面生成場(chǎng)景中,LongCat-Image的短板更為明顯。無(wú)論是卡牌游戲、射擊游戲,還是MOBA類第一視角界面,整體風(fēng)格都偏向十多年前的UI設(shè)計(jì)審美,與當(dāng)下主流游戲產(chǎn)品存在明顯的代差。


指令:生成一個(gè)卡牌游戲界面。



指令:生成一個(gè)射擊游戲界面。



指令:生成一個(gè)英雄聯(lián)盟的游戲界面。



指令:生成一個(gè)王者榮耀第一視角的游戲界面。



從本次測(cè)試結(jié)果來(lái)看,LongCat-Image在改圖與產(chǎn)品渲染類任務(wù)中的可用性更高,而在游戲界面與復(fù)雜排版場(chǎng)景中的表現(xiàn)相對(duì)一般。


03.結(jié)語(yǔ):開源圖像模型開啟“可控編輯”競(jìng)爭(zhēng),AI生圖領(lǐng)域競(jìng)爭(zhēng)愈發(fā)激烈


從LongCat-Image的整體定位來(lái)看,美團(tuán)并沒有試圖通過(guò)更大的參數(shù)規(guī)模去直接挑戰(zhàn)旗艦級(jí)生圖模型,而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個(gè)方向上進(jìn)行深入挖掘。


圖像模型的競(jìng)爭(zhēng)焦點(diǎn),正在迅速向“能否真正融入設(shè)計(jì)、產(chǎn)品、品牌等具體生產(chǎn)流程”的實(shí)用能力集中。


本文來(lái)自微信公眾號(hào) “智東西”(ID:zhidxcom),作者:江 宇,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com