斯坦福AI團隊“套殼”清華開源大模型被錘了。被曝光后,全網(wǎng)刪除倉庫跑路。
5 月 29 來自斯坦福的作者團隊日 Medium 上面發(fā)表了一篇名字《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,在這篇文章中,他們說他們訓(xùn)練了一個比較 GPT-4V、Gemini Ultra、Claude Opus 更強的 SOTA 開源多模態(tài)模型,尺寸比 GPT4-V 小 100 倍數(shù),訓(xùn)練費用只需要 500 美金。
斯坦福 AI 團隊“套殼”清華開源大模型被錘。
該團隊人員 Aksh Garg 也在 X(原 Twitter)發(fā)帖介紹了這個模型的特點。這個帖子的訪問量很快就超過了。 30 萬,被轉(zhuǎn)發(fā)了 300 數(shù)次,Llama 3-V 這個項目突然沖了進來 HuggingFace 首頁。
伴隨著這個項目的熱度不斷上升, X 和 HuggingFace 網(wǎng)民們注意到,Llama 3-V 總讓人有一種似曾相識的感覺,仿佛在哪里見過!
網(wǎng)民們接著深扒之后發(fā)現(xiàn), Llama 3-V 看起來,有點,好像是套殼清華系開源大模型 MiniCPM-Llama3-V 2.5。
據(jù)悉,MiniCPM-Llama3-V 2.5 是由清華系 AI 公司面壁智能推出并開源 MiniCPM 最新的端側(cè)多模態(tài)模型系列,總參數(shù)為 8B,支持 30 各種語言,多模態(tài)綜合型可以超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等待商業(yè)閉源模型,OCR 能力和指令跟隨能力得到進一步提高,可以準(zhǔn)確識別難圖、長圖、長文本。
面臨網(wǎng)民的質(zhì)疑,斯坦福 AI 這個團隊也不淡定,他們說只是用了。 MiniCPM-Llama3-V 2.5 的 tokenizer,而且聲稱在 MiniCPM-Llama3-V 2.5 這項工作在發(fā)布之前就開始了。
但是他們的解釋又一次受到質(zhì)疑。
一般而言,一個模型及其詳細的模型 tokenizer 常常是在它發(fā)布之后才被外人知道,那么斯坦福這個 AI 怎樣才能有一個團隊 MiniCPM-Llama3-V 2.5 這些信息是在發(fā)布之前獲得的?
這個問題繼續(xù)在網(wǎng)上發(fā)醇。
6 月 2 日,網(wǎng)友們不死心 Llama3-V 的 GitHub Issue 上面提出質(zhì)疑,或許是因為心虛,這條質(zhì)疑的評論很快就會被質(zhì)疑。 Llama3-V 團隊刪掉。
幸好,發(fā)表質(zhì)疑的網(wǎng)友早就機智地提前截圖保存了自己。 GitHub Issue 上面發(fā)布的內(nèi)容。
在他看來,這位網(wǎng)友列舉了這個網(wǎng)友。 Llama3-V“套殼” MiniCPM-Llama3-V 2.5 四個證據(jù):
證據(jù)1:模型結(jié)構(gòu)和代碼幾乎是雙胞胎兄弟。
舉例來說,套殼 Llama3-V 與 MiniCPM-Llama3-V 2.5 模型結(jié)構(gòu)和代碼結(jié)構(gòu)幾乎“同用”。。Llama3-V 模型結(jié)構(gòu)及環(huán)境變量 MiniCPM-Llama3-V 2.5 完全一致,只是變量名不同。
左圖:MiniCPM-Llama3-V 2.5 ,右邊圖片:Llama3-V
證據(jù)二:Llama3-V 好像代碼就是這樣 MiniCPM-Llama3-V 2.5 代碼。更令人震驚的是,Llama3-V 只是重新格式化了一些變量,重新命名了一些變量,比如圖像切片、分詞器、重新采樣器、數(shù)據(jù)加載等變量。下圖是一些例子。
證據(jù)三:Llama3-V 作者說他們“引用了他們” LLaVA-UHD 作為架構(gòu)”,也列出了差異點(關(guān)于差異點 ViT 和 LLM 的挑選)。但是他們沒有提到,這個項目的具體實現(xiàn)和 MiniCPM-Llama3-V 2.5 極為相似,但在許多方面,如空間模式。 LLaVA-UHD 差別很大。Llama3-V 也具有與 MiniCPM-Llama3V 2.5 包括相同的分詞器 MiniCPM-Llama3-V 2.5 特殊符號的新定義。
證據(jù)四:初始 Llama3-V 作者在上傳代碼時直接導(dǎo)入 MiniCPM-V 代碼,然后把名字改成代碼 Llama3-V。
https://huggingface.co/mustafaaljadery/llama3v/commit3bee89259ecac051d5c3e58ab619e3fef20ea619e3fef
面壁智能團隊結(jié)局實錘, 斯坦福 AI 團隊連夜刪除倉庫跑路
斯坦福經(jīng)常受到質(zhì)疑, AI 這個團隊已經(jīng)被迫不回應(yīng)了,真的說不出來,有網(wǎng)友開臉貼大項目的作者,“大家有勇氣面對事實嗎?”
在這種情況下,團隊成員不得不回應(yīng)網(wǎng)友關(guān)心的問題。這個項目的一位作者說:
"你說我們抄襲簡直就是無影之事。Llama3-V 推理存在 bug,而 MiniCPM 配置能有效地解決這個問題,這就是為什么我們使用相同的配置。另外,我已指出結(jié)構(gòu)是相似的,但是 MiniCPM 的架構(gòu)來自 Idéfics。SigLIP 也來自 Idéfics。我們遵循 Idéfics 這些內(nèi)容在論文中。LLava UHD 從他們的實驗室來看,我也指出了這一點。另外,我還強調(diào)了更多的內(nèi)容,即它是相同的結(jié)構(gòu),但是這個結(jié)構(gòu)是基于綜合研究,你怎么能說它是一個結(jié)構(gòu)? MiniCPM 呢?MiniCPM 代碼,看起來,視覺部分也是從 Idéfics 那兒用的?!?/p>
很多網(wǎng)友也注意到了,Llama3-V 在 MiniCPM-Llama3-V 2.5 在項目發(fā)布之前就已經(jīng)使用了。 MiniCPM-Llama3-V 2.5 的 tokenizer 。還有一些用戶 Twitter 和 HuggingFace 在指出上述問題之后,Llama3-V 作者說,他們只是使用它們。 MiniCPM-Llama3-V 2.5 的分詞器(tokenizer)。她們也聲稱在那里 MiniCPM-Llama3-V 2.5 在發(fā)布之前就開始了 Llama3-V 工作。但是令人無法解釋的是,他們怎樣才能呢? MiniCPM-Llama3-V 2.5 其詳細的分詞器是在發(fā)布前獲得的?
在這方面,Llama3-V 項目作者反駁說,從上一代發(fā)布的那一代開始 MinicPM-V-2 項目中的標(biāo)記器。其實,有網(wǎng)友注意到了,MiniCPM-V-2 的 tokenizer 與 MinicPM-Llama3-V2.5 完全不同,在 Huggingface 里面有兩個文檔。不是同一個 tokenizer 文件的大小也完全不同。MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 一些特殊的系列模型 token 構(gòu)成,MiniCPM-v2 因為在 Llama 3 開源前發(fā)布的,不會發(fā)生, Llama 3 的分詞器。
Llama3-V 團隊屢遭質(zhì)疑卻一直咬死不認的態(tài)度,激怒了面壁智能。 MiniCPM-Llama3-V 2.5 團隊研究人員。
6 月 3 日,面壁智能化 AI 前線列舉了一些 Llama3-V 團隊抄襲的“實錘”。
面壁智能感覺,Llama3-V 這個項目的作者似乎沒有完全理解 MiniCPM-Llama3-V 2.5 結(jié)構(gòu),甚至不理解它們自己的代碼。
如下圖 Llama3-V 技術(shù)博客和代碼顯示, Llama3-V 作者似乎沒有完全理解。 MiniCPM-Llama3-V 2.5 結(jié)構(gòu),甚至不了解他們的“自我”代碼(如果真的是他們寫的)。
重新采樣感知器(Perceiver resampler)是單層 cross-attention,而不是兩層 self-attention。但如下圖所示 Llama3-V 在技術(shù)博客中,作者的理解顯然是錯誤的。此外 SigLIP 的 Sigmoid 激活也不用于訓(xùn)練多模態(tài)大語言模型,而只用于預(yù)訓(xùn)練。 SigLIP。
面壁智能團隊還強調(diào):“另外,不需要提取視覺特征。 Sigmoid 激活,但如下圖所示 Llama3-V 在技術(shù)博客中,作者的理解是錯誤的,但是代碼實際上是正確的,這表明作者對自己的代碼一無所知。
另外,Llama3-V 相當(dāng)于 MiniCPM-Llama3-V 2.5 添加噪聲版本。
根據(jù)網(wǎng)民的反饋,當(dāng)運行 Llama3-V 當(dāng)時,作者無法提供代碼。 HuggingFace 上的 checkpoint 搭配使用。
但是,令人可笑的是,當(dāng)把手 Llama3-V 改變模型權(quán)重中的變量名稱 MiniCPM-Llama3-V 2.5 在名稱之后,模型能夠成功運行 MiniCPM-V 代碼。這一下子幫助解決了困擾 Llama3-V 一個星期作者的問題。
若是在 MiniCPM-Llama3-V 2.5 的 checkpoint 添加一個簡單的高斯噪聲(由一個標(biāo)量參數(shù)化),你會期望得到什么結(jié)果?
new_dict = {}for k, v in model.state_dict().items(): torch.cuda.manual_seed_all(42) new_dict[k] = v torch.randn_like(v) / 708model.load_state_dict(new_dict)
因此,你會得到一種行為和行為。 Llama3-V 非常相似的模型。
然而,這還不夠。更令人痛心的是,Llama3-V團隊甚至可以獲得清華團隊內(nèi)部沒有公開的私人數(shù)據(jù)??
根據(jù)面壁智能內(nèi)部團隊的說法,Llama3-V 大型模型居然可以識別清華簡,OCR 表現(xiàn)對比也非常驚人,這些清華大學(xué)內(nèi)部的私人數(shù)據(jù)他們又是如何獲得的?
MiniCPM-Llama3-V 2.5 實驗功能之一是能夠識別清華簡,這是一個非常特殊和罕見的中國戰(zhàn)國時期(公元) 475 年到公元 221 年)竹簡上寫的古文字。這些訓(xùn)練數(shù)據(jù)的收集和標(biāo)注由清華提供 NLP 實驗室和面壁智能團隊完成,相關(guān)數(shù)據(jù)尚未公開。經(jīng)專有數(shù)據(jù)訓(xùn)練后,MiniCPM-Llama3-V 2.5 能初步識別清華簡的文字,甚至犯同樣的錯誤。
但令人驚訝的是,不可能獲得專有數(shù)據(jù)訓(xùn)練。 Llama3-V 甚至還有同樣的能力!
下圖展現(xiàn)了 Llama3-V 鑒別清華簡的文字時,其結(jié)果和 MiniCPM-Llama3-V 2.5 一致。
有趣的是,Llama3-V 甚至在清華簡識別犯錯的時候也和 MiniCPM-Llama3-V 2.5 一模一樣。
為了謹慎起見,作者在 1000 根據(jù)張竹簡圖像,檢測了幾種圖像。 Llama3 的視覺 - 語言模型,并對每對模型的預(yù)測進行精確匹配比較。
資料表明,通常每兩個模型之間的重疊為零,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 它們之間的重疊實際上是驚人的。 87%!此外,MiniCPM-Llama3-V 2.5 和 Llama3-V 即使是錯誤的分布也非常相似。Llama3-V 和 MiniCPM-Llama3-V 2.5 分別為 236 和 194 一個錯誤的預(yù)測,其中重疊部分高達 182 個。
另外,這種高斯噪音對竹簡字符也很有效。
與 MiniCPM-Llama3-V 2.5 類似,Llama3-V 還顯示出非常強大的表現(xiàn) OCR 能力,甚至包括中文。
Prompt:請導(dǎo)出圖片中的文字
MiniCPM-Llama3-V 2.5
Llama3-V
內(nèi)部也會發(fā)生同樣的事情。 WebAgent 數(shù)據(jù)上,這這是一個已經(jīng)整合但尚未發(fā)布的功能。
事到此為止,網(wǎng)友們都在等待斯坦福。 AI 當(dāng)團隊再次發(fā)文證明清白時,AI 前線注意到,團隊成員似乎集體“閉麥”,并刪除了他們。 X 上官宣模型的推文,連同這個項目 Github 和 HuggingFace 上面的庫也被刪除了。
Github 開源:
https://github.com/mustafaaljadery/llama3v(已刪庫)
HuggingFace 開源:
https://huggingface.co/mustafaaljadery/llama3v(已刪庫)
Medium 發(fā)布文章:
https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee
Twitter 官宣模型:
https://twitter.comGarg03//Akshstatus/179554545516931355(已刪除)
而且面壁智能團隊成員也對此事做出了最新的回應(yīng),他們說看到這個消息還是很傷心的。根據(jù)調(diào)查結(jié)論:
1、Llama3-V 在更改參數(shù)名后,可以使用 MiniCPM-Llama3-V 2.5 運行代碼和配置
2、它的行為與之相似 MiniCPM-Llama3-V 2.5 未透露的實驗特征在內(nèi)部數(shù)據(jù)訓(xùn)練中,如清華簡(一種特殊類型的古漢字)和 GUIAgent
3、這有點類似于噪音版本。 MiniCPM-Llama3-V 2.5?
本文來自微信微信官方賬號“AI前線”(ID:ai-front),整理:冬梅,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com