重返開源戰(zhàn)場,谷歌打響 AI “斯大林格勒保衛(wèi)戰(zhàn)”
3月2日晚上,谷歌毫無預(yù)兆地發(fā)布了開源模型 Gemma,主打輕量級、高性能,劍指 Meta 的 Llama。Gemma 的發(fā)布意味著谷歌大模型策略的轉(zhuǎn)變:從過去押注閉源追趕 OpenAI,到重返開源賽場,兼顧開源和閉源。
顯然,谷歌這一轉(zhuǎn)變是被迫的。自去年下定決心閉源后,谷歌明顯低估了追趕 OpenAI 的技術(shù)難度,持續(xù)被 OpenAI 壓制,甚至毫無還手之力。就連不久前發(fā)布的大模型核彈 Gemini 1.5,風(fēng)頭也全讓 Sora 搶走了。
不過相比閉源,谷歌在開源戰(zhàn)場也面臨著不小挑戰(zhàn)。盡管谷歌擁有著明顯的技術(shù)優(yōu)勢,而且在開源社區(qū)構(gòu)建上也有豐富的經(jīng)驗。但在 Meta、Mistral 等玩家逐漸主導(dǎo)開源市場的情況下,不占天時的谷歌想要追趕,必須投入更多的資源。
回顧科技競爭史,每一個新時代的來臨,都意味著上個時代科技霸主的衰落。谷歌能否免于這種結(jié)局?從這個角度上說,開源就是谷歌在人工智能戰(zhàn)場的 " 斯大林格勒保衛(wèi)戰(zhàn) "。
最強(qiáng)開源大模型來了!
Gemma 在拉丁語中意為 " 寶石 ", 是由谷歌 DeepMind 和其他團(tuán)隊共同合作開發(fā),采用了與 Gemini 相同的研究和技術(shù)構(gòu)建。
此次 Gemma 發(fā)布了 20 億和 70 億兩種參數(shù)規(guī)模的版本,每個規(guī)模又分預(yù)訓(xùn)練和指令微調(diào)兩個版本。在 Gemini 的技術(shù)加持下,Gemma 形成了對現(xiàn)有開源大模型的碾壓。Gemma 在 18 個基準(zhǔn)測評中平均成績擊敗目前的主流開源模型 Llama 2 和 Mistral,特別是在數(shù)學(xué)、代碼能力上表現(xiàn)突出。
其中,Gemma-7B 模型在涵蓋一般語言理解、推理、數(shù)學(xué)和編碼的 8 項基準(zhǔn)測試中,性能已經(jīng)超越了 Llama 2 7B 和 13B。安全性方面,經(jīng)過指令微調(diào)的 Gemma-2B IT 和 Gemma-7B IT 模型,在人類偏好評估中都超過了 Mistal-7B v0.2 模型。
不過不同于支持多模態(tài)的 Gemini,Gemma 模型不是多模態(tài)的,也沒有針對多語言任務(wù)進(jìn)行訓(xùn)練。但根據(jù)谷歌發(fā)布的技術(shù)報告 Gemma 的分詞器詞表大小達(dá)到 256k。
這個怎么理解?大模型理解用戶提問是將文本轉(zhuǎn)化為數(shù)字之后再進(jìn)行推理的,詞匯表就類似它的字典,其規(guī)模越大,對于復(fù)雜句式和生僻字詞的理解就越強(qiáng),同樣也就能夠更快理解其它語言。Gemma 的分詞器詞表大小達(dá)到 256k,意味著它可以很快學(xué)會使用其他語言。
除了模型本身,另一個值得關(guān)注的點是,Gemma 從最開始的設(shè)計和訓(xùn)練之時,就非常注重安全性,這意味著它非常適合部署在本地使用。例如,谷歌使用 Google Cloud 數(shù)據(jù)丟失防護(hù) ( DLP ) 工具,從訓(xùn)練集中自動過濾掉隱私信息和敏感數(shù)據(jù)。該工具根據(jù)隱私數(shù)據(jù)的類別(例如姓名、電子郵件等)輸出三個嚴(yán)重級別。據(jù)谷歌發(fā)布的技術(shù)報告顯示,最為敏感的信息幾乎完全不會被儲存,潛在隱私數(shù)據(jù)會有部分儲存。
在模型發(fā)布后,Gemma 也第一時間上線了 HuggingFace 和 HuggingChat,用戶可以直接在這些平臺上進(jìn)行下載和試用。發(fā)布才幾個小時,已有不少用戶分享了試用體驗,甚至部分用戶還對其做出了很高的評價,社交平臺 X 用戶 @indigo11 稱其 " 速度飛快 "、" 輸出很穩(wěn)定 "。
" 擰巴 " 的谷歌壓力很大
算上此次發(fā)布的 Gemma,已經(jīng)是谷歌在短短一個月內(nèi)放出的第三次大招。
2 月 9 日,谷歌宣布其最強(qiáng)大模型 Gemini Ultra 免費用,Gemini Ultra 于 2023 年 12 月發(fā)布時在 MMLU(大規(guī)模多任務(wù)語言理解)測評上超過人類專家,在 32 個多模態(tài)基準(zhǔn)中取得 30 個 SOTA(當(dāng)前最優(yōu)效果),幾乎全方位超越 GPT-4。
2 月 16 日大年初七,谷歌放出其大模型核彈—— Gemini 1.5,并將上下文窗口長度擴(kuò)展到 100 萬個 tokens。Gemini 1.5 Pro 可一次處理 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或超過 70 萬字的代碼庫,向還沒發(fā)布的 GPT-5 發(fā)起挑戰(zhàn)。
盡管谷歌動作頻頻,但風(fēng)頭卻全讓 OpenAI 的的文生視頻大模型 Sora 搶走了。而此次谷歌之所以沒有預(yù)告地突然發(fā)布開源模型,恰恰不想重蹈覆轍。畢竟有消息稱,Meta 將在本周內(nèi)發(fā)布 Llama 的升級版。
從表面上看,谷歌搶先 Llama 發(fā)布開源模型是為了挽回近期 " 頹勢 "。但更深層次的原因是,谷歌希望改變長期以來被 OpenAI 壓制的局面,探索更多 " 彎道超車 " 的可能性。
一個無比殘酷的事實是,自 2022 年 12 月 ChatGPT 發(fā)布以來,曾經(jīng) AI 領(lǐng)域的扛把子谷歌就一直被 OpenAI 壓制得死死的,毫無還手之力。
去年 2 月,OpenAI 的 ChatGPT 風(fēng)靡全球,谷歌草草推出了聊天機(jī)器人 Bard,產(chǎn)品卻不如預(yù)期。先是演示中出現(xiàn)事實錯誤,讓谷歌母公司一夜之間市值蒸發(fā)千億美元;而后也沒能以性能表現(xiàn)吸引足量用戶,據(jù) Similarweb 的數(shù)據(jù),Bard 全球月訪問量只有 2.2 億次,僅為 ChatGPT 的 1/8。
去年 12 月 7 日,谷歌又發(fā)布了最強(qiáng)大模型 Gemini,盡管效果驚艷卻令市場有些意興闌珊。2024 年 1 月 31 日,谷歌最新財報顯示其收入亮眼,卻因 AI 方面進(jìn)展不及預(yù)期市值一夜蒸發(fā)超 1000 億美元。
隨著 Sora 的發(fā)布,越來越多人意識到一個問題:在 Scaling Law 的推動下,OpenAI 在閉源模型上的優(yōu)勢越來越大。也就是說,此次宣布進(jìn)軍開源,更像是谷歌在人工智能競賽的被迫之舉。
一方面,相比 Meta 在去年年中進(jìn)軍開源模型,谷歌進(jìn)軍開源模型晚了整整半年,這意味著其需要花數(shù)倍的努力進(jìn)行模型的差異化以及推廣的投入,才有可能在眾多開源模型中脫穎而出。另一方面,至少從披露的內(nèi)容看,相較于其他開源模型,谷歌推出的開源模型也并沒有太多超預(yù)期的地方。
但即使如此,進(jìn)軍開源模型仍然對谷歌意義重大。畢竟,在對陣 OpenAI 節(jié)節(jié)敗退的情況下,谷歌亟需一場勝利來扭轉(zhuǎn)頹勢。而開源模型可能成為谷歌在人工智能戰(zhàn)場的斯大林格勒戰(zhàn)役。
谷歌重回開源
從歷史上看,開源對谷歌來說并不陌生,甚至在相當(dāng)長時間里,谷歌都是技術(shù)開源的堅定支持者。歷史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold 和 AlphaCode,都是谷歌為開源社區(qū)貢獻(xiàn)的創(chuàng)新。
2015 年 11 月,谷歌公布了 TensorFlow,一度成為最流行的開源深度學(xué)習(xí)框架之一。任何人只要擁有電腦和網(wǎng)絡(luò)連接(并且懂一點點深度學(xué)習(xí)算法)就能使用有史以來最強(qiáng)大的機(jī)器學(xué)習(xí)平臺。自 2015 年至今,成千上萬的開源貢獻(xiàn)者、開發(fā)人員、社區(qū)組織者、研究人員都投入到了這一開源軟件庫上。
2018 年,谷歌宣布將 BERT 進(jìn)行開源,這是一種基于神經(jīng)網(wǎng)絡(luò)的自然語言預(yù)訓(xùn)練處理技術(shù),其使用不僅限于搜索算法,任何人都可以在其他類型的問答系統(tǒng)中使用 Bert。更別說,在移動互聯(lián)網(wǎng)時代,谷歌還建立了足以匹敵蘋果的安卓開放生態(tài)。
與 OpenAI 不同,簡單粗暴的 Scaling Law 并不是谷歌唯一的路。此次開源 Gemma,不僅意味著想要重塑自己在 AI 社區(qū)的影響力,也代表谷歌大模型策略的轉(zhuǎn)變:兼顧開源和閉源。
放在當(dāng)下的 AI 行業(yè),發(fā)力開源模型也確實是谷歌一個不錯的選擇。
一方面,相比于閉源模型,開源模型的競爭相對較小,競爭主要來自 Meta 的 Llama。像谷歌在閉源模型的技術(shù)實力和開源社區(qū)方面的經(jīng)驗,使其更有可能形成碾壓的局面。
另一方面,在 AI 落地的故事里,開源模型仍然存在著不小的潛力。原因在于,開源模型的成本優(yōu)勢將更有利于模型的落地。在很多場景里,使用 GPT 就像是開蘭博基尼送外賣,成本過于高昂。有 AI 研究員做過一筆測算,GPT-3.5 的 API 價格幾乎是開源模型 Llama2 推理成本的 3-4 倍,更別提 GPT-4 了。
在移動互聯(lián)網(wǎng)時代,接近衰落的微軟靠著云計算實現(xiàn)了最終的翻盤。如今,在人工智能故事里不如意的谷歌能否復(fù)制這一路徑,我們拭目以待。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com