谷歌開(kāi)源輕量級(jí)大模型Gemma 3 270M,性能超Qwen 2.5同級(jí)
谷歌開(kāi)源的Gemma 3 270M登場(chǎng)啦!這一模型如同谷歌版小鋼炮,專(zhuān)為終端而生,僅有0.27B,還配備4個(gè)注意力頭,性能卻超越了Qwen 2.5同級(jí)模型。
它只需幾分鐘就能完成微調(diào),指令遵循和文本結(jié)構(gòu)化能力相當(dāng)出色。發(fā)布當(dāng)天,不少網(wǎng)友還鬧了個(gè)小烏龍,以為是270B,結(jié)果實(shí)際才0.27B。
這個(gè)模型小巧又高效,能直接在瀏覽器里本地運(yùn)行,無(wú)需聯(lián)網(wǎng)也能生成創(chuàng)意內(nèi)容,像睡前故事之類(lèi)的。甚至有人用它構(gòu)建了自己的OCR應(yīng)用程序,上傳圖片或PDF文件,就能用LLM即時(shí)將其轉(zhuǎn)換為結(jié)構(gòu)化的Markdown格式。
值得注意的是,新模型只有4個(gè)注意力頭,比Qwen 3 0.6B少12個(gè),很符合其輕量化定位。
下面一起來(lái)看看這款迷你Gemma 3的亮點(diǎn)吧。
Gemma 3 270M核心功能
就像不會(huì)用大錘掛相框一樣,利用人工智能也應(yīng)遵循“為工作選擇合適工具”的理念,Gemma 3 270M就充分體現(xiàn)了這一點(diǎn)。
作為基礎(chǔ)模型,它開(kāi)箱就能精準(zhǔn)遵循指令,微調(diào)更能釋放其真正實(shí)力。經(jīng)過(guò)專(zhuān)門(mén)優(yōu)化,在文本分類(lèi)、數(shù)據(jù)提取等任務(wù)中,它能做到準(zhǔn)確、快速且成本可控。其核心功能可概括為以下4部分:
緊湊且高效的架構(gòu)
新模型包含2.7億參數(shù),其中1.7億是嵌入層參數(shù)(因龐大詞匯量),另外1億是Transformer模塊參數(shù)。憑借25.6萬(wàn)token的龐大詞匯量,它能處理特定及罕見(jiàn)詞匯,是特定領(lǐng)域和語(yǔ)言進(jìn)一步微調(diào)的理想模型。
極致的能源效率
該模型參數(shù)規(guī)模在終端運(yùn)行毫無(wú)壓力。內(nèi)部測(cè)試顯示,在Pixel 9 Pro手機(jī)(SoC芯片)上運(yùn)行INT4量化版時(shí),25輪對(duì)話(huà)僅消耗0.75%電量,是能效最高的Gemma模型。
指令遵循
此次發(fā)布包含經(jīng)過(guò)指令微調(diào)的模型及對(duì)應(yīng)的預(yù)訓(xùn)練檢查點(diǎn),開(kāi)箱就能精準(zhǔn)遵循常規(guī)指令。
可用于生產(chǎn)的量化支持
此模型提供經(jīng)過(guò)量化感知訓(xùn)練(QAT)的檢查點(diǎn),能讓模型以INT4精度運(yùn)行,且性能損耗極小,這對(duì)在資源受限設(shè)備上部署非常重要。
何時(shí)選擇迷你版Gemma 3
輕量化模型在現(xiàn)實(shí)應(yīng)用中的強(qiáng)大威力已得到充分展現(xiàn)。2025年7月,Adaptive ML與SK Telecom合作,面對(duì)復(fù)雜的多語(yǔ)言?xún)?nèi)容審核挑戰(zhàn),他們沒(méi)有用龐大的通用模型,而是對(duì)Gemma 3 4B模型進(jìn)行針對(duì)性微調(diào)。結(jié)果很驚艷,微調(diào)后的專(zhuān)用Gemma模型不僅滿(mǎn)足目標(biāo)任務(wù)要求,還在特定任務(wù)上超越了許多大體量的專(zhuān)有模型。
Gemma 3 270M能讓開(kāi)發(fā)者進(jìn)一步采用這種方法,為明確的任務(wù)釋放更高效率。那什么時(shí)候適合選擇這款迷你版Gemma 3呢?
1、批量處理專(zhuān)業(yè)任務(wù):它適合處理情感分析、實(shí)體提取、查詢(xún)路由、非結(jié)構(gòu)化文本轉(zhuǎn)結(jié)構(gòu)化、創(chuàng)意寫(xiě)作及合規(guī)性檢查等任務(wù)。
2、嚴(yán)格控制響應(yīng)時(shí)間和成本:能大幅降低甚至消除生產(chǎn)環(huán)境中的推理成本,為用戶(hù)提供更快速的響應(yīng)。微調(diào)后的270M模型可運(yùn)行于輕量、低成本的基礎(chǔ)設(shè)施,甚至能直接部署在終端設(shè)備上。
3、快速迭代和部署:小模型規(guī)模能實(shí)現(xiàn)快速的微調(diào)實(shí)驗(yàn),幫助在數(shù)小時(shí)而非數(shù)天內(nèi)找到適合用例的完美配置。
4、確保用戶(hù)隱私:該模型可完全在設(shè)備上運(yùn)行,無(wú)需將數(shù)據(jù)發(fā)送到云端。
5、多任務(wù)專(zhuān)業(yè)部署:能在預(yù)算范圍內(nèi),構(gòu)建并部署多個(gè)定制模型,且每個(gè)模型都針對(duì)特定任務(wù)進(jìn)行專(zhuān)業(yè)訓(xùn)練。
要是想快速上手Gemma 3 270M,按下面四步來(lái)就行。
首先,可從Hugging Face、Ollama、Kaggle、LM Studio或Docker獲取該模型。
接著用Vertex AI、llama.cpp、Gemma.cpp、LiteRT、Keras和MLX等工具進(jìn)行測(cè)試。
然后使用Hugging Face、UnSloth或JAX等工具進(jìn)行個(gè)性化微調(diào)。
最后,可將定制好的模型一鍵部署到本地環(huán)境或谷歌Cloud Run等任何環(huán)境。
參考鏈接:
[1]https://x.com/rasbt/status/1956130338431713307
[2]https://x.com/osanseviero/status/1956024223773663291
[3]https://developers.googleblog.com/en/introducing-gemma-3-270m/
本文來(lái)自微信公眾號(hào)“量子位”,作者:時(shí)令,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀(guān)點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com