蘋果黑科技:iPhone AI 提速 5 倍
IT 之家 8 月 9 日消息,科技媒體 9to5Mac 于 8 月 8 日發(fā)布博文,報道稱蘋果在最新研究中提出了“多 token 預(yù)測”(MTP)技術(shù)。在不犧牲輸出質(zhì)量的情況下,該技術(shù)可將大語言模型響應(yīng)速度提升 2 - 3 倍,在特定場景下最高能達到 5 倍。
IT 之家援引博文介紹,傳統(tǒng)大語言模型(LLM)采用自回歸方式生成文本,逐個輸出 token,為保證連貫性,每一步都依賴前序內(nèi)容。
例如,在生成“ The cat is black ”時,模型需在輸出“ is ”后,基于上下文和訓(xùn)練經(jīng)驗,從詞匯表中計算“ black ”等候選詞的概率,再選擇最合適的詞。這種串行機制雖然準(zhǔn)確,但速度受限,尤其在移動設(shè)備上會影響用戶體驗。
蘋果在新論文《Your LLM Knows the Future: Uncovering Its Multi - Token Prediction Potential》中發(fā)現(xiàn),盡管模型僅被訓(xùn)練為預(yù)測下一個詞,但其內(nèi)部其實蘊含對后續(xù)多個詞的潛在判斷能力。

研究團隊據(jù)此提出“多 token 預(yù)測”(MTP)框架,支持模型一次生成多個詞。比如輸入“ The cat is ”,模型可直接輸出“ very fluffy ”,大幅提升了生成效率。
該技術(shù)的核心在于引入“掩碼”(Mask)token 作為占位符,并讓模型并行推測后續(xù)多個詞。每個推測結(jié)果會立即與標(biāo)準(zhǔn)自回歸解碼結(jié)果比對,若不符則自動回退到逐詞生成模式,確保輸出質(zhì)量不受影響。這一“推測 - 驗證”機制在提速的同時,保留了傳統(tǒng)方法的準(zhǔn)確性,實現(xiàn)了速度與質(zhì)量的平衡。
實驗基于開源模型 Tulu3 - 8B 進行,蘋果訓(xùn)練其最多推測 8 個后續(xù) token。結(jié)果顯示,在問答和對話等通用任務(wù)中,響應(yīng)速度平均提升 2 - 3 倍;在代碼生成、數(shù)學(xué)推理等結(jié)構(gòu)化場景中,提速可達 5 倍。
研究人員強調(diào),性能提升未以犧牲生成質(zhì)量為代價,關(guān)鍵在于采用了“門控 LoRA 適配”技術(shù),動態(tài)調(diào)節(jié)參數(shù),僅在需要時激活推測模塊。

這項研究為設(shè)備端大模型部署提供了新路徑。相比依賴云端計算,MTP 可在 iPhone、Mac 等本地設(shè)備實現(xiàn)更快響應(yīng),降低延遲與能耗。
雖然目前該技術(shù)仍處于研究階段,但其兼容現(xiàn)有模型架構(gòu)的特點,使其具備較強落地潛力,未來或可集成至 Siri、Apple Intelligence 等產(chǎn)品中,提升用戶交互體驗。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com