蘋果新研究:不微調(diào)、不重訓(xùn),如何讓AI提問效率暴增6.5倍?
關(guān)鍵是讓AI學(xué)會問出完美的問題。
在這場以大型語言模型(LLM)為核心的 AI 浪潮中,蘋果似乎一直保持著低調(diào),很少出現(xiàn)在技術(shù)報道的前沿。盡管如此,時不時地,該公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接運行的高效視覺語言模型FastVLM。
近日,蘋果與牛津大學(xué)和香港城市大學(xué)合作的一項新研究吸引了不少關(guān)注。其中提出了一種名為BED-LLM的新方法,能讓 AI 解決問題的能力直接提升 6.5 倍(成功率從 14% 暴增至 91%),而整個過程無需微調(diào)或重新訓(xùn)練,直接在當(dāng)前模型上運行即可。
而實現(xiàn)這一突破的關(guān)鍵,便是讓 AI 學(xué)會問出完美的問題。
那么,究竟該如何做到這一點呢?
論文標(biāo)題:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
論文地址:https://arxiv.org/abs/2508.21184
這要從 LLM 的一個不足之處說起,即難以智能且自適應(yīng)的方式主動從用戶或外部環(huán)境中獲取信息。這就像是 LLM 的「多輪遺忘癥」。
具體而言,雖然現(xiàn)代 LLM 通常能夠一次性生成連貫且富有洞察力的問題(或其他外部查詢),但它們通常難以根據(jù)先前在交互式任務(wù)中收集到的答案進(jìn)行適當(dāng)?shù)恼{(diào)整。比如,已有研究證明,LLM 在多步猜謎游戲、任務(wù)澄清、IT 任務(wù)自動化以及迭代式外部工具使用等問題上表現(xiàn)不佳。
因此,提高 LLM 自適應(yīng)地提出問題和有針對性地收集信息的能力是很有必要的。
簡單來說,LLM 僅僅基于其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據(jù)用戶的實時反饋,動態(tài)調(diào)整策略,精準(zhǔn)地提出下一個最有價值的問題 。
BED-LLM:讓提問成為一門科學(xué)
牛津、蘋果和香港城市大學(xué)的這個聯(lián)合團(tuán)隊提出,可以使用序貫貝葉斯實驗設(shè)計(Bayesian experimental desig/BED)框架來解決這一問題。
該框架提供了一種基于模型的信息論機(jī)制,可用于在給定實驗的生成模型的情況下做出自適應(yīng)設(shè)計決策。
具體而言,該團(tuán)隊展示了如何將使用 LLM 進(jìn)行交互式信息收集的問題表述為一個序貫實驗設(shè)計問題,其中有一個迭代過程:
每次選擇要問的問題(query),都要盡量最大化預(yù)期信息增益(Expected Information Gain, EIG)。
根據(jù)用戶的回答更新信念(belief)。
再基于新的信念選擇下一步要問的問題。
這就像科學(xué)實驗:一步步設(shè)計實驗、收集數(shù)據(jù)、更新假設(shè),而不是一次性問到底。
這里,構(gòu)成序貫 BED 程序的底層生成模型源自 LLM,該團(tuán)隊特別展示了該模型的構(gòu)建方式,并為關(guān)鍵設(shè)計決策提供了廣泛的見解。
該團(tuán)隊將這種方法命名為BED-LLM,即Bayesian Experimental Design with Large Language Models。
這種名為 BED-LLM 的方法之所以高效,源于其背后三重智慧的巧妙設(shè)計:
智慧一:追求真正的信息增益,而非表面上的不確定性
過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題,但這并非最優(yōu)解。BED-LLM 的核心是精確計算 EIG,確保問題能帶來最大價值。
論文中一個生動的例子可以說明這一點 :假設(shè) AI 想了解你的電影偏好,它有兩個問題可選:
問題 A:「你最喜歡什么口味的冰淇淋?」
問題 B:「你最喜歡哪種電影類型?」
對于問題 A,AI 可能完全猜不到答案(即預(yù)測熵很高),但這個答案對于了解你的電影品味毫無幫助(EIG 為 0) 。而問題 B 的答案雖然也不確定,但無論你回答「科幻」還是「喜劇」,都能極大地幫助 AI 縮小猜測范圍,因此它的 EIG 非常高 。BED-LLM 正是基于這種原則來選擇問題的。
智慧二:強(qiáng)制邏輯自洽,糾正 LLM 的遺忘癥
研究發(fā)現(xiàn),即便是 GPT-4o 這樣頂尖的模型,在多輪對話中也常常會忘記之前的約束,提出與歷史回答相矛盾的假設(shè) 。
BED-LLM 引入了先采樣后過濾(sample-then-filter)策略來解決這個問題。
它首先讓 LLM 生成一批可能的答案(例如,在猜名人游戲中生成多個候選人),然后用一個「邏輯過濾器」逐一檢查這些答案是否與用戶之前的所有回答都兼容,將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。
智慧三:生成問題有的放矢,而非天馬行空
在生成候選問題時,BED-LLM 采用了一種更具針對性的條件生成(Conditional generation)策略 。它會先參考當(dāng)前已經(jīng)過篩選、邏輯自洽的假設(shè)池,然后讓 LLM 提出能夠最高效「切分」這些假設(shè)的問題 。這使得提問從一開始就目標(biāo)明確,直指核心。
結(jié)果如何?
為了驗證 BED-LLM 的效果,研究團(tuán)隊將其與兩種主流基準(zhǔn)進(jìn)行了對比:
Naive QA:完全依賴 LLM 的「直覺」來提問。
Entropy:采用簡化的 EIG 版本,即只考慮預(yù)測不確定性的方法 。
結(jié)果顯示,無論是在「20 個問題」猜謎游戲還是電影偏好推薦任務(wù)中,BED-LLM 的表現(xiàn)都全面超越了基準(zhǔn)方法 。
具體而言,該團(tuán)隊首先發(fā)現(xiàn),BED-LLM 在各種 LLM 和目標(biāo)數(shù)量下,顯著提升了 20 個問題問題的成功率。例如,在使用 Mistral-Large 預(yù)測名人時,該團(tuán)隊觀察到成功率從 14% 提升至 91%。
其次,該團(tuán)隊展示了 LLM 在電影推薦方面取得的顯著改進(jìn),表明即使 LLM 的預(yù)測模型與回答者的預(yù)測模型不同,這些優(yōu)勢依然有效。
更具現(xiàn)實意義的是,研究團(tuán)隊還進(jìn)行了一項「模型跨服聊天」的壓力測試:讓提問的 AI 和回答的 AI 使用完全不同的模型(例如,提問方是 Qwen,回答方是 GPT-4o-mini)。
這種設(shè)置更貼近真實世界,因為用戶的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下,BED-LLM 的性能優(yōu)勢依然穩(wěn)固,展現(xiàn)了其強(qiáng)大的穩(wěn)健性。
總而言之,這項研究為我們展示了如何通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架,將 LLM 從一個被動的知識問答庫,轉(zhuǎn)變?yōu)橐粋€主動、高效、且具備邏輯推理能力的信息收集者。這或許預(yù)示著,未來的 AI 交互將不再是簡單的一問一答,而是真正意義上的「智慧對話」。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com