亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

蘋果創(chuàng)新“清單法”:借AI大模型助力小模型執(zhí)行復(fù)雜指令

08-27 06:30

IT之家8月26日消息,科技媒體9to5Mac于昨日(8月25日)發(fā)布博文,報(bào)道稱蘋果研究人員在最新論文中提出“基于清單反饋的強(qiáng)化學(xué)習(xí)”(RLCF)方法,用任務(wù)清單取代傳統(tǒng)的人類點(diǎn)贊/點(diǎn)踩評(píng)分方式,極大提升了大語(yǔ)言模型(LLMs)執(zhí)行復(fù)雜指令的能力。


IT之家注:RLCF全稱為Reinforcement Learning from Checklist Feedback,與傳統(tǒng)的“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)依賴人工點(diǎn)贊/點(diǎn)踩不同,RLCF會(huì)為每條用戶指令生成具體的檢查清單,并按0 - 100分逐項(xiàng)評(píng)分,以此來指導(dǎo)模型優(yōu)化。


研究團(tuán)隊(duì)在強(qiáng)指令跟隨模型Qwen2.5 - 7B - Instruct上對(duì)該方法進(jìn)行測(cè)試,測(cè)試涵蓋了五個(gè)常用評(píng)測(cè)基準(zhǔn)。結(jié)果顯示,RLCF是唯一在所有測(cè)試中都取得提升的方案:


FollowBench硬性滿意率提升了4個(gè)百分點(diǎn)


InFoBench提高了6點(diǎn)


Arena - Hard勝率增加了3點(diǎn)


某些任務(wù)最高提升達(dá)8.2%。


這表明清單反饋在執(zhí)行復(fù)雜、多步驟需求時(shí)效果顯著。


清單的生成過程也很有特點(diǎn)。團(tuán)隊(duì)借助更大規(guī)模的Qwen2.5 - 72B - Instruct模型,結(jié)合現(xiàn)有的研究方法,為13萬(wàn)條指令生成了“WildChecklists”數(shù)據(jù)集。清單內(nèi)容是明確的二元判斷項(xiàng),例如“是否翻譯成西班牙語(yǔ)?”。之后,大模型對(duì)候選回答逐項(xiàng)打分,綜合加權(quán)后的結(jié)果作為小模型的訓(xùn)練獎(jiǎng)勵(lì)信號(hào)。


蘋果研究者也承認(rèn)該方法存在局限性。其一,它依賴更強(qiáng)的模型作為評(píng)判者,在資源受限的場(chǎng)景下可能無(wú)法實(shí)施。其二,RLCF專注于提升復(fù)雜指令執(zhí)行能力,并非為安全對(duì)齊而設(shè)計(jì),所以不能替代安全性評(píng)估與調(diào)優(yōu)。對(duì)于其他任務(wù)類型,該方法的適用性還需進(jìn)一步驗(yàn)證。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com