蘋果在AI方面真的什么都沒做?悄悄建立更小更高效的模型,創(chuàng)造更強(qiáng)的Siri。
盡管蘋果經(jīng)常給人一種AI領(lǐng)域落后的錯覺,但實(shí)際上它正在悄悄地構(gòu)建AI大模型和其它相關(guān)工具。
蘋果希望在智能手機(jī)上運(yùn)行高效、多功能的大型模型,并致力于使這些AI功能離線運(yùn)行。
蘋果正在努力幫助Siri變得更強(qiáng)大,所以在改進(jìn)喚醒詞檢測系統(tǒng)時,確保它能更好地理解和與客戶溝通。
AI在許多領(lǐng)域都具有廣泛的應(yīng)用價值,包括健康醫(yī)療、文藝創(chuàng)作、圖像編輯和音樂等。
在人工智能領(lǐng)域,人們可能很容易產(chǎn)生蘋果起步較晚的錯覺。自2022年底ChatGPT席卷全球以來,蘋果的大部分競爭對手都在加快步伐,努力在人工智能方面取得突破。誠然,蘋果之前提到過人工智能,并發(fā)布了一系列融入人工智能元素的產(chǎn)品,但與其他科技巨頭相比,似乎更多的是在探索而不是全面下注。
然而,在最近幾個月的謠言和報道中,不難發(fā)現(xiàn),蘋果一直在背后默默等待機(jī)會,準(zhǔn)備出發(fā)。近幾周有報道稱,蘋果正在與OpenAI、谷歌等行業(yè)巨頭進(jìn)行深入談判,支持其人工智能功能,并積極開發(fā)自己的Ajax人工智能模型。
仔細(xì)觀察蘋果發(fā)布的人工智能研究報告,不難發(fā)現(xiàn)其人工智能方法具有潛在的現(xiàn)實(shí)意義。當(dāng)然,從研究報告到產(chǎn)品的實(shí)際著陸,中間的道路通常充滿了坎坷和不確定性。然而,當(dāng)蘋果在今年6月召開的年度開發(fā)者大會WWDC上討論人工智能功能時,我們至少可以窺探到公司的人工智能戰(zhàn)略,以及這一功能將如何在實(shí)際應(yīng)用中發(fā)揮作用。
Siri將足夠強(qiáng)大,不再需要喚醒詞?
當(dāng)我們談?wù)撊斯ぶ悄墚a(chǎn)品時,我們通常會把注意力集中在虛擬助手上,也就是那些知識淵博,能夠為我們設(shè)置提示,回答問題,代表我們完成任務(wù)的智能合作伙伴。蘋果在人工智能領(lǐng)域的許多研究最終聚集在一個核心問題上:如果Siri足夠強(qiáng)大,會是什么樣的場景?
蘋果的一個精英研究團(tuán)隊正在探索一種創(chuàng)新的啟動Siri的方法,而不需要喚醒詞。這意味著設(shè)備可能可以通過直覺來判斷你是否在和它交流,而不僅僅是依靠“嘿”或“Siri”指令。研究人員直言:“這個挑戰(zhàn)比語音觸發(fā)測試更嚴(yán)重,因為沒有明確的引導(dǎo)語句來標(biāo)記語音命令的開始?!?/p>
就這樣,另一組研究人員開發(fā)了一個系統(tǒng),旨在更準(zhǔn)確地檢查喚醒詞。另一篇研究論文致力于訓(xùn)練模型,以便更好地理解虛擬助手難以準(zhǔn)確捕捉到的罕見詞匯。
在這些場景中,大語言模型的魅力在于理論上可以快速處理大量數(shù)據(jù)。例如,在喚醒詞檢驗的研究中,研究人員發(fā)現(xiàn),如果所有的聲音都被輸入到模型中,而不是試圖過濾掉所有的冗余聲音,以便自己區(qū)分重要和次要的內(nèi)容,喚醒詞的識別將變得更加可靠。
一旦Siri抓住客戶的聲音,蘋果將盡最大努力確保他們能夠更好地理解并與客戶順利溝通。因此,他們開發(fā)了一個名為STEER的系統(tǒng),希望通過分析用戶何時提出后續(xù)問題,何時開始新的話題,優(yōu)化用戶與虛擬助手的互動體驗。
在另一個應(yīng)用場景中,研究人員可以使用大語言模型來分析那些“模糊搜索”,無論客戶如何表達(dá),他們都可以準(zhǔn)確地捕捉他們的意圖。研究人員指出:“面對不確定性,智能對話代理人可能需要主動提問,以減少疑惑,從而更有效地解決問題。另外,還有一篇論文致力于提高虛擬助手的答案質(zhì)量,通過大語言模型使答案更簡單、更容易理解。
蘋果AI專注于健康、圖像編輯、音樂等領(lǐng)域
每當(dāng)蘋果公開談?wù)撊斯ぶ悄軙r,它往往更注重人工智能如何給日常生活帶來便利和改善,而不僅僅是強(qiáng)調(diào)技術(shù)的原始力量。盡管Siri一直備受關(guān)注——特別是在蘋果,比如HumaneAIPine。、在RabbitR1等設(shè)施競爭的背景下,谷歌正在將Gemini融入到所有的Android系統(tǒng)中——但是蘋果顯然已經(jīng)在許多領(lǐng)域看到了人工智能的廣泛應(yīng)用價值。
健康領(lǐng)域是蘋果關(guān)注的焦點(diǎn)之一。理論上,先進(jìn)的人工智能技術(shù)可以幫助你從各種設(shè)備收集的海量生物識別數(shù)據(jù)中提取有用的信息,幫助你理解這些信息背后的含義。所以,蘋果一直在探索如何收集和整理用戶的運(yùn)動數(shù)據(jù),如何使用步態(tài)識別和耳機(jī)來識別用戶的身份,以及如何準(zhǔn)確地跟蹤和解讀心率數(shù)據(jù)。此外,蘋果還建立并發(fā)布了“基于多設(shè)備和多相位傳感器的最大人類活動數(shù)據(jù)”,其中包括50名參與者的各種身體傳感器數(shù)據(jù)。
人工智能似乎也被蘋果視為一種創(chuàng)造性工具。在一項研究中,研究人員開發(fā)了一個名為Keyframer的系統(tǒng),該系統(tǒng)通過采訪動畫師、設(shè)計師和工程師來“用戶可以迭代和完善設(shè)計”。Keyframer用戶可以從一個提示開始,獲得一個包含多種元素的工具包,然后根據(jù)個人喜好優(yōu)化和完善圖像的特定部分,這不同于以前通過輸入提示來生成圖像,然后輸入另一個提示來獲取新圖像的方式。從Memoji的個性定制到蘋果更專業(yè)的藝術(shù)工具,這種互動藝術(shù)過程可以廣泛應(yīng)用于各種場景。
另外一項研究表明,蘋果描述了一種名為MGIE的圖像編輯工具。簡單地描述一下你想做的編輯操作,比如“讓天空更藍(lán)”、"讓我的臉看起來更自然"、MGIE可以通過添加一些石頭來自動實(shí)現(xiàn)這些效果?!癕GIE不僅提供模糊的指導(dǎo),而且能準(zhǔn)確地捕捉到用戶的視覺感知意圖,并產(chǎn)生合理的圖像編輯效果,”研究人員說。”雖然早期的實(shí)驗結(jié)論仍然存在缺陷,但其潛力已經(jīng)足夠引人注目。
在AppleMusic中,我們甚至可以感受到人工智能的魅力。一篇名為《資源有限的立體聲演唱語音消除》的文章(Resource-constrainedStereoSingingVoiceCancellation)在論文中,研究人員討論了如何將歌曲中的聲音與樂器聲音分離。如果應(yīng)用這種技術(shù),將為用戶提供一個強(qiáng)大的工具,在TikTok或Instagram上再次混合歌曲。
使用iPhone方法調(diào)整Ferret模型或調(diào)整模型。
隨著時間的推移,蘋果將更多地關(guān)注硬件與人工智能相結(jié)合的策略,特別是iOS生態(tài)系統(tǒng)。預(yù)計蘋果將這些先進(jìn)功能集成到自己的應(yīng)用中,并通過API向第三方開發(fā)者開放一些功能。與一般的安卓設(shè)備相比,蘋果一直以其優(yōu)異的硬件性能為榮。當(dāng)這種強(qiáng)大的性能與以隱私為核心的設(shè)備上的人工智能技術(shù)相結(jié)合時,無疑將成為蘋果和其他品牌之間的一個多元化因素。
但是,如果你想欣賞蘋果在人工智能領(lǐng)域最大、最宏偉的項目,你必須提到Ferret。Ferret作為一種多模式的大語言模式,不僅可以接受和執(zhí)行指令,還可以專注于你選擇或選擇的特定事物,并對周圍的世界有深刻的理解。它是專門為現(xiàn)代人工智能用例設(shè)計的,即用戶可以詢問設(shè)備周圍的環(huán)境問題,但更進(jìn)一步,它也可以解讀屏幕上的內(nèi)容。
在Ferret的相關(guān)論文中,研究人員指出,它可以幫助用戶瀏覽應(yīng)用程序,回答關(guān)于應(yīng)用商城評分的問題,描述客戶正在查看的內(nèi)容。這項技術(shù)有很大的潛力提高無障礙的感覺,可能會徹底改變我們使用手機(jī)、VisionPro甚至智能眼鏡的方式。
開發(fā)更小、更高效的模型
大家都在期待一款更好的Siri,而且它的高級版本似乎會隆重出現(xiàn)!蘋果的許多研究(以及全球科技行業(yè)的普遍探索)都是基于一個共同的前提,即大語言模型(LLM)將使虛擬助手達(dá)到更高的智能水平。對蘋果而言,實(shí)現(xiàn)Siri的進(jìn)化不僅意味著人工智能模型的快速推出,而且保證它們能夠無縫地融入到客戶生活的方方面面。
最近有報道稱,蘋果計劃在iOS18中完全離線運(yùn)行所有人工智能功能。即使在擁有數(shù)據(jù)中心網(wǎng)絡(luò)和數(shù)千個尖端GPU的情況下,構(gòu)建高效多功能的模型仍然是一個巨大的挑戰(zhàn),更不用說在智能手機(jī)上實(shí)現(xiàn)這一點(diǎn)了。因此,蘋果必須展示其獨(dú)特的創(chuàng)新思維。
一篇名為《閃存中的LLM》的文章:利用有限的內(nèi)存實(shí)現(xiàn)高效的大型語言模型推理(LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory)研究人員在論文中提出了一個創(chuàng)新的存儲模型信息系統(tǒng)。這一信息通常存儲在設(shè)備的RAM上,但是研究小組巧妙地將它們轉(zhuǎn)移到SSD上。她們寫道:“我們已經(jīng)成功地驗證了LLM在SSD上運(yùn)行的能力,它的大小是DRAM的兩倍。與傳統(tǒng)的CPU載入方式相比,推理速度提高了4-5倍,但在GPU上卻提高了20-25倍?!斑@些模型可以通過巧妙地利用設(shè)備上最經(jīng)濟(jì)、最容易獲得的存儲空間,實(shí)現(xiàn)更快、更有效的運(yùn)行。
蘋果的研究人員還開發(fā)了一個名為EELBERT的系統(tǒng),它可以在保持其性能的同時將LLM壓縮到更小的范圍內(nèi)。它們成功地將谷歌的Bert模型數(shù)據(jù)壓縮到原來大小的1/15,僅占用1.2MB空間,而且質(zhì)量僅下降4%。但是,這種壓縮也帶來了一定的延遲。
總的來說,蘋果正在努力解決模型領(lǐng)域的一個核心問題:隨著模型規(guī)模的不斷擴(kuò)大,其性能和實(shí)用性也有所提高,但這也伴隨著體積的增加、用電量的增加和啟動速度的下降。和許多其他企業(yè)一樣,蘋果正在尋找在這些方面找到完美的平衡點(diǎn),并努力探索實(shí)現(xiàn)這一目標(biāo)的最佳途徑。
Siri更強(qiáng) 感知器=手機(jī)自行操作?
讓我們想象一下這些技術(shù)將如何與蘋果正在開發(fā)的其他功能密切相關(guān)。想象一下,一個真正能理解你需求的Siri,再加上一個能感知和理解屏幕上所有信息的設(shè)備,將是一部真正能自己操作的手機(jī)。蘋果不需要深度整合每一款產(chǎn)品,只需要簡單的操作應(yīng)用,自動點(diǎn)擊正確的按鈕即可。
需要重申的是,這一切還只是一個研究階段。但如果這些技術(shù)能夠從今年春天順利應(yīng)用到實(shí)踐中,無疑將是劃時代的技術(shù)突破。我認(rèn)為,在今年的WWDC中,我們將見證蘋果在人工智能領(lǐng)域的一系列重磅發(fā)布。
蒂姆·庫克·蘋果CEO(TimCook)甚至在2月份的評論中透露了這一點(diǎn),并在最近的財務(wù)報告電話會議上進(jìn)一步確認(rèn)了這一期望。有兩件事已經(jīng)很清楚了:一是蘋果在人工智能領(lǐng)域的競爭日益激烈,二是這項技術(shù)可能會給iPhone帶來全面的創(chuàng)新。那時,你甚至可能會開始愿意經(jīng)常使用Siri!那將是蘋果取得的巨大成就。
本文來源于“騰訊科技”,編譯:金鹿,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com