亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

未來AI手機,蘋果和谷歌選擇走同一條路。

2024-04-17

距離WWDC還有兩個月,蘋果的“AI大計劃”也越來越清晰。


四月九日,蘋果發(fā)表了一篇最新論文,發(fā)表了一篇名為Ferret的論文。 新的UI模型。這種模式技術本身并不復雜,但它指向的是一場真正的手機AI革命。


2023年,AI如雨后春筍般涌現(xiàn),大家都在猜測生成式AI會給智能產品市場帶來什么變化。甚至懷疑智能手機是否能適應AI時代的新互動模式。


Rabittt也因此應運而生 R1, AI 許多所謂的AI,比如Pin等等。 native硬件。通過更好地利用AI的交互特性和Agent能力,他們試圖挑戰(zhàn)智能手機的霸權,并以取消手機的方式取代手機。


另一方面,在智能手機的一側,只能使用功能較少的終端模型和可有可無的應用進行無力的反擊。它的霸主蘋果甚至一度被認為完全落后于AI時代。


但是現(xiàn)在它回到了主場,并且準備了一個可能用來面對AI時代的智能手機的答案:AI 手機系統(tǒng)Native。


蘋果發(fā)表了一篇新論文,漏出了它的整個計劃


這次蘋果新發(fā)布的Ferret UI基于蘋果的Ferret多模式模型。


與其他多模式模型相比,F(xiàn)erret在發(fā)布時展示的主要優(yōu)勢是對圖像具體區(qū)域定位點的認知遠強于其他多模式模型,包括GPT-4 ROI。


在這個模型中,蘋果提出了一個視覺采樣器和語言模型,具有圖像編碼器和空間感知。(LLM)新結構。它有能力處理不同形狀之間的稀疏差異,因此可以區(qū)分來自區(qū)域的形狀(如點、線和框架)??蛻艨梢愿鶕?jù)畫面中的具體區(qū)域與大模型進行更深入的對話。


Ferret在10月份剛剛發(fā)布的時候,業(yè)界對它的反應并不熱烈。首先,它的區(qū)域識別優(yōu)勢不是當時大型模型領域最關心的問題。其次,它只有7B和13B2個尺寸,與主流大型模型相比太小。10月中旬,硅谷模型公司仍在試卷前后,業(yè)內只將其視為蘋果在模型上的試水。


但是隨著Ferret 隨著UI的推出,F(xiàn)erret的定位和目標要明確得多:它是蘋果準備在新IOS上裝載模型的主要模型之一。


Ferret UI所做的就是在手機UI中應用Ferret模型已經非常強大的圖片區(qū)域識別能力。通過優(yōu)化,可以更好地識別手機應用的頁面。并將自然語言翻譯成界面操作點。


簡而言之,當你和AI談到手機頁面的情況時,它可以理解你所說的,并找到具體的元素。


以前,多模態(tài)大模型(MLMM)對手機UI的理解往往會出錯。主要原因如下:


UI界面通常具有較長的縱橫比 ,基于正常圖片(16):9 / 4:第三,大型訓練模型不能把握其圖像全景。


并且包含了很多感興趣的小目標(如圖標和文本),直接應用當前模型可能會失去對UI界面所需要的重要細節(jié)的理解。


為了解決UI不常見的問題,F(xiàn)erret 在Ferret模型的基礎上,UI在其上集成了"any resolution"(anyres)技術可以靈活適應各種屏幕縱橫比。整個過程如下:


如果UI界面很大,那么就把它分成幾個小的子圖像,以便更好地捕捉UI頁面的細節(jié)特征。


為了獲得最大的信息度,所有劃分的子圖像都使用相同的圖像編碼器進行獨立編碼。


最后,將這些子圖像的特征和全局圖像的特征輸入核心大語言模型。(LLM)中。



最后,F(xiàn)erret以這種“用放大鏡觀察”的方式結束。 UI模型能更好地捕捉到UI頁面的詳細信息。


處理第二個問題比較簡單,缺乏數(shù)據(jù)無法識別, 然后在訓練階段狂喂相關數(shù)據(jù)。


Ferret UI收集了圖標識別、文本搜索、組件目錄等各種初級UI任務訓練數(shù)據(jù)。這些任務數(shù)據(jù)訓練模型準確定位和理解UI組件。同時,它還收集了與AI交互相關的高級任務數(shù)據(jù),包括詳細的解釋、感知/交互對話和功能推理,以提高模型和UI相關的推理能力。


經過這種UI訓練,最終的結果是,13B的Ferret 在完成初級和高級UI對話后,UI的能力超過了GPT44在iPhone環(huán)境中的初級UI任務。-V,整個任務的平均分,包括高級任務,非常相似。雖然Ferret在安卓環(huán)境下。 雖然UI表現(xiàn)稍差,但這對蘋果有什么關系呢?


體驗Ferret 升級UI,F(xiàn)erret模型可以完成簡單的定位任務。(Referring Tasks):識別UI的外框、圖標和文本內容。識別任務(Grounding Tasks):對UI進行相關查詢,模型需要在頁面上定位并標注相關元素。


同時,它還可以完成更復雜、更詳細地解釋UI組成的任務;根據(jù)UI與用戶的感知對話和互動對話,可以告訴用戶對應位置的具體UI內容,以及如何與UI互動的任務;以及根據(jù)UI元素推斷該軟件功能的功能推理任務。


這意味著Ferret 對于手機應用的功能,UI已經建立了相對完整的操作理解。并且是對GPT4級別的理解。


假如僅僅停留在理解這一層面,F(xiàn)erret 事實上,UI的應用是有限的。舉例來說,視障用戶可以通過語言交互來了解UI的位置,或者整合到蘋果自己的圖形識別系統(tǒng)中來提高識別能力。


但是,如果這種理解與Agent的功能相結合,讓Ferret UI模型可以去基于用戶的自然語言交互操作手機,那個AI模型 手機系統(tǒng)原型Native誕生了。


AI Native 移動電話而非AI 手機


在過去的一年里,如何將AI模型應用于手機已經成為芯片制造商和手機制造商最重要的問題。AI手機的概念層出不窮。然而,直到現(xiàn)在,芯片制造商和手機制造商展示的AI模型能力仍然停留在手機系統(tǒng)之外。


一種方法是硬塞一個大模型進入,由云或當?shù)赜嬎懵黍寗?。它的感覺和Kimi助手,GPT app沒有本質區(qū)別,最多可以在手機上讀取相應的數(shù)據(jù),應用起來比較方便。



另一種方法是在其預裝應用中賦能AI能力,轉化為法術修圖、短信回復一鍵生成一定程度上無需大模型即可實現(xiàn)的功能。


這種應用方式使AI手機這一概念顯得不倫不類,更像是一款安裝了AI大型應用的手機。


而且真正能應付來勢洶洶的AI新硬件,至少應該是一個完全適應AI新交互的手機系統(tǒng)。


現(xiàn)在的Ferret UI的出現(xiàn),促使這一事件成為可能。


一個14B以下的大模型,可以直接在手機本地運行,可以讓你用自然語言控制UI并進行相關操作。如果這個功能集成在Siri上,那么Siri就可以成為所有應用程序的新入口,你可以用一句話控制手機的所有功能和所有應用程序的所有相關功能。這實際上與Rabitt相關 R1的想法是一樣的。


而這一次,你不必犧牲屏幕本身。體驗Humane 的AI 在Pin和其他AI智能產品中,雖然他們可以通過自然語言完成大部分的交互,但他們沒有屏幕。沒有屏幕對于生活在視頻時代的人來說幾乎是無法忍受的。此外,聲音以外的交互技術的缺乏也讓他們在你對面有人的時候不好意思使用。


但是如果手機能夠實現(xiàn)這種互動,并且有屏幕的話。為什麼我們還需要一款新的所謂AI智能產品來完成這一切?


所以,跌跌撞撞一年后,蘋果應該找到了AI。 手機的真誠。如果情況順利,也許我們可以在兩個月后的WWDC上看到原生AI的蘋果手機系統(tǒng)。而且很可能是第一個 AI 手機系統(tǒng)。


Google和蘋果,一場新的競爭正式比賽


也許,是因為蘋果在系統(tǒng)上的老對頭谷歌,實際上做出了同樣的路線判斷。


谷歌在半個月前的3月19日發(fā)布了一款新的ScreenAI模型,它與Ferrett有關 就像UI一樣,都是直指 UI 理解多模態(tài)模型。其結構相對簡單,基于Pali,包括兩個組成部分,一個視覺變換器。 (ViT),用于理解UI視覺;T5圖形編碼器,用于相應客戶提問的文字圖像信息。


為了解決UI問題,谷歌的操作和蘋果基本沒有區(qū)別。它將UI界面分成5*7塊來識別細節(jié),并利用UI相關的訓練集來增強對UI元素的認知。


盡管沒有像蘋果那樣與GPT4進行比較,但是它也與自己的Geminini相比。 Ultra對UI任務進行了檢查,也差不多。值得注意的是,ScreenAI比蘋果的Ferret小,只有不到5B。谷歌還試圖用ScreenAI串聯(lián) 完成高級UI任務的Palm2足以超越Geminini。 Ultra。


因此,2024年春天,智能手機OS的兩大霸主并肩站在AI手機上。比AI更強的谷歌和比系統(tǒng)更強的蘋果走到了同一起跑線上。


如今的問題,只剩下誰跑得快了。


谷歌 I / 五月十四日,蘋果的WWDC在六月舉行了O大會。爭分奪秒的戰(zhàn)爭已經開始。


本文來自微信微信官方賬號“騰訊科技”(ID:qqtech),作者:郝博陽,36氪經授權發(fā)布。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com