亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

周鴻祎:多模態(tài)是大模型發(fā)展的必經(jīng)之路,與物聯(lián)網(wǎng)結(jié)合是下一個風(fēng)口

商界觀察
2023-06-04

36 氪獲悉,近日 360 智慧生活集團舉辦視覺大模型及 AI 硬件新品發(fā)布會。發(fā)布會中,360 推出智腦 · 視覺大模型及多款 AI 硬件產(chǎn)品,并宣布 360 智慧生活正式切入 SMB 市場。

 

360 方面表示,近年傳統(tǒng)深度學(xué)習(xí)算法在安防場景中的局限性愈發(fā)突出,具體表現(xiàn)為算法通用、場景不通用、邊端算法受限、內(nèi)存受限等。對比之下,大模型有著更好的泛化能力,有望進一步突破傳統(tǒng)算法的精度與數(shù)據(jù)局限,也能解決傳統(tǒng)深度學(xué)習(xí)算法的數(shù)據(jù)依賴問題。

 

但另一方面,當(dāng)前業(yè)內(nèi)提及大模型,更多指的是大語言模型,其他模態(tài)的大模型數(shù)量不多。360 認為,增強多模態(tài)能力,核心要借助大語言模型的認知、推理、決策能力。

 

于是,此次 360 智慧生活決定將視覺感知能力與 360 智腦大語言模型相結(jié)合,并針對安防場景進行行業(yè)數(shù)據(jù)微調(diào),推出視覺及多模態(tài)大模型—— 360 智腦 · 視覺大模型。360 視覺云業(yè)務(wù)線總經(jīng)理孫浩對外介紹,360 智腦 · 視覺大模型現(xiàn)階段主要聚焦開放目標(biāo)檢測(OVD)、圖像標(biāo)題生成、視覺問答(VQA)三項能力。

 

會議中,360 集團創(chuàng)始人周鴻祎也針對這一話題發(fā)表演講。

 

周鴻祎表示,過去的人工智能是弱人工智能,在此基礎(chǔ)上打造的智能硬件不具有真正的智能。大模型出現(xiàn)后,計算機第一次真正的理解這個世界,并能夠賦予 AIoT 真正的智能。

 

談及視覺大模型的研發(fā)過程,周鴻祎進一步介紹,360 是在視覺感知能力基礎(chǔ)上,融合千億參數(shù) "360 智腦 " 大模型,基于十億級互聯(lián)網(wǎng)圖文數(shù)據(jù)進行清洗訓(xùn)練,并針對安防場景百萬級行業(yè)數(shù)據(jù)進行微調(diào),最終推出 360 智腦 - 視覺大模型。

 

" 大模型將帶來一場新工業(yè)革命 ",周鴻祎表示,所有軟件、APP、網(wǎng)站,所有行業(yè)都值得用大模型進行重塑,而智能硬件是硬件化的 APP。從大模型的發(fā)展趨勢來看,多模態(tài)是大模型發(fā)展的必經(jīng)之路,GPT-4 最重要的變化是擁有了多模態(tài)的處理能力。因此,周鴻祎預(yù)測,多模態(tài)大模型與物聯(lián)網(wǎng)的結(jié)合將會成為下一個風(fēng)口。

 

以下是周鴻祎演講內(nèi)容(經(jīng)部分刪減),供讀者參考:

 

大家好,很高興今天來參加視覺大模型的發(fā)布。

 

今天主要想分享一下,現(xiàn)在正火熱的大模型和智能硬件的結(jié)合。很多人肯定很奇怪,360 已經(jīng)有了 360 智腦,就是 360 的大語言模型,為什么又出來一個視覺大模型呢?我還是先分享幾個我對大模型和生成式 AI 的觀點。

 

其實 AIoT 這個概念已經(jīng)不新鮮了,這個行業(yè)所有做智能硬件的人都會標(biāo)榜,我不僅僅是物聯(lián)網(wǎng)設(shè)備,都是 AIoT,這個 A 就是 AI。但是我們今天談到的 AIoT 的概念,可能要重新刷新過去舊的 AIoT 的概念。

 

實際上生成式 AI,或者叫 ChatGPT 的出現(xiàn),預(yù)示著一個真正的人工智能,或者叫強人工智能,或者叫超級人工智能的拐點真正產(chǎn)生了。原來的 AIoT,跟它聊兩句天就聊不下去了,很多音箱的功能最后就沒有人去用了,很多攝像頭的能力也只是起到一個事后錄像的作用。

 

那么,這次大語言模型的問世,標(biāo)榜著一個真正的人工智能時代的來臨。我覺得有兩個分水嶺:

 

第一,過去我們做的人工智能都是垂直人工智能,為完成一個特定的任務(wù)就得有一套特定的算法,一個特定的模型,很難通用。而這次大語言模型它用一套算法,一套模型結(jié)構(gòu),一套訓(xùn)練的思路,解決了人工智能中很多過去很碎片化的問題。

 

第二,還有一個區(qū)別,這次大語言模型雖然也容易給大家一個誤解,好像是只能解決語言的問題。但是,在人工智能領(lǐng)域,如果把語言的問題給解決了,這件事是非常了不起的,是皇冠上的明珠。人類的語言基本上定義了人類所有的知識,如果一個大語言模型能夠真正地理解人類所有的語言,能夠很自然的做出各種交流和理解,包括各種推理,就意味著它第一次完整把人類世界的知識有了一個充分理解。

 

原來比如最常見的圖像識別,名詞叫 Computer vision,就是 CV,或者計算機視覺。實際上很多時候是在工作層面感知,像人的視網(wǎng)膜的原理。但是,人之所以能成為萬物之靈,不光是眼睛看到了當(dāng)前的情況,所有看到的情況是可以在大腦里有相應(yīng)反應(yīng)的。所以,大語言模型工作在認知層面。

 

我不知道有沒有人注意到,這次 OpenAI 的一個技術(shù)合伙人提到他們做視覺模型的時候,講如果你是基于大語言模型,完整理解這個世界的知識之上再來理解圖像,你的理解程度是非常不一樣的。

 

所以,我也給大家講一個觀點,大家不要被 " 大語言模型 " 這五個字給弄糊涂了,就以為它只能解決語言問題,錯了。實際上大語言模型之所以稱為叫通用人工智能,大家應(yīng)該相信,它是在理解了我們這個世界的所有知識之后,能夠解決計算機聽覺、視覺的很多問題。而且未來可能在機器人控制、自動駕駛,各個方面發(fā)揮神奇的作用。

 

為什么到現(xiàn)在真正的自動駕駛沒有實現(xiàn)。一個很簡單的道理,就是它們目前都是在感知層面的識別,雷達告訴你前方有障礙物,而不是在認知層面。如果我們的人工智能不能模擬人的認知層面的人的反應(yīng)和工作,而僅還停留在一個視網(wǎng)膜感知的層面,我想真正的自動駕駛可能一輩子也出不來。

 

所以,大語言模型之所以被稱為叫通用人工智能,不光是在自然語言處理上發(fā)揮作用。它在計算機視覺,在自動駕駛等場景上都能有作用。將來,在蛋白質(zhì)折疊分析,人類基因組序列分析等很多方面,我覺得大語言模型可能都會帶來各種各樣的驚喜。

 

今天我們在大語言模型上取得了突破,就有能力在大語言模型的基礎(chǔ)上來思考,到底怎么樣能做出一個真正的 AIoT。這個 AI,如果是大語言模型驅(qū)動的 AI,它就是真正的強人工智能。

 

我的第二個觀點,也想講講為什么今天我們要來講一個智能硬件的場景。

 

大語言模型問世以后有很多種觀點,但是,我覺得它肯定不是每個人上來馬上就能玩的東西。所以,我覺得大語言模型實際上是一個提高生產(chǎn)力的工具。它更像是電腦,更像是手機這種發(fā)明,意味著帶來一場工業(yè)革命級的更新。

 

人工智能折騰了很多年,實際上離我們很多人的日常工作和生活的場景還比較遙遠。這次以 GPT 為代表的大模型確實讓人類的人工智能到了一個 PC 時代,到了一個 iPhone 時刻。

 

微軟給我們做了一個典范,把它所有的產(chǎn)品 " 全家桶 " 都拿大模型重塑了一遍。實際上這里我們也講過很多,比如 360 的場景里面瀏覽器怎么改造、搜索怎么改造,360 安全衛(wèi)士的桌面如何改造?但其實還有一個更大的領(lǐng)域,就是智能硬件。我覺得智能硬件實際上也是硬件化的 APP,那么它如何能夠與大語言模型結(jié)合?這場工業(yè)革命中,智能硬件這個場景將會扮演什么樣的角色?

 

我也和團隊說,過去我們講互聯(lián)網(wǎng)思維,未來可能叫大模型思維,過去我們是講 " 互聯(lián)網(wǎng) +",以后可能是 " 人工智能 +"?;蛘咭院笕斯ぶ悄苓@個詞改一下,新的人工智能可以叫 " 認知型人工智能 ",或者叫 " 生成式人工智能 ",或者叫 " 大語言模型人工智能 ",跟原來老的人工智能概念不太一樣。

 

我想再分享一個觀點。大語言模型發(fā)展到現(xiàn)在,有一個巨大的方向,就是它要從單一的識別文字到能夠識別圖片、視頻、語音,就是我們所說的多模態(tài)。GPT-3.5 你可以認為是一個強人工智能的拐點,GPT-4.0 比 GPT-3.5 領(lǐng)先了很多,國內(nèi)我們很多同行做的產(chǎn)品,包括 360 的智腦離 GPT-3.5 比較近了。但是 GPT-4.0 如果是 100 分,國內(nèi)的水平大概也就在 70 分左右。

 

GPT-4.0 除了對知識的理解更加深入,推理更加復(fù)雜,其中有一個很重要的要求就是它有多模態(tài)的處理能力。比如文生圖,就是你提出要求,它生成圖片,這個只是完成了多模態(tài)的輸出部分。實際上真正的多模態(tài)是你能給它一張圖片、視頻,大語言模型不僅能夠認出來這張圖上有誰,最重要的是能認出來圖上的人都在干什么,他們互相之間有什么關(guān)系,能讀出圖里邊蘊含的意思,這個沒有對人類知識的了解,是不可能做到的。

 

所以,現(xiàn)在整個大模型的發(fā)展之路必然是多模態(tài),多模態(tài)就是能夠輸入圖像和視頻,能夠輸出圖像和視頻,能夠輸入聲音和音樂,也能夠輸出聲音和音樂。當(dāng)然,現(xiàn)在一個完整的多模態(tài)的大模型全世界不存在,GPT-4 也只是宣布了有這個能力,這個能力還沒有對外輸出,這也是代表了大模型下一步皇冠上的明珠。所以,今天我們把我們在多模態(tài)上的一部分成果會拿來給大家做一些展示。

 

如果有了多模態(tài)大模型之后,我覺得和物聯(lián)網(wǎng)結(jié)合就可能變成下一個風(fēng)口。一直有人說機器人和大模型之間的關(guān)系。實際上把很多智能硬件,包括機器人和大語言模型接起來,就相當(dāng)于給很多智能硬件有了靈魂,有了真正的大腦,不僅有了感知的能力,還有了認知的能力。

 

我曾經(jīng)開玩笑,如果 ChatGPT 有了自我意識之后,又有了能下單的能力,它買的第一個物品是什么?我說它一定首先給自己買一個智能攝像頭給自己接上,因為它就能真正地看懂這個世界。我們還有麥克風(fēng),我們有揚聲器,接上大模型之后,相當(dāng)于它有了耳朵、有了嘴巴。

 

360 為什么能做視覺大模型呢?第一個基礎(chǔ)是說 360 已經(jīng)訓(xùn)練了一個千億參數(shù)的智腦,一個基于文字,基于自然語言理解的一個認知大模型。第二個 360 做智能攝像頭也做了有好多年了,有百億級的安防行業(yè)數(shù)據(jù)可以進行訓(xùn)練和微調(diào)。所以這次我們基于這種安防的背景,能夠去訓(xùn)練一個視覺大模型。

 

原來我做攝像頭的時候,最大的感慨是什么?我們的攝像頭無法事前報警,我們在很多地方發(fā)揮的作用就是出了事之后去找攝像頭錄像,來做事后的事故的復(fù)核。比如說,我們聽到很多家庭里邊老人在起居室里摔倒了,或者小孩兒爬到一個沒有窗戶的危險地帶向上攀爬,原來的攝像頭可能能認出來有老人,有小孩兒,但是他不能理解畫面的語義,所以它也就不能做出正確的判斷。

 

但是,當(dāng)你有了一個大語言模型多模態(tài)能力為支撐的,真正的認知型大腦的時候,當(dāng)你的攝像頭看到這個場景的時候,你自然就會聯(lián)想起來這個老人可能處在危險之中,這個小孩兒可能現(xiàn)在有可能掉到窗戶外面去,從而就能夠提前預(yù)警,發(fā)布警告。

 

現(xiàn)在我們有兩個團隊在密切配合,也就是說,大語言模型團隊積極幫助我們另一個團隊構(gòu)造視覺的模型。這個視覺大模型構(gòu)造出來之后,又可以成為我們 360 大語言模型的一部分,構(gòu)成我們多模態(tài)的能力。有了多模態(tài)能力的大模型,它增強了 360 智腦能夠看懂圖片,看懂視頻的能力?,F(xiàn)在,聽見聲音的能力還在研發(fā),一旦把聽懂聲音,看懂圖片,能夠連續(xù)看懂多組圖片的能力合在一起就變成了識別視頻的能力。

 

之前大家所設(shè)想的場景還是以偏軟件、網(wǎng)站、應(yīng)用為主,這次我們希望讓大模型的能力從數(shù)字世界走向物理世界,基于多模態(tài)技術(shù)的大語言模型,和智能硬件的結(jié)合是下一個風(fēng)口。

 

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com