亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<center id="k8ujg"></center>

<label id="k8ujg"></label><bdo id="k8ujg"></bdo>

周鴻祎：多模態(tài)是大模型發(fā)展的必經(jīng)之路，與物聯(lián)網(wǎng)結(jié)合是下一個風(fēng)口

商界觀察

2023-06-04

36 氪獲悉，近日 360 智慧生活集團舉辦視覺大模型及 AI 硬件新品發(fā)布會。發(fā)布會中，360 推出智腦 · 視覺大模型及多款 AI 硬件產(chǎn)品，并宣布 360 智慧生活正式切入 SMB 市場。

360 方面表示，近年傳統(tǒng)深度學(xué)習(xí)算法在安防場景中的局限性愈發(fā)突出，具體表現(xiàn)為算法通用、場景不通用、邊端算法受限、內(nèi)存受限等。對比之下，大模型有著更好的泛化能力，有望進一步突破傳統(tǒng)算法的精度與數(shù)據(jù)局限，也能解決傳統(tǒng)深度學(xué)習(xí)算法的數(shù)據(jù)依賴問題。

但另一方面，當(dāng)前業(yè)內(nèi)提及大模型，更多指的是大語言模型，其他模態(tài)的大模型數(shù)量不多。360 認為，增強多模態(tài)能力，核心要借助大語言模型的認知、推理、決策能力。

于是，此次 360 智慧生活決定將視覺感知能力與 360 智腦大語言模型相結(jié)合，并針對安防場景進行行業(yè)數(shù)據(jù)微調(diào)，推出視覺及多模態(tài)大模型—— 360 智腦 · 視覺大模型。360 視覺云業(yè)務(wù)線總經(jīng)理孫浩對外介紹，360 智腦 · 視覺大模型現(xiàn)階段主要聚焦開放目標(biāo)檢測（OVD）、圖像標(biāo)題生成、視覺問答（VQA）三項能力。

會議中，360 集團創(chuàng)始人周鴻祎也針對這一話題發(fā)表演講。

周鴻祎表示，過去的人工智能是弱人工智能，在此基礎(chǔ)上打造的智能硬件不具有真正的智能。大模型出現(xiàn)后，計算機第一次真正的理解這個世界，并能夠賦予 AIoT 真正的智能。

談及視覺大模型的研發(fā)過程，周鴻祎進一步介紹，360 是在視覺感知能力基礎(chǔ)上，融合千億參數(shù) "360 智腦 " 大模型，基于十億級互聯(lián)網(wǎng)圖文數(shù)據(jù)進行清洗訓(xùn)練，并針對安防場景百萬級行業(yè)數(shù)據(jù)進行微調(diào)，最終推出 360 智腦 - 視覺大模型。

" 大模型將帶來一場新工業(yè)革命 "，周鴻祎表示，所有軟件、APP、網(wǎng)站，所有行業(yè)都值得用大模型進行重塑，而智能硬件是硬件化的 APP。從大模型的發(fā)展趨勢來看，多模態(tài)是大模型發(fā)展的必經(jīng)之路，GPT-4 最重要的變化是擁有了多模態(tài)的處理能力。因此，周鴻祎預(yù)測，多模態(tài)大模型與物聯(lián)網(wǎng)的結(jié)合將會成為下一個風(fēng)口。

以下是周鴻祎演講內(nèi)容（經(jīng)部分刪減），供讀者參考：

大家好，很高興今天來參加視覺大模型的發(fā)布。

今天主要想分享一下，現(xiàn)在正火熱的大模型和智能硬件的結(jié)合。很多人肯定很奇怪，360 已經(jīng)有了 360 智腦，就是 360 的大語言模型，為什么又出來一個視覺大模型呢？我還是先分享幾個我對大模型和生成式 AI 的觀點。

其實 AIoT 這個概念已經(jīng)不新鮮了，這個行業(yè)所有做智能硬件的人都會標(biāo)榜，我不僅僅是物聯(lián)網(wǎng)設(shè)備，都是 AIoT，這個 A 就是 AI。但是我們今天談到的 AIoT 的概念，可能要重新刷新過去舊的 AIoT 的概念。

實際上生成式 AI，或者叫 ChatGPT 的出現(xiàn)，預(yù)示著一個真正的人工智能，或者叫強人工智能，或者叫超級人工智能的拐點真正產(chǎn)生了。原來的 AIoT，跟它聊兩句天就聊不下去了，很多音箱的功能最后就沒有人去用了，很多攝像頭的能力也只是起到一個事后錄像的作用。

那么，這次大語言模型的問世，標(biāo)榜著一個真正的人工智能時代的來臨。我覺得有兩個分水嶺：

第一，過去我們做的人工智能都是垂直人工智能，為完成一個特定的任務(wù)就得有一套特定的算法，一個特定的模型，很難通用。而這次大語言模型它用一套算法，一套模型結(jié)構(gòu)，一套訓(xùn)練的思路，解決了人工智能中很多過去很碎片化的問題。

第二，還有一個區(qū)別，這次大語言模型雖然也容易給大家一個誤解，好像是只能解決語言的問題。但是，在人工智能領(lǐng)域，如果把語言的問題給解決了，這件事是非常了不起的，是皇冠上的明珠。人類的語言基本上定義了人類所有的知識，如果一個大語言模型能夠真正地理解人類所有的語言，能夠很自然的做出各種交流和理解，包括各種推理，就意味著它第一次完整把人類世界的知識有了一個充分理解。

原來比如最常見的圖像識別，名詞叫 Computer vision，就是 CV，或者計算機視覺。實際上很多時候是在工作層面感知，像人的視網(wǎng)膜的原理。但是，人之所以能成為萬物之靈，不光是眼睛看到了當(dāng)前的情況，所有看到的情況是可以在大腦里有相應(yīng)反應(yīng)的。所以，大語言模型工作在認知層面。

我不知道有沒有人注意到，這次 OpenAI 的一個技術(shù)合伙人提到他們做視覺模型的時候，講如果你是基于大語言模型，完整理解這個世界的知識之上再來理解圖像，你的理解程度是非常不一樣的。

所以，我也給大家講一個觀點，大家不要被 " 大語言模型 " 這五個字給弄糊涂了，就以為它只能解決語言問題，錯了。實際上大語言模型之所以稱為叫通用人工智能，大家應(yīng)該相信，它是在理解了我們這個世界的所有知識之后，能夠解決計算機聽覺、視覺的很多問題。而且未來可能在機器人控制、自動駕駛，各個方面發(fā)揮神奇的作用。

為什么到現(xiàn)在真正的自動駕駛沒有實現(xiàn)。一個很簡單的道理，就是它們目前都是在感知層面的識別，雷達告訴你前方有障礙物，而不是在認知層面。如果我們的人工智能不能模擬人的認知層面的人的反應(yīng)和工作，而僅還停留在一個視網(wǎng)膜感知的層面，我想真正的自動駕駛可能一輩子也出不來。

所以，大語言模型之所以被稱為叫通用人工智能，不光是在自然語言處理上發(fā)揮作用。它在計算機視覺，在自動駕駛等場景上都能有作用。將來，在蛋白質(zhì)折疊分析，人類基因組序列分析等很多方面，我覺得大語言模型可能都會帶來各種各樣的驚喜。

今天我們在大語言模型上取得了突破，就有能力在大語言模型的基礎(chǔ)上來思考，到底怎么樣能做出一個真正的 AIoT。這個 AI，如果是大語言模型驅(qū)動的 AI，它就是真正的強人工智能。

我的第二個觀點，也想講講為什么今天我們要來講一個智能硬件的場景。

大語言模型問世以后有很多種觀點，但是，我覺得它肯定不是每個人上來馬上就能玩的東西。所以，我覺得大語言模型實際上是一個提高生產(chǎn)力的工具。它更像是電腦，更像是手機這種發(fā)明，意味著帶來一場工業(yè)革命級的更新。

人工智能折騰了很多年，實際上離我們很多人的日常工作和生活的場景還比較遙遠。這次以 GPT 為代表的大模型確實讓人類的人工智能到了一個 PC 時代，到了一個 iPhone 時刻。

微軟給我們做了一個典范，把它所有的產(chǎn)品 " 全家桶 " 都拿大模型重塑了一遍。實際上這里我們也講過很多，比如 360 的場景里面瀏覽器怎么改造、搜索怎么改造，360 安全衛(wèi)士的桌面如何改造？但其實還有一個更大的領(lǐng)域，就是智能硬件。我覺得智能硬件實際上也是硬件化的 APP，那么它如何能夠與大語言模型結(jié)合？這場工業(yè)革命中，智能硬件這個場景將會扮演什么樣的角色？

我也和團隊說，過去我們講互聯(lián)網(wǎng)思維，未來可能叫大模型思維，過去我們是講 " 互聯(lián)網(wǎng) +"，以后可能是 " 人工智能 +"?；蛘咭院笕斯ぶ悄苓@個詞改一下，新的人工智能可以叫 " 認知型人工智能 "，或者叫 " 生成式人工智能 "，或者叫 " 大語言模型人工智能 "，跟原來老的人工智能概念不太一樣。

我想再分享一個觀點。大語言模型發(fā)展到現(xiàn)在，有一個巨大的方向，就是它要從單一的識別文字到能夠識別圖片、視頻、語音，就是我們所說的多模態(tài)。GPT-3.5 你可以認為是一個強人工智能的拐點，GPT-4.0 比 GPT-3.5 領(lǐng)先了很多，國內(nèi)我們很多同行做的產(chǎn)品，包括 360 的智腦離 GPT-3.5 比較近了。但是 GPT-4.0 如果是 100 分，國內(nèi)的水平大概也就在 70 分左右。

GPT-4.0 除了對知識的理解更加深入，推理更加復(fù)雜，其中有一個很重要的要求就是它有多模態(tài)的處理能力。比如文生圖，就是你提出要求，它生成圖片，這個只是完成了多模態(tài)的輸出部分。實際上真正的多模態(tài)是你能給它一張圖片、視頻，大語言模型不僅能夠認出來這張圖上有誰，最重要的是能認出來圖上的人都在干什么，他們互相之間有什么關(guān)系，能讀出圖里邊蘊含的意思，這個沒有對人類知識的了解，是不可能做到的。

所以，現(xiàn)在整個大模型的發(fā)展之路必然是多模態(tài)，多模態(tài)就是能夠輸入圖像和視頻，能夠輸出圖像和視頻，能夠輸入聲音和音樂，也能夠輸出聲音和音樂。當(dāng)然，現(xiàn)在一個完整的多模態(tài)的大模型全世界不存在，GPT-4 也只是宣布了有這個能力，這個能力還沒有對外輸出，這也是代表了大模型下一步皇冠上的明珠。所以，今天我們把我們在多模態(tài)上的一部分成果會拿來給大家做一些展示。

如果有了多模態(tài)大模型之后，我覺得和物聯(lián)網(wǎng)結(jié)合就可能變成下一個風(fēng)口。一直有人說機器人和大模型之間的關(guān)系。實際上把很多智能硬件，包括機器人和大語言模型接起來，就相當(dāng)于給很多智能硬件有了靈魂，有了真正的大腦，不僅有了感知的能力，還有了認知的能力。

我曾經(jīng)開玩笑，如果 ChatGPT 有了自我意識之后，又有了能下單的能力，它買的第一個物品是什么？我說它一定首先給自己買一個智能攝像頭給自己接上，因為它就能真正地看懂這個世界。我們還有麥克風(fēng)，我們有揚聲器，接上大模型之后，相當(dāng)于它有了耳朵、有了嘴巴。

360 為什么能做視覺大模型呢？第一個基礎(chǔ)是說 360 已經(jīng)訓(xùn)練了一個千億參數(shù)的智腦，一個基于文字，基于自然語言理解的一個認知大模型。第二個 360 做智能攝像頭也做了有好多年了，有百億級的安防行業(yè)數(shù)據(jù)可以進行訓(xùn)練和微調(diào)。所以這次我們基于這種安防的背景，能夠去訓(xùn)練一個視覺大模型。

原來我做攝像頭的時候，最大的感慨是什么？我們的攝像頭無法事前報警，我們在很多地方發(fā)揮的作用就是出了事之后去找攝像頭錄像，來做事后的事故的復(fù)核。比如說，我們聽到很多家庭里邊老人在起居室里摔倒了，或者小孩兒爬到一個沒有窗戶的危險地帶向上攀爬，原來的攝像頭可能能認出來有老人，有小孩兒，但是他不能理解畫面的語義，所以它也就不能做出正確的判斷。

但是，當(dāng)你有了一個大語言模型多模態(tài)能力為支撐的，真正的認知型大腦的時候，當(dāng)你的攝像頭看到這個場景的時候，你自然就會聯(lián)想起來這個老人可能處在危險之中，這個小孩兒可能現(xiàn)在有可能掉到窗戶外面去，從而就能夠提前預(yù)警，發(fā)布警告。

現(xiàn)在我們有兩個團隊在密切配合，也就是說，大語言模型團隊積極幫助我們另一個團隊構(gòu)造視覺的模型。這個視覺大模型構(gòu)造出來之后，又可以成為我們 360 大語言模型的一部分，構(gòu)成我們多模態(tài)的能力。有了多模態(tài)能力的大模型，它增強了 360 智腦能夠看懂圖片，看懂視頻的能力?，F(xiàn)在，聽見聲音的能力還在研發(fā)，一旦把聽懂聲音，看懂圖片，能夠連續(xù)看懂多組圖片的能力合在一起就變成了識別視頻的能力。

之前大家所設(shè)想的場景還是以偏軟件、網(wǎng)站、應(yīng)用為主，這次我們希望讓大模型的能力從數(shù)字世界走向物理世界，基于多模態(tài)技術(shù)的大語言模型，和智能硬件的結(jié)合是下一個風(fēng)口。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

馬化騰“收緊隊形”刷屏！椰樹正面回應(yīng)“擦邊直播”：做自己｜老板早知道

“特種兵旅行”后，年輕人愛上Citywalk

買車容易修車難，新能源汽修人才缺口或達80%

日系車企抱團，能否阻擋電動化？

Tims咖啡擠入爭奪加盟商的擂臺

項目推薦

<span id="qw24i"></span>