谷歌I/O大會(huì),目不暇接,但缺少王炸。
五月份真的很熱鬧,OpenAI剛剛開始春季新聞發(fā)布會(huì),谷歌I/O大會(huì)也如期舉行。
說(shuō)實(shí)話,在觀看主題演講直播的過(guò)程中,不禁會(huì)想到谷歌內(nèi)部人員泄露的梗圖——谷歌AI產(chǎn)品和項(xiàng)目的不同名稱和相似名稱令人印象深刻。
主題演講的關(guān)鍵字仍然是AI,谷歌也自己在現(xiàn)場(chǎng)提到了“AI"的次數(shù)大約是120次。
谷歌宣布了一些備受關(guān)注的AI領(lǐng)域的新消息。
AI模型升級(jí)了2個(gè),Gemini 1.5 Pro雙下文窗口擴(kuò)展到200萬(wàn)令牌,Gemini Nano增加了多模態(tài)理解能力;新發(fā)布了三個(gè),更輕更快的Geminini。 1.5 Flash、新架下的Gemma PaliGemma,視覺(jué)語(yǔ)言模型2.0。
還有一個(gè)文生圖模型迭代到Imagen 還發(fā)布了一款新的文生視頻模型Veo。
在AI的實(shí)際應(yīng)用延伸上,谷歌這次憋了不少招數(shù)。
在谷歌的核心產(chǎn)品搜索中,AI發(fā)布 Overviews,強(qiáng)化版AI搜索摘要功能將率先在美國(guó)上架。在谷歌搜索中,還將增加許多AI驅(qū)動(dòng)功能,如制定計(jì)劃、視頻搜索等。
另外,Gemini還被塞進(jìn)了谷歌照片和即時(shí)通訊應(yīng)用Googlee 在Messages等商品中。
讓人想起OpenAI剛剛發(fā)布的GPT-4o,它是谷歌新項(xiàng)目Projectt,旨在打造未來(lái)通用AI助手。 Astra,以及Gemin的新功能Live。Gemini Live支持和AI語(yǔ)音通話,預(yù)計(jì)今年將增加相機(jī)功能,并與AI即時(shí)“視頻聊天”。
有點(diǎn)尷尬的是,在第三方直播中,觀眾大喊“無(wú)聊”,對(duì)眼花繚亂的名字感到困惑。CNET的評(píng)論員指出,谷歌需要提高講故事的能力,而不是一上來(lái)就把所有的部分都做好。
A
OpenAI在谷歌I/O大會(huì)前一天召開了春季新聞發(fā)布會(huì)。原本流傳的搜索產(chǎn)品并沒(méi)有到來(lái),但“人類等級(jí)響應(yīng)”的GPT-4o卻讓人一窺新一代AI助手對(duì)抗的輪廓。
無(wú)法想像谷歌如果沒(méi)有OpenAI的狙擊手會(huì)有多開朗。
在這次谷歌I/O大會(huì)上,最令人驚訝的是AI助手的進(jìn)展。
第一,谷歌公布了一個(gè)叫Project的新項(xiàng)目。 Astra。哈薩比斯,谷歌Deepmind負(fù)責(zé)人(Demis Hassabis)換句話說(shuō),這是一個(gè)全方位的助手項(xiàng)目,真正通向AGI。
與上一代谷歌AI助手Google相比, Assistant,Project Astra的AI助手方式多種多樣,可以實(shí)時(shí)交互。沒(méi)有煩人的覺(jué)醒詞,也沒(méi)有尷尬的延遲??纯茨憧吹降?,解決你的困難。
在演示視頻中,用戶可以打開手機(jī)鏡頭,瞄準(zhǔn)任何物體,AI可以準(zhǔn)確地說(shuō)出物體的名稱,比如“這是一個(gè)揚(yáng)聲器”。用戶可以實(shí)時(shí)監(jiān)控,同時(shí)在屏幕上畫畫,進(jìn)一步向AI提問(wèn),比如畫一個(gè)箭頭指向揚(yáng)聲器的某個(gè)部分,詢問(wèn)是什么。當(dāng)客戶將鏡頭對(duì)準(zhǔn)窗外時(shí),AI會(huì)根據(jù)風(fēng)景直接猜測(cè)客戶所在的位置。
當(dāng)攝像機(jī)匆匆經(jīng)過(guò)場(chǎng)景時(shí),顧客向“眼鏡放在哪里”求助,助手準(zhǔn)確識(shí)別并回答“你的眼鏡在紅蘋果旁邊”。
去年12月,Gemini發(fā)布了一段通過(guò)視頻和AI互動(dòng)的視頻,但事后承認(rèn)視頻被編輯,所以谷歌經(jīng)常被戳脊梁骨。
有意思的是,這一次,在視頻演示的開頭,谷歌鄭重承諾,視頻是即時(shí)、一次性拍攝的。
然而,谷歌還沒(méi)有針對(duì)Project。 Astra給出了一個(gè)明確的時(shí)間線,只是含糊地說(shuō),今年晚點(diǎn)的一些功能將升級(jí)到Gemini和其它應(yīng)用程序。
在AI助手方面,谷歌還有更加看得見、摸得著的進(jìn)步。——Gemini Live,這就是Gemini產(chǎn)品的多模態(tài)功能擴(kuò)展。Gemini Advanced用戶可以用語(yǔ)音與Gemini進(jìn)行對(duì)話,對(duì)話更加流暢自然,延遲更低,可隨時(shí)中斷,預(yù)計(jì)夏季上線。同時(shí),谷歌還強(qiáng)調(diào),今年將增加相機(jī)功能,實(shí)現(xiàn)實(shí)時(shí)監(jiān)控。
可以說(shuō),這一次,谷歌被OpenAI精確狙擊——GPT-不但早一天發(fā)布,而且現(xiàn)場(chǎng)演示,接下來(lái)的幾個(gè)星期就會(huì)向所有客戶開放。
B
最近外界流傳OpenAI將推出搜索產(chǎn)品,與谷歌進(jìn)行第一次世界大戰(zhàn),但這種情況并沒(méi)有發(fā)生,谷歌本身也不斷升級(jí)谷歌搜索。
搜索作為谷歌的核心產(chǎn)品,即將迎來(lái)大升級(jí)——搜索摘要功能AI Overview,Multi還包含多步推理功能-Step Reasoning、計(jì)劃Planning在搜索中進(jìn)行。 in Search,使用視頻提問(wèn)Askk With Video。
AI Overview,正如其名稱所示,是指客戶輸入文本,點(diǎn)擊搜索后,出現(xiàn)在頂部的信息摘要將是AI幫助整理的。它包括用自然語(yǔ)言總結(jié)和總結(jié)搜索結(jié)果,以及推薦鏈接。此前,谷歌稱之為“搜索生成式感覺(jué)”(SGE)”。
Multi的多步推理-step reasoning可以用來(lái)制定計(jì)劃。當(dāng)用戶在輸入框中輸入“周邊最好的瑜伽館”時(shí),AI摘要會(huì)根據(jù)評(píng)分、課程、距離等信息對(duì)附近的瑜伽館進(jìn)行分類,更清晰地向客戶展示。Planning in 在Search中,用戶可以直接使用谷歌搜索進(jìn)行計(jì)劃,例如,如果需要在輸入框中輸入飲食計(jì)劃,搜索引擎會(huì)給你一個(gè)按鈕。
當(dāng)你想搜索商品時(shí),AI也會(huì)發(fā)揮作用。當(dāng)你在輸入框中輸入“五英里通勤自行車上下坡”時(shí),搜索引擎會(huì)給出購(gòu)買自行車的想法和建議,并給出一些商品推薦。
由一次又一次的詳細(xì)演示不難看出,谷歌已下定決心重塑搜索體驗(yàn)。
然而,AI搜索已經(jīng)應(yīng)用于許多競(jìng)爭(zhēng)產(chǎn)品中,更多的Perplexity專門從事AI搜索。.AI。在2024年5月,谷歌對(duì)搜索感覺(jué)的重大升級(jí),已不再能帶來(lái)新鮮感。
其它應(yīng)用生態(tài)的新動(dòng)作更像是補(bǔ)充,比如Gmail郵箱,Google Gemini已經(jīng)逐漸擴(kuò)展到越來(lái)越多的谷歌應(yīng)用程序,如Messages通信、谷歌照片等,有“Gemini無(wú)處不在”的趨勢(shì)。
C
AI背后的模型,谷歌這次也是大手一揮,升級(jí)升級(jí),新發(fā)布,Gemini家族日益壯大。
Geminini發(fā)布于三個(gè)月前。 1.5 從現(xiàn)在開始,Pro終于“發(fā)貨”,并正式向訂閱Geminini開放。 Advanced(類似于ChatGPT Plus)的用戶。
Gemini 1.5 Pro支持前后文窗口100萬(wàn)token,今年晚點(diǎn)將增加到200萬(wàn)token。更加生動(dòng)地說(shuō),升級(jí)后的Gemini 1.5 Pro可以同時(shí)處理22小時(shí)音頻、2小時(shí)視頻、超過(guò)60000行代碼或140萬(wàn)個(gè)單詞。
在新發(fā)布的模型中,Gemini 1.5 Flash最初有明星潛力,但是被OpenAI攻擊。GPT-ChatGPT狙擊Project驅(qū)動(dòng)。 Astra和Gemini Live,GPT-Geminini4O狙擊 Flash。
Gemini 1.5 Flash的主要推動(dòng)更輕更快,反應(yīng)速度和效率是其主要推動(dòng)特征,具有多模態(tài)推理能力,擅長(zhǎng)總結(jié)、聊天、圖像、文檔數(shù)據(jù)提取、視頻字幕等。但是這個(gè)特征顯然與GPT-4o發(fā)生了碰撞。
此外,谷歌的開源模型Gemma還發(fā)布了一個(gè)新版本,Gemma 2.0擁有270億參數(shù),并且擴(kuò)展了PaliGemma的多模態(tài)版本。
谷歌在I/O大會(huì)上發(fā)布了三種多模態(tài)生成模式,包括圖像、音樂(lè)和視頻。
谷歌之前就有過(guò)文生圖模型,這次做了迭代,發(fā)布了Imagen 3。Imagen 3對(duì)提示的認(rèn)知更準(zhǔn)確、更細(xì)致,可以生成更逼真的圖像。在演示中,Imagen3從一個(gè)長(zhǎng)長(zhǎng)的提示中獲得了8個(gè)細(xì)節(jié),并在生成的圖像中一一反映出來(lái)。
音樂(lè)生成模型Music AI Sandbox是全新的,用戶可以使用小段Demo來(lái)擴(kuò)展和增加音樂(lè),也可以根據(jù)文本提醒來(lái)重新創(chuàng)作音樂(lè),改變和調(diào)整音樂(lè)風(fēng)格等等。由于谷歌旗下還有YouTube等UGC平臺(tái),這種模式將更好地為創(chuàng)作者服務(wù)。
事實(shí)上,更加引人注目的是谷歌新發(fā)布的文生視頻模型Veo。
谷歌Veo可以接收文本、圖像和視頻提醒,生成1080p規(guī)格、60s高質(zhì)量的長(zhǎng)視頻。
OpenAI在年初發(fā)布了Sora,雖然Sora還沒(méi)有正式向公眾開放使用,但是演示視頻和小范圍的測(cè)試已經(jīng)使Sora受到了極大的追捧。Veo可以和Sora進(jìn)行一場(chǎng)演示。
在這次I/O大會(huì)上,谷歌提交了一份真誠(chéng)的“成就清單”,大型模型仍在進(jìn)步和創(chuàng)新,AI應(yīng)用生態(tài)也在不斷發(fā)展。
然而,新詞匯轟炸后,能給人留下深刻印象的東西并不多。與前一天發(fā)布的GPT-4oOpenAI相比,谷歌仍然缺少一次王炸,這讓外界感覺(jué)科幻電影進(jìn)入了現(xiàn)實(shí)。
本文來(lái)自微信微信官方賬號(hào)“字母榜”(ID:wujicaijing),36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com