再次打OpenAI「響指」,硬「杠」谷歌,「免費」開道
ChatGPT和GPT-4-上周預(yù)告「就像法術(shù)一樣」經(jīng)過重大更新,OpenAI在北京時間14日凌晨通過直播向公眾展示了這家全球最引人注目的人工智能模型公司的最新成果。
關(guān)于本次發(fā)布會的時間和內(nèi)容,在直播之前就已經(jīng)掀起了一場大會。「全民大預(yù)測」,可見OpenAI的影響。OpenAI去年11月6日 DevDay已經(jīng)過去半年了,盡管OpenAI自年初以來發(fā)布了Sora等招式,但它已經(jīng)圍繞ChatGPT功能和模型商業(yè)模式展開,例如API調(diào)用?!笣u進式改革」,但是行業(yè)更愿意看到OpenAI的系統(tǒng)更新。
在本次發(fā)布會上,OpenAI圍繞ChatGPT和GPT-4模型層更新的亮點如下:
1、模型:推出全新旗艦GPT-4o模型(omni全能),顯著提高了文本、視覺和音頻處理能力;
2、互動:在GPT-4o能力的支持下,ChatGPT類似于更先進的AI語音助手,可以實現(xiàn)語音通話和實時視頻交互。與此同時,OpenA宣布將推出桌面版ChatGPT。
3、價格:GPT-4o免費向所有人開放,與GPT-4 Turbo,API定價減半,但是速度是GPT-4 Turbo的兩倍。
值得注意的是,本次發(fā)布會創(chuàng)始人Sam Altman沒有出現(xiàn),而且時間正好卡在谷歌I/O 在2024大會的前一天,OpenAI正在開發(fā)一種名為OpenAI的搜索引擎產(chǎn)品。「SearchGPT」。Altman在最新的公開采訪中提到,「創(chuàng)建比谷歌更好的搜索引擎沒有興趣」。2024無疑是他們的關(guān)鍵一年,無論是像OpenAI這樣的明星創(chuàng)業(yè)公司,還是像谷歌這樣的巨頭。
本文「硅基研究室」對OpenAI的主要升級方向及其競爭者的最新動態(tài)進行了梳理,試圖回答兩個主要問題:
1、OpenAI發(fā)布會的主要亮點是什么?它們的影響是什么?
2、OpenAI在最新格局上還面臨著哪些挑戰(zhàn)?
1、硬扛谷歌,OpenAI做了什么?
OpenAI發(fā)布會的亮點無疑是AI語音助手的最新模式和長期暗示。
新聞發(fā)布會前,除媒體爆料外,OpenAI「音頻AGI研究負責(zé)人」Alexis Conneau用電影取代了他的社交媒體主頁背景。《Her》,這部電影講述了一個AI語音助手的情感故事。
Altman本人對語音交互也有自己的看法,在不久前的一次采訪中,他提到:“我相信語音交互是未來交互技術(shù)的重要線索。如果能實現(xiàn)真正高質(zhì)量的語音交互體驗,將是一種全新的與計算機交互的方式?!?/strong>新聞發(fā)布會結(jié)束后,他還在X上發(fā)了一條信息:Her”。
在直播活動中,OpenAI展示了這個實時語音助手的能力,不僅能快速響應(yīng),還能充滿情感地講故事和唱歌,模仿人的語氣,甚至有情感感知的能力。
對GPT-4o模型結(jié)構(gòu)進行了優(yōu)化。旅行問創(chuàng)始人、CEO李志飛表示,GPT-4o更像是一個無所不能的虛擬個人助理(VPA),但這不是一個新概念。OpenAI之所以把VPA推到一個新的高度,是因為它完成了模型端到端、實時互動、多模式互動和更絲滑的感覺。
根據(jù)英偉達高級研究科學(xué)家Jim科學(xué)家Jim的說法,語音AI并非新鮮事物。 分割Fan,大多數(shù)語音AI將經(jīng)歷三個階段:
首先是語音識別系統(tǒng)(Automatic Speech Recognition,ASR),把用戶的音頻語音轉(zhuǎn)換成文本信息,例如(Speech-to-Text),例如,開源Whisper語音轉(zhuǎn)文字模型于2022年9月推出。第二,chatGPT等大語言模型。第三,語音合成技術(shù)(TTS),ElevenLabs可自動將文本轉(zhuǎn)換為語音,例如ElevenLabs自研的Eleven。 Multilingual系列模型,微軟VALL-E系列等。
從ASR-LLM-OpenAI表示,TTS的過程,他們將找到它?!溉齻€單獨模型變成一個模型?!乖贕PT-4o的幫助下,OpenAI通過跨文本、視覺和音頻端到端訓(xùn)練出了一種新的模式,使所有的輸入輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。
不過,Jim Fan說,總的來說,從技術(shù)角度來說,這是一個數(shù)據(jù)和系統(tǒng)優(yōu)化的問題。
OpenAI在語音AI方面的技術(shù)也有多年的布局,它不僅擁有開源語音識別項目 Whisper,Tortoise的作者Jamese也有熱門的語音生成開源項目。 Betker。OpenAI今年3月推出的語音合成引擎Voicee Engine,一個人的聲音可以通過15秒的語音樣本復(fù)制,這也是ChatGPT的驅(qū)動力。 語音功能APP版本的核心技術(shù)。
聲音模態(tài)雖然沒有去年大語言模型和多模態(tài)的趨勢那么火爆,但一直是備受關(guān)注的對象。行業(yè)玩家的進化主要分為三個方向:
首先,語音AI公司細分賽道,針對內(nèi)容創(chuàng)作者,在內(nèi)容制作過程中滿足語音設(shè)計、復(fù)制和生成的需要,包括ElevenLabs等創(chuàng)業(yè)公司。第二,谷歌等大型科技企業(yè),Meta、微軟等。,都有語音AI儲備,但由于安全、隱私等合規(guī)需求,大部分都是將語音AI技術(shù)結(jié)合到現(xiàn)有業(yè)務(wù)中,并沒有直接推出商業(yè)產(chǎn)品。
另一類實際上是OpenAI所擅長的,每個人都期待著由大語言模型驅(qū)動的chatGPT能夠?qū)崿F(xiàn)自由的語音交互。(不久前,曾經(jīng)風(fēng)靡全網(wǎng)的GoogleAI初創(chuàng)公司Hume AI也是一種類似邏輯的商品)。
OpenAI為chatGPT增加語音助手功能并不奇怪:首先,從時間點來看,OpenAI已經(jīng)經(jīng)常向公眾展示其新的模型技術(shù),從年初Sora拉動的多模態(tài)浪潮開始。
第二,語音AI助手對OpenAI的好處也是多方面的:最直接的就是增加C端用戶的吸引力,之前我們在《ChatGPT悄然變懶,OpenAI還能加速運行嗎?”曾經(jīng)說過,隨著GPT-4用戶體驗的下降,特別是在專注于公司AI的情況下,一群忠實的用戶,正在尋找替代方案。
另外,OpenAI需要更強大的AI故事來應(yīng)對競爭。舉例來說,去年OpenAI GPT顯示在DevDay上。 Store,在OpenAI的預(yù)期中,并沒有帶來好的結(jié)果。
更重要的是,它可以為OpenAI提供更多的商業(yè)想象。功能更新圍繞語音可以幫助OpenAI深入到更多的硬件配置中。隨著科技巨頭爭相進入AI硬件的新競爭,這也是OpenAI穩(wěn)定的商業(yè)化道路。
2、「停更」半年,AI變天?
每一次OpenAI更新,幾乎所有的社交媒體都會猜測一些創(chuàng)業(yè)公司?!杆劳觥?,這一次也不例外,有網(wǎng)友直接寫了一份?!杆劳雒麊巍?,包含情緒分析、翻譯助手、心理健康等領(lǐng)域。
假如是去年11月6日發(fā)布的會議?!复蟾隆贡M管OpenAI圍繞ChatGPT和模型API進行了大量的計算,「小更新」,但是畢竟也過了半年。
人們常說:“AI一天,人間一年”,對于OpenAI來說,或許也有類似的體驗。
對比一年前建立的OpenAI和Altman?!窮lag」,人工智能的競爭可能比他們想象的更有戲劇性。
第一,就是競爭對手超出預(yù)期的擴張速度。被稱作「OpenAI法國版」Mistral 據(jù)報道,AI已經(jīng)獲得了6億美元的新一輪融資,目前估值達到60億美元。在新一輪融資中,馬斯克的人工智能創(chuàng)業(yè)公司xAI也被報道,估值約為180億美元。Anthropic作為OpenAI最大的敵人,最近也推出了其首款移動應(yīng)用程序,為用戶提供Claude瀏覽 新渠道3模型。
第二,AI硬件計劃錯綜復(fù)雜。據(jù)外媒報道,除與蘋果合作外,Sam 前蘋果設(shè)計師JonyyAltman正計劃 Ive創(chuàng)建了一個神秘的企業(yè),推出了一個人工智能驅(qū)動的個人設(shè)備。此前,Altman領(lǐng)先AI硬件創(chuàng)業(yè)公司Humane。AI推出了Humane的第一款產(chǎn)品 最近Pin上市的時候,由于感覺不好,受到了外媒的影響?!讣w吐槽」。
然而,在這次直播演示中,OpenAI展示了它使用智能手機的能力。舉例來說,chatGPT可以在掃描紙上的方程后,引導(dǎo)用戶解決數(shù)學(xué)問題。Gergelyy之前的Uber和Skype工程師。 Orosz說:“很難看到蘋果執(zhí)行這種“奇妙”的手機體驗。
幸運的是,這次新聞發(fā)布會至少讓人們看到了OpenAI一直專注于他們。「主線任務(wù)」——新的模式,新的產(chǎn)品一直在迭代。Altman在直播之后,在博客中更新了OpenAI的新使命,他提到:第一,我們的使命是免費向公眾提供功能強大的AI工具(或者以非常優(yōu)惠的價格)。
這個信號是正確的,需要繼續(xù)打硬仗。
本文來自微信微信官方賬號“硅基研究室”(ID:gh作者:_439834ca1a7:kiki,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com