GPT-5:OpenAI商業(yè)化野心的體現(xiàn),模型瓶頸下創(chuàng)業(yè)者的機(jī)遇
北京時(shí)間8月8日凌晨,OpenAI發(fā)布了最新一代的GPT模型——GPT-5。但此次模型發(fā)布,沒有ChatGPT和GPT-4發(fā)布時(shí)那種震撼的氣勢(shì),也未像o1發(fā)布時(shí)引領(lǐng)模型范式。
從發(fā)布會(huì)公布的benchmark來看,GPT-5性能僅以個(gè)位數(shù)優(yōu)勢(shì)領(lǐng)先其他廠商在2025年發(fā)布的SOTA級(jí)別模型,失去了以往的代差優(yōu)勢(shì)。不過,此次發(fā)布有幾個(gè)值得關(guān)注的點(diǎn),下面簡要分析,與關(guān)心AI的創(chuàng)業(yè)者和技術(shù)人員分享。
1. 合成數(shù)據(jù)的可用化
發(fā)布會(huì)上,OpenAI技術(shù)專家介紹,在GPT-5訓(xùn)練中,讓GPT-4o、o3等前一代模型生成訓(xùn)練數(shù)據(jù),使GPT-5獲得推理、規(guī)劃、分解任務(wù)的能力。OpenAI設(shè)計(jì)了“合成流程”,讓模型生成“正確類型數(shù)據(jù)”,提高了合成數(shù)據(jù)在模型訓(xùn)練中的作用。這種新應(yīng)用為先進(jìn)模型訓(xùn)練提供了新可能,不過要讓模型解決更復(fù)雜問題,還需高質(zhì)量人類標(biāo)注數(shù)據(jù)和可靠的數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng)。
2. Agent變得越來越重要
Agent是2025年AI應(yīng)用領(lǐng)域熱門關(guān)鍵詞,這波熱潮由OpenAI 2月發(fā)布的“Deep Research”功能引發(fā)。Agent本質(zhì)不僅是模型 + 工具,還需從訓(xùn)練階段就讓模型能力為其優(yōu)化。2025年,以Agentic AI為目標(biāo)的AI模型增多,如海外的o3、Claude4,國內(nèi)的Qwen3、Kimi K2。
GPT-5也對(duì)工具調(diào)用能力進(jìn)行著重微調(diào)。在模擬真實(shí)世界場(chǎng)景的測(cè)試集Tau2中,其在電信領(lǐng)域測(cè)試結(jié)果較o3和GPT-4.1有長足進(jìn)步。latent.space對(duì)GPT-5的測(cè)試顯示,一方面,只需自然語言描述就能讓GPT-5調(diào)用工具;另一方面,它擅長并行使用工具,這需要較高智能,能并行化使用工具使基于GPT-5構(gòu)建更復(fù)雜的Agent產(chǎn)品成為可能。總之,GPT-5會(huì)與工具一起思考,并用工具構(gòu)建程序。
3. GPT-5在編程方面進(jìn)行了著重升級(jí)
編程是AI模型著重強(qiáng)調(diào)的能力,GPT-5在SWE-bench和Aider Polyglot等測(cè)試上較o3有明顯提高,但在SWE-bench指標(biāo)上僅領(lǐng)先Claude 4.1 Opus 0.4%。
實(shí)際編程能力上,GPT-5進(jìn)步更大。它擅長智能體式編碼,“修改bug”能力也更好,分別對(duì)應(yīng)商業(yè)化復(fù)雜編程和個(gè)人化“Vibe Coding”。latent.space的測(cè)試中,困難“測(cè)試題”o3 + Cursor和Claude 4 Opus無法解決,GPT-5卻能一次性解決。關(guān)鍵在于模型調(diào)用工具方式不同,GPT-5編程時(shí)會(huì)多次思考、迭代,而Claude 4 Opus是想清楚再做。
模型廠商和應(yīng)用創(chuàng)業(yè)公司重視AI編程,是因?yàn)榫幊淌茿I應(yīng)用領(lǐng)域已探明市場(chǎng)容量最大的方向之一,有助于緩解營收壓力。Anthropic和OpenAI對(duì)編程投入增大,表現(xiàn)也越來越好。
4. GPT-5不是向著AGI優(yōu)化的,它是OpenAI進(jìn)一步加強(qiáng)商業(yè)化的產(chǎn)物
盡管OpenAI及其CEO Sam Altman強(qiáng)調(diào)以AGI為長期愿景,但從GPT-5及2025年發(fā)布的一系列產(chǎn)品和功能看,其商業(yè)化屬性在增強(qiáng)。2025年,OpenAI在ChatGPT中發(fā)布DeepResearch引領(lǐng)Agent熱潮,加強(qiáng)Canvas功能,為GPT-4o加入生圖功能,還加入學(xué)習(xí)模式,讓ChatGPT變成個(gè)人教師。這些針對(duì)用戶體驗(yàn)的升級(jí)使ChatGPT用戶數(shù)和收入增加,周活用戶超7億,付費(fèi)用戶達(dá)500萬,訂閱收入27億美元。
企業(yè)級(jí)商業(yè)化方面,GPT-5 API價(jià)格對(duì)標(biāo)Gemini 2.5Pro,大幅低于Claude 4 Opus,有吸引力。此外,它大幅降低模型幻覺,提高上下文長度,減少解決復(fù)雜問題時(shí)使用的token數(shù)量,提高了可用性,降低了成本。
5. 模型的進(jìn)步進(jìn)入瓶頸期,對(duì)于創(chuàng)業(yè)者是壞事么?
2025年,開源的DeepSeek R1席卷全球,Gemini 2.5Pro成為新的SOTA模型標(biāo)桿,但大語言模型進(jìn)步速度停滯。馬斯克的Grok4和GPT-5雖強(qiáng),但進(jìn)步是漸進(jìn)式的,大語言模型性能進(jìn)步可能暫時(shí)遭遇瓶頸。
對(duì)于應(yīng)用端創(chuàng)業(yè)者來說,這并非壞事。AI應(yīng)用是快魚吃慢魚的游戲,拼速度、創(chuàng)新和對(duì)用戶的感知,大廠在創(chuàng)業(yè)公司面前無優(yōu)勢(shì)。Notion的Ivan Zhao面對(duì)AI時(shí)代新挑戰(zhàn)興奮不已,這種創(chuàng)業(yè)和創(chuàng)新狀態(tài)值得欣賞。
本文來自微信公眾號(hào)“阿爾法公社”(ID:alphastartups),作者:發(fā)現(xiàn)非凡創(chuàng)業(yè)者的阿爾法公社,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com