號(hào)稱超越 GPT-4 有多少大模型依賴于“抄襲”?
每個(gè)人都要互相舔羊毛,要用,但是要小心使用,一不小心就尷尬。
一位國(guó)產(chǎn)大模型算法工程師正在接受「甲子光年」采訪中的吐槽,可以說(shuō)是十分到位。
這是一個(gè)準(zhǔn)確的討論 AI 這個(gè)行業(yè)的每一個(gè)人「心照不宣」公開(kāi)秘密。
每個(gè)人都知道,每個(gè)人都盡量不要?!钢币暋顾潜闶恰竿禂?shù)據(jù)」。
近期,「The Information」戳破這層紗布,說(shuō)出大模型「套殼」其中最糟糕的一種形式。而且它背后的數(shù)據(jù)對(duì)決,今年也得到了更多的關(guān)注。
使模型走向同質(zhì)化「數(shù)據(jù)捷徑」
假如每個(gè)人都使用相同的數(shù)據(jù),你怎么會(huì)比別人好呢?
投資了 OpenAI 競(jìng)爭(zhēng)者 Anthropic 的門羅風(fēng)投(Menlo Ventures)總經(jīng)理 Matt Murphy 評(píng)論道。
眾所周知,數(shù)據(jù)在模型訓(xùn)練過(guò)程中尤為重要,而且在不同階段的重點(diǎn)也有所不同。
練習(xí)底座模型時(shí),數(shù)據(jù)追求的是「量」,對(duì)于計(jì)算率的要求也是極高的,它決定了大模型對(duì)事物的基本要求。「理解能力」。
很明顯,并非所有的創(chuàng)業(yè)公司都能負(fù)擔(dān)得起這筆費(fèi)用和時(shí)間。所以許多創(chuàng)業(yè)公司都會(huì)跳過(guò)第一步,直接使用。 Meta 或 Mistral AI 使用開(kāi)源模型。
在此基礎(chǔ)上,創(chuàng)業(yè)公司需要根據(jù)自己的產(chǎn)品專注方向?qū)δP瓦M(jìn)行微調(diào)。 —— 數(shù)據(jù)輸入相對(duì)較少,但更有針對(duì)性和高質(zhì)量,可以幫助模型成為特定領(lǐng)域?!笇<摇?,做出商品差異。
這一階段,開(kāi)發(fā)者需要輸入「問(wèn)題」「回答」,試著建立一個(gè)特定的模型「聯(lián)想」傾向。
這也是「偷數(shù)據(jù)」出現(xiàn)的環(huán)節(jié)。
由于 OpenAI、Anthropic 和 Google 這類大型企業(yè)有資源完善兩個(gè)階段的實(shí)踐,因此其模型的輸出結(jié)果質(zhì)量也比較高。
創(chuàng)業(yè)公司缺乏自己的數(shù)據(jù),會(huì)購(gòu)買 GPT-4 這是一個(gè)最新的模型付費(fèi)賬戶,然后根據(jù)自己的模型訓(xùn)練需要去哪里 GPT-4 提問(wèn),然后將答案和提問(wèn)一起輸入到模型訓(xùn)練中。
舉例來(lái)說(shuō),主要推廣編程細(xì)分領(lǐng)域模型的開(kāi)發(fā)者可以直接輸入一個(gè)代碼,然后詢問(wèn) GPT-4 這個(gè)代碼有什么問(wèn)題,這樣就產(chǎn)生了一種數(shù)據(jù)材料。
理論上,大公司是不能這樣做的。
不過(guò),有消息說(shuō) OpenAI 的 Sam Altman 在去年的一次會(huì)議上,我告訴企業(yè)家,他們可以這樣做。雖然這讓現(xiàn)在的企業(yè)家感到安心,但是沒(méi)有人能說(shuō)哪一天。 Altman 決定把這個(gè)放在一邊「特權(quán)」收回去。
Google 去年還有自己的「數(shù)據(jù)門」—— 不只是指用百度的文心一言產(chǎn)生的中文數(shù)據(jù)來(lái)訓(xùn)練。 Gemini,還有員工因 Google 用 ChatGPT 生成的數(shù)據(jù)訓(xùn)練自己的模型憤怒而離職。
在行業(yè)整體「默認(rèn)」接下來(lái),這種情況越來(lái)越普遍。
協(xié)助開(kāi)發(fā)者研發(fā)對(duì)話式 AI 的 Unsloth AI 創(chuàng)始人 Daniel Han 表示,大約有一半的顧客會(huì)使用它。 GPT-4 或是 Anthropic 的 Claude 生成的數(shù)據(jù)可以優(yōu)化自己的模型。
本來(lái)是用來(lái)分享樂(lè)趣的 ChatGPT 對(duì)話的工具 ShareGPT 就像很多公司直接扒數(shù)據(jù)的地方一樣, OpenPipe 這類工具甚至可以提高整個(gè)過(guò)程的自動(dòng)化水平。
因此,市場(chǎng)上提供相似模型的創(chuàng)業(yè)公司越來(lái)越多。這甚至導(dǎo)致了舊金山這樣的模型。 Martian 一般而言,專門為需要使用 AI 尋找服務(wù)企業(yè)「平替」計(jì)劃的創(chuàng)業(yè)公司。
但是投資者并不喜歡這種被騙的感覺(jué)。
正如最近一篇文章《紐約時(shí)報(bào)》所指出的那樣, AI 由于行業(yè)缺乏標(biāo)準(zhǔn)和評(píng)價(jià)體系,人們很難對(duì)不同模型的表現(xiàn)差異或優(yōu)勢(shì)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。
這樣才能讓投資者更加重視 AI 初創(chuàng)企業(yè)培訓(xùn)數(shù)據(jù)的來(lái)源。Radical Ventures 合作伙伴Rob Toews 強(qiáng)調(diào)說(shuō):
AI 在這些問(wèn)題中,模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來(lái)源已成為最重要的焦點(diǎn)之一。 沒(méi)有人知道未來(lái)會(huì)發(fā)生什么,但是任何在信息來(lái)源上不謹(jǐn)慎或者沒(méi)有策略的人 AI 初創(chuàng)企業(yè)都會(huì)落后。
在數(shù)據(jù)大戰(zhàn)中,「沉默」變成了共鳴
假如說(shuō)「缺芯」是 2023 年 AI 這個(gè)行業(yè)的共識(shí),那「缺數(shù)據(jù)」則是 2024 年度新主題。不但缺少創(chuàng)業(yè)公司,大公司更缺乏。
無(wú)論規(guī)模大小,這些公司都開(kāi)始在灰色地帶徘徊,以獲取數(shù)據(jù)。
早在 2021 年,OpenAI 面臨著數(shù)據(jù)短缺的問(wèn)題。
盡管有些員工提出了行為不當(dāng)?shù)膿?dān)憂,但最終還是 OpenAI 或者寫(xiě)一個(gè)語(yǔ)音轉(zhuǎn)文字工具? Whisper 來(lái)將超出 100 萬(wàn)小時(shí)的 YouTube 把視頻轉(zhuǎn)換成文字,用來(lái) GPT-4 訓(xùn)練。
在這次行動(dòng)中,OpenAI 總裁 Greg Brockman 還親自出馬幫忙收集視頻。
據(jù)知情人士透露,當(dāng) Google 發(fā)覺(jué) OpenAI 在做了什么之后,它并沒(méi)有透露訓(xùn)斥這些損害創(chuàng)作者版權(quán)的行為,因?yàn)?,Google 還要做同樣的事。
Google 發(fā)言人 Matt Bryant 回應(yīng)說(shuō),公司是對(duì)的 OpenAI 不知情的行為,也禁止未經(jīng)授權(quán)的數(shù)據(jù)捕獲。
除了 YouTube 此外,三位知情人士表示,Google 還在盯著旗下的網(wǎng)上合作文檔工具 Google Doc 數(shù)據(jù),但其隱私政策限制了數(shù)據(jù) Google 如何使用這些數(shù)據(jù)。
去年 7 月,Google 更新隱私政策,明確表示可以通過(guò)收集網(wǎng)絡(luò)上的公共信息或者來(lái)自其他公共來(lái)源的信息來(lái)訓(xùn)練 AI 模型。
對(duì)在 AI 領(lǐng)域「一大早起床,卻趕上了晚會(huì)。」的 Meta 盡管一些法律事務(wù)警告了版權(quán)問(wèn)題,但最終還是決定跟隨。 OpenAI 的「行業(yè)例子」使用版權(quán)保護(hù)書(shū)籍、文章等材料。
泄露的錄音也顯示,Meta 高管們一致同意,出了問(wèn)題可以用。 2015 年度作家協(xié)會(huì)訴訟 Google 案件失敗的先例是辯護(hù)。
看起來(lái)應(yīng)該是這樣 Meta 最大優(yōu)勢(shì)的 Facebook 和 Instagram,事實(shí)上,可用數(shù)據(jù)并不多,很多 Facebook 使用者刪除了他們最初發(fā)布的內(nèi)容,而社交媒體一般也不是每個(gè)人都喜歡發(fā)布長(zhǎng)篇內(nèi)容的地方。
這類巨人不愿言說(shuō)的過(guò)去,形成了 AI 行業(yè)在訓(xùn)練數(shù)據(jù)上一致閃爍其詞。
Adobe 在這些企業(yè)中,很少有大型企業(yè)積極討論自己的模型培訓(xùn)數(shù)據(jù)。
近期,它也「塌房」了。
Adobe 一直標(biāo)榜公司與創(chuàng)作者站在同一邊,堅(jiān)定地只使用自己獲得授權(quán)的圖庫(kù)來(lái)訓(xùn)練模型,不會(huì)像 Midjourney、Dall-E 如此私人使用有版權(quán)保護(hù)的圖像素材進(jìn)行訓(xùn)練。
直至有人發(fā)現(xiàn),Adobe 事實(shí)上,培訓(xùn)數(shù)據(jù)包含了培訓(xùn)數(shù)據(jù) AI 生成圖片,并生成 Adobe 同樣是知情的。
盡管 Adobe 需要強(qiáng)調(diào)的是,模型訓(xùn)練數(shù)據(jù)只有 5% 上下圖像是 AI 產(chǎn)生的,但無(wú)論如何,這些圖像都是通過(guò)損害創(chuàng)作者的版權(quán)利益而制作的,所以并不完全是這樣?!傅赖隆?。
這個(gè)月初,Adobe 高級(jí)副總裁 Ashley Still 仍然在一次公開(kāi)活動(dòng)中說(shuō):
我們?cè)谕瞥?Firefly 有時(shí)候,一些企業(yè)客戶會(huì)來(lái)告訴我們:「你所做的事情,我們真的很感激你沒(méi)有竊取我們?cè)诰W(wǎng)上的知識(shí)產(chǎn)權(quán)。」
不清楚「塌房」這個(gè)企業(yè)客戶在消息出來(lái)之后會(huì)有什么感受?
「榨干」因特網(wǎng)之后,下一步是什么?
以前我們認(rèn)為是因特網(wǎng)「廣闊無(wú)垠」,直到現(xiàn)在,大語(yǔ)言模型已經(jīng)存在「吃不飽」。
兩年前,科研機(jī)構(gòu) Epoch 的 Pablo Villalobos 指出,高質(zhì)量的數(shù)據(jù)很有可能在 2024 2008年中期,需求超過(guò)供給?,F(xiàn)在他們有點(diǎn)樂(lè)觀,認(rèn)為這種情況會(huì)發(fā)生。 2028 年才出現(xiàn)。
即便如此,OpenAI 也許現(xiàn)在也已經(jīng)很忙了。
Epoch估算,GPT-4 使用的訓(xùn)練數(shù)據(jù)大約是 12 萬(wàn)億 token,按規(guī)模定律(Scaling Law),要訓(xùn)練出被寄予厚望的人。 GPT-5 大概要 60-100 萬(wàn)億 token。
按照這個(gè)標(biāo)準(zhǔn),目前高質(zhì)量的文字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)的總體規(guī)模還不夠,還不夠。 10-20 萬(wàn)億 token。
變化刻不容緩。
Sam Altman 以前也暗示過(guò),OpenAI 尋找新的出路:
在我看來(lái),那個(gè)追求龐大模型的時(shí)代即將結(jié)束。 通過(guò)其它方法,我們可以讓它們變得更好。
同時(shí),消息人士表示, OpenAI 和 Google 我們都考慮做一個(gè)系統(tǒng),可以測(cè)量特定數(shù)據(jù)對(duì)模型訓(xùn)練的貢獻(xiàn)程度,這樣可以為提供這些數(shù)據(jù)的人計(jì)算支付的費(fèi)用,但是目前還沒(méi)有進(jìn)展。
在實(shí)現(xiàn)這些開(kāi)拓?cái)?shù)據(jù)和創(chuàng)新技術(shù)之前,有一件事。 AI 創(chuàng)業(yè)者現(xiàn)在有能力但不一定愿意做的事情。 —— 提高透明度,打破沉默。
要是這樣做不到,我們?cè)趺茨芟嘈胚@些公司能夠?qū)ι鐣?huì)負(fù)責(zé)呢? AI 商品?
本文來(lái)自微信微信官方賬號(hào)“APPSO”(ID:appsolution),作者:方嘉文,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com