亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

"大廠壟斷大模型",會不會被開源終結(jié)?

2023-05-24
AI方面,谷歌和OpenAI的積累,最終真的會輸給一群隱藏在民間的“草頭俠”嗎?


最近,每一個正在進行AI對決的大廠,一份被谷歌泄露的內(nèi)部文件,打開了尷尬的一面。


泄露的內(nèi)部文件聲稱:“我們沒有‘環(huán)城河’,OpenAI 沒有。在我們還在爭吵的時候,第三方已經(jīng)悄悄地搶走了我們的飯碗——開源?!?/p>


根據(jù)這份文件,一些開源模型一直在復制谷歌和微軟的勞動收入,雙方的差距正以驚人的速度縮小。開源模型更快,可定制性更強,更私密,功能性不落后。


舉例來說,這些開源模型可以使用 100 美金外加 13B 參數(shù),再加上幾個星期就可以發(fā)布了,而像谷歌這樣的大公司,要想訓練大模型,就要面對幾千萬美元的成本和成本。 540B 參數(shù),以及近幾個月的訓練周期。


那么,事實真的會像這份文件中提到的那樣,谷歌和OpenAI在AI方面的積累,最終真的會輸給一群隱藏在民間的“草頭俠”嗎?


所謂“大廠壟斷大模式”的時代,真的要結(jié)束了嗎?


要回答這個問題,首先要了解開源模型的生態(tài),看看這些如雨后春筍般涌現(xiàn)的開源模型是如何一步步蠶食谷歌的“正規(guī)軍”。


01 開源模型異軍突起


事實上,最早的開源模式,其誕生完全是一場“意外”。


在大多數(shù)基準測試下,Meta發(fā)布了自己的大型語言模型LLaMA,參數(shù)從70億到650億不等,僅用130億參數(shù)就超過了GPT-3。


但是沒想到的是,LLaMA的模型文件在發(fā)布后不久就被泄露了。


此后,開源模型的浪潮就像決堤一樣,變得一發(fā)不可收拾。


ChatGPT開源替代品,像八仙過海一樣。——「羊駝家族」,接著粉墨出現(xiàn)了。


這種開源模型與ChatGPT相比,最顯著的特點就是訓練成本和時間都極其便宜。


就拿LlaMA衍化模型Alpaca來說,它的訓練費用只有52k數(shù)據(jù)和600美元。


但是,如果開源只靠低成本,對谷歌這樣的大廠商來說是不夠的。重要的是,在極低的培訓成本下,這些開源模型可以多次達到與GPT-3.5相當?shù)男阅堋?/p>


谷歌和OpenAI現(xiàn)在并不平靜。


對于GPT-3.5,斯坦福研究者(text-davinci-Alpacaca003 對比7B,發(fā)現(xiàn)這兩個模型的性能非常相似。與GPT-3.5相比,Alpaca獲勝頻率為90對89。


重點來了:這些開源模型,到底是怎么做到的?


斯坦福團隊的回答有兩點:1、強大的預訓練語言模型;2、高質(zhì)量的指令遵循數(shù)據(jù)。


我們把強大的預訓練語言模型(如LlaMA或GPT-3)比作一位知識和經(jīng)驗豐富的教師。


對于自然語言理解領域的任務,強大的預訓練語言模型可以借助大規(guī)模的文本數(shù)據(jù)進行練習,學習自然語言的方式和規(guī)律,幫助指令遵循其他任務的模型更好地理解和生成文本,提高模型的表達和理解能力。


這相當于學生可以利用教師的知識和經(jīng)驗來提高語言能力,使用預訓練語言模型的知識和經(jīng)驗來提高他們的表現(xiàn)。


開源模型的另一把“尖刀”,除了借助這位“老師”的知識,就是指令微調(diào)。


指令微調(diào),或指令調(diào)優(yōu),是指當前大語言模型生成指令遵循數(shù)據(jù)后,進行數(shù)據(jù)優(yōu)化的過程。


具體而言,指令微調(diào)是指在生成的指令信息中,對一些不合適或錯誤的指令進行調(diào)整,使其更適合實際應用領域。


指令優(yōu)化是指在生成的指令信息中加重或重復一些重要、復雜或容易出錯的指令,從而提高指令遵循模型對這些指令的理解和表達能力。


通過這種“微調(diào)”,人們可以生成更準確、更有針對性的指令來遵循數(shù)據(jù),從而提高開源模型在特定任務中的表現(xiàn)能力。


因此,即使只使用少量的數(shù)據(jù),開源社區(qū)也可以訓練出與ChatGPT相匹配的新型號。


但是,另一個問題是:面對自己辛辛苦苦打下的國家,谷歌和OpenAI為什么沒有以“四兩撥千斤”的方式一步步被開源社區(qū)蠶食?


即使是以毒攻毒,推出同樣快速迭代的小模型,也不失為一種破局之策啊。


02 進退兩難


實際上,像谷歌這樣的龍頭企業(yè),并非沒有意識到開源的優(yōu)勢。


谷歌在泄露的文檔中提到,幾乎每個人都可以根據(jù)自己的想法微調(diào)模型,然后一天內(nèi)的訓練周期就會成為常態(tài)。以這樣的速度,微調(diào)的積累效應將很快幫助小模型克服規(guī)模上的劣勢。


但問題是,谷歌和OpenAI作為AI領域的巨頭,既不能也不愿意完全放棄培訓成本高的大參數(shù)模型。


在某種程度上,這是保證自己優(yōu)勢地位的重要途徑。


谷歌和OpenAI作為AI領域的巨頭,需要不斷提升自己的技術實力和創(chuàng)新能力。傳統(tǒng)的大參數(shù)訓練模式是提供這種探索和創(chuàng)新的唯一途徑。


AI領域的研究者和科學家需要對模型和算法的基本原理有更深入的了解,探索AI技術的局限性和發(fā)展方向,這需要大量的理論研究、實驗驗證和數(shù)據(jù)探索,而不僅僅是微調(diào)和優(yōu)化。


例如,AI領域的科學家在練習大參數(shù)模型時,可以探索模型的泛化能力和魯棒性,并在不同的數(shù)據(jù)和場景中評估模型的性能和效果。正是在這個過程中,谷歌的BERT模型不斷得到加強。


與此同時,大參數(shù)模型的練習,也能幫助科學家探索模型的可解釋性和可視性,


例如,Transformer模型對于今天的GPT至關重要,雖然在功能上表現(xiàn)出色,但其內(nèi)部結(jié)構和工作原理卻比較復雜,不利于理解和解釋。


通過大參數(shù)模型的練習,人們可以可視化Transformer模型的內(nèi)部結(jié)構和特點,從而更好地了解模型是如何編碼和處理輸入的,進一步提高模型的性能和應用效果。


所以,開源和微調(diào)的方法,雖然可以促進AI技術的不斷發(fā)展和優(yōu)化,但不足以取代對AI基本問題的深入研究和探索。


不過話說到這里,一個非常尖銳的分歧又出來了:一方面,谷歌和OpenAI不能放棄對大參數(shù)模型的研究,堅持對其技術保密。另一方面,免費優(yōu)質(zhì)的開源替代品使得谷歌等大公司的“燒錢”戰(zhàn)略變得困難。


由于大模型消耗的巨大算率資源和信息,僅僅是在 2022 年,OpenAI 總費用已經(jīng)達到 5.4 十億美元,與之形成鮮明對比的是,它所產(chǎn)生的收入只有 2800 萬美金。


同時,開源社區(qū)具有靈活性的優(yōu)勢,也讓谷歌等大廠感到難以與之匹敵。


谷歌認為,在泄露的文件中,開源陣營的真正優(yōu)勢是“行為”。


與谷歌這樣的大工廠相比,開源社區(qū)的參與者可以在不受任何限制和壓力的情況下,隨意探索和研究技術,從而有更多的機會發(fā)現(xiàn)新的技術目標和應用領域。


谷歌在研究和開發(fā)新技術時,必須考慮商品的商業(yè)可行性和市場競爭力。這在一定程度上限制了人才的研究方向。


另外,由于保密協(xié)議的出現(xiàn),谷歌人才也很難像開源社區(qū)那樣,與外界進行全面的溝通和共享技術研究的成果。


如果說低價靈活的開源模式最終會成為不可阻擋的趨勢,那么當谷歌等大公司面對這片廣闊的戰(zhàn)場時,他們?nèi)绾卧谛碌臅r代生存下來呢?


03 另辟蹊徑


如果谷歌這樣的龍頭企業(yè)最終在開源陣營的攻擊下選擇了“打不過就加入”的策略,那么如何在開源的情況下找到一條可行的商業(yè)路徑就成了當務之急。


歸根結(jié)底,在目前的市場認知下,開源幾乎等于“人人都可以免費使用”。


之前,Stable 明星公司背后的Diffusion——Stability AI,由于開源后,找不到明確的收益方式,目前正面臨著嚴重的財務危機,以致于即將破產(chǎn)。


然而,對于如何在開源的情況下實現(xiàn)盈利,業(yè)界并非完全沒有例子可循。


例如,在此之前,谷歌開放了Android系統(tǒng),這是一個經(jīng)典案例。


最初,由谷歌主導開發(fā)和推廣的安卓系統(tǒng)開源后,谷歌仍然通過各種渠道從安卓操作系統(tǒng)的設備制造商那里獲得了收益。


具體而言,這些方法可以分為以下幾種:


收取許可費:當設備制造商希望在其設備上預裝Google 谷歌應用和服務,如Play商店,他們需要遵守谷歌的授權協(xié)議,并支付相應的授權費用。


推出定制設備:谷歌通過與設備制造商的合作,推出一些定制的Android設備,例如Google Googlel智能手機和Pixel Nexus平板電腦等。,并從中獲益。這類定制設備通常具有更好的價值和更好的性能,并且可以預裝谷歌的應用和服務。


銷售應用:當設備用戶在Google 谷歌在購買應用程序、游戲或媒體內(nèi)容時,會從Play商店中提取一定的傭金。


雖然這些方法的好處可能不像谷歌的主營業(yè)務——搜索和廣告那樣賺很多錢,但谷歌仍然從中獲得了各種“隱性好處”。


因為安卓roid 隨著互聯(lián)網(wǎng)的開放,谷歌可以通過吸引更多的人使用Android上的應用來收集用戶的行為數(shù)據(jù),并加工這些信息,從而避免了某個企業(yè)壟斷移動平臺的入口,從而使廣告營銷更加精準。


由此可見,開源方式并非與商業(yè)盈利模式完全矛盾,這對谷歌和開源社區(qū)的參與者來說是一件好事。


由于只有通過商業(yè)化的方式,不斷地為自己“造血”,谷歌、OpenAI等大廠商,才能繼續(xù)承擔培訓大型參數(shù)模型所需的高成本。


只有隨著大參數(shù)模型的不斷開發(fā),各大開源社區(qū)才能繼續(xù)基于高性能、高質(zhì)量的預訓練語言模型,對類型更多、應用領域更豐富的開源模型進行微調(diào)。


基于這種關系,開源模型與封閉的大模型之間,實際上不僅僅是對立和競爭,更是一種互助共生的生態(tài)。


在AI方面,谷歌和OpenAI的積累,最終真的會輸給一群隱藏在民間的“草頭俠”嗎?


最近,每一個正在進行AI對決的大廠,一份被谷歌泄露的內(nèi)部文件,打開了尷尬的一面。


泄露的內(nèi)部文件聲稱:“我們沒有‘環(huán)城河’,OpenAI 沒有。在我們還在爭吵的時候,第三方已經(jīng)悄悄地搶走了我們的飯碗——開源。”


根據(jù)這份文件,一些開源模型一直在復制谷歌和微軟的勞動收入,雙方的差距正以驚人的速度縮小。開源模型更快,可定制性更強,更私密,功能性不落后。


舉例來說,這些開源模型可以使用 100 美金外加 13B 參數(shù),再加上幾個星期就可以發(fā)布了,而像谷歌這樣的大公司,要想訓練大模型,就要面對幾千萬美元的成本和成本。 540B 參數(shù),以及近幾個月的訓練周期。


那么,事實真的會像這份文件中提到的那樣,谷歌和OpenAI在AI方面的積累,最終真的會輸給一群隱藏在民間的“草頭俠”嗎?


所謂“大廠壟斷大模式”的時代,真的要結(jié)束了嗎?


要回答這個問題,首先要了解開源模型的生態(tài),看看這些如雨后春筍般涌現(xiàn)的開源模型是如何一步步蠶食谷歌的“正規(guī)軍”。


01 開源模型異軍突起


事實上,最早的開源模式,其誕生完全是一場“意外”。


在大多數(shù)基準測試下,Meta發(fā)布了自己的大型語言模型LLaMA,參數(shù)從70億到650億不等,僅用130億參數(shù)就超過了GPT-3。


但是沒想到的是,LLaMA的模型文件在發(fā)布后不久就被泄露了。


此后,開源模型的浪潮就像決堤一樣,變得一發(fā)不可收拾。


ChatGPT開源替代品,像八仙過海一樣?!秆蝰劶易濉梗又勰霈F(xiàn)了。


這種開源模型與ChatGPT相比,最顯著的特點就是訓練成本和時間都極其便宜。


就拿LlaMA衍化模型Alpaca來說,它的訓練費用只有52k數(shù)據(jù)和600美元。


但是,如果開源只靠低成本,對谷歌這樣的大廠商來說是不夠的。重要的是,在極低的培訓成本下,這些開源模型可以多次達到與GPT-3.5相當?shù)男阅堋?/p>


谷歌和OpenAI現(xiàn)在并不平靜。


對于GPT-3.5,斯坦福研究者(text-davinci-Alpacaca003 對比7B,發(fā)現(xiàn)這兩個模型的性能非常相似。與GPT-3.5相比,Alpaca獲勝頻率為90對89。


重點來了:這些開源模型,到底是怎么做到的?


斯坦福團隊的回答有兩點:1、強大的預訓練語言模型;2、高質(zhì)量的指令遵循數(shù)據(jù)。


我們把強大的預訓練語言模型(如LlaMA或GPT-3)比作一位知識和經(jīng)驗豐富的教師。


對于自然語言理解領域的任務,強大的預訓練語言模型可以借助大規(guī)模的文本數(shù)據(jù)進行練習,學習自然語言的方式和規(guī)律,幫助指令遵循其他任務的模型更好地理解和生成文本,提高模型的表達和理解能力。


這相當于學生可以利用教師的知識和經(jīng)驗來提高語言能力,使用預訓練語言模型的知識和經(jīng)驗來提高他們的表現(xiàn)。


開源模型的另一把“尖刀”,除了借助這位“老師”的知識,就是指令微調(diào)。


指令微調(diào),或指令調(diào)優(yōu),是指當前大語言模型生成指令遵循數(shù)據(jù)后,進行數(shù)據(jù)優(yōu)化的過程。


具體而言,指令微調(diào)是指在生成的指令信息中,對一些不合適或錯誤的指令進行調(diào)整,使其更適合實際應用領域。


指令優(yōu)化是指在生成的指令信息中加重或重復一些重要、復雜或容易出錯的指令,從而提高指令遵循模型對這些指令的理解和表達能力。


通過這種“微調(diào)”,人們可以生成更準確、更有針對性的指令來遵循數(shù)據(jù),從而提高開源模型在特定任務中的表現(xiàn)能力。


因此,即使只使用少量的數(shù)據(jù),開源社區(qū)也可以訓練出與ChatGPT相匹配的新型號。


但是,另一個問題是:面對自己辛辛苦苦打下的國家,谷歌和OpenAI為什么沒有以“四兩撥千斤”的方式一步步被開源社區(qū)蠶食?


即使是以毒攻毒,推出同樣快速迭代的小模型,也不失為一種破局之策啊。


02 進退兩難


實際上,像谷歌這樣的龍頭企業(yè),并非沒有意識到開源的優(yōu)勢。


谷歌在泄露的文檔中提到,幾乎每個人都可以根據(jù)自己的想法微調(diào)模型,然后一天內(nèi)的訓練周期就會成為常態(tài)。以這樣的速度,微調(diào)的積累效應將很快幫助小模型克服規(guī)模上的劣勢。


但問題是,谷歌和OpenAI作為AI領域的巨頭,既不能也不愿意完全放棄培訓成本高的大參數(shù)模型。


在某種程度上,這是保證自己優(yōu)勢地位的重要途徑。


谷歌和OpenAI作為AI領域的巨頭,需要不斷提升自己的技術實力和創(chuàng)新能力。傳統(tǒng)的大參數(shù)訓練模式是提供這種探索和創(chuàng)新的唯一途徑。


AI領域的研究者和科學家需要對模型和算法的基本原理有更深入的了解,探索AI技術的局限性和發(fā)展方向,這需要大量的理論研究、實驗驗證和數(shù)據(jù)探索,而不僅僅是微調(diào)和優(yōu)化。


例如,AI領域的科學家在練習大參數(shù)模型時,可以探索模型的泛化能力和魯棒性,并在不同的數(shù)據(jù)和場景中評估模型的性能和效果。正是在這個過程中,谷歌的BERT模型不斷得到加強。


與此同時,大參數(shù)模型的練習,也能幫助科學家探索模型的可解釋性和可視性,


例如,Transformer模型對于今天的GPT至關重要,雖然在功能上表現(xiàn)出色,但其內(nèi)部結(jié)構和工作原理卻比較復雜,不利于理解和解釋。


通過大參數(shù)模型的練習,人們可以可視化Transformer模型的內(nèi)部結(jié)構和特點,從而更好地了解模型是如何編碼和處理輸入的,進一步提高模型的性能和應用效果。


所以,開源和微調(diào)的方法,雖然可以促進AI技術的不斷發(fā)展和優(yōu)化,但不足以取代對AI基本問題的深入研究和探索。


不過話說到這里,一個非常尖銳的分歧又出來了:一方面,谷歌和OpenAI不能放棄對大參數(shù)模型的研究,堅持對其技術保密。另一方面,免費優(yōu)質(zhì)的開源替代品使得谷歌等大公司的“燒錢”戰(zhàn)略變得困難。


由于大模型消耗的巨大算率資源和信息,僅僅是在 2022 年,OpenAI 總費用已經(jīng)達到 5.4 十億美元,與之形成鮮明對比的是,它所產(chǎn)生的收入只有 2800 萬美金。


同時,開源社區(qū)具有靈活性的優(yōu)勢,也讓谷歌等大廠感到難以與之匹敵。


谷歌認為,在泄露的文件中,開源陣營的真正優(yōu)勢是“行為”。


與谷歌這樣的大工廠相比,開源社區(qū)的參與者可以在不受任何限制和壓力的情況下,隨意探索和研究技術,從而有更多的機會發(fā)現(xiàn)新的技術目標和應用領域。


谷歌在研究和開發(fā)新技術時,必須考慮商品的商業(yè)可行性和市場競爭力。這在一定程度上限制了人才的研究方向。


另外,由于保密協(xié)議的出現(xiàn),谷歌人才也很難像開源社區(qū)那樣,與外界進行全面的溝通和共享技術研究的成果。


如果說低價靈活的開源模式最終會成為不可阻擋的趨勢,那么當谷歌等大公司面對這片廣闊的戰(zhàn)場時,他們?nèi)绾卧谛碌臅r代生存下來呢?


03 另辟蹊徑


如果谷歌這樣的龍頭企業(yè)最終在開源陣營的攻擊下選擇了“打不過就加入”的策略,那么如何在開源的情況下找到一條可行的商業(yè)路徑就成了當務之急。


歸根結(jié)底,在目前的市場認知下,開源幾乎等于“人人都可以免費使用”。


之前,Stable 明星公司背后的Diffusion——Stability AI,由于開源后,找不到明確的收益方式,目前正面臨著嚴重的財務危機,以致于即將破產(chǎn)。


然而,對于如何在開源的情況下實現(xiàn)盈利,業(yè)界并非完全沒有例子可循。


例如,在此之前,谷歌開放了Android系統(tǒng),這是一個經(jīng)典案例。


最初,由谷歌主導開發(fā)和推廣的安卓系統(tǒng)開源后,谷歌仍然通過各種渠道從安卓操作系統(tǒng)的設備制造商那里獲得了收益。


具體而言,這些方法可以分為以下幾種:


收取許可費:當設備制造商希望在其設備上預裝Google 谷歌應用和服務,如Play商店,他們需要遵守谷歌的授權協(xié)議,并支付相應的授權費用。


推出定制設備:谷歌通過與設備制造商的合作,推出一些定制的Android設備,例如Google Googlel智能手機和Pixel Nexus平板電腦等。,并從中獲益。這類定制設備通常具有更好的價值和更好的性能,并且可以預裝谷歌的應用和服務。


銷售應用:當設備用戶在Google 谷歌在購買應用程序、游戲或媒體內(nèi)容時,會從Play商店中提取一定的傭金。


雖然這些方法的好處可能不像谷歌的主營業(yè)務——搜索和廣告那樣賺很多錢,但谷歌仍然從中獲得了各種“隱性好處”。


因為安卓roid 隨著互聯(lián)網(wǎng)的開放,谷歌可以通過吸引更多的人使用Android上的應用來收集用戶的行為數(shù)據(jù),并加工這些信息,從而避免了某個企業(yè)壟斷移動平臺的入口,從而使廣告營銷更加精準。


由此可見,開源方式并非與商業(yè)盈利模式完全矛盾,這對谷歌和開源社區(qū)的參與者來說是一件好事。


由于只有通過商業(yè)化的方式,不斷地為自己“造血”,谷歌、OpenAI等大廠商,才能繼續(xù)承擔培訓大型參數(shù)模型所需的高成本。


只有隨著大參數(shù)模型的不斷開發(fā),各大開源社區(qū)才能繼續(xù)基于高性能、高質(zhì)量的預訓練語言模型,對類型更多、應用領域更豐富的開源模型進行微調(diào)。


基于這種關系,開源模型與封閉的大模型之間,實際上不僅僅是對立和競爭,更是一種互助共生的生態(tài)。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com