有了ChatGPT,讀書(shū)還有用嗎?
ChatGPT上半年問(wèn)世,人工智能潛力呈現(xiàn),為許多職業(yè)帶來(lái)了一場(chǎng)生存危機(jī)的討論。GPT可通過(guò)律師和工程師資格考試,撰寫(xiě)大學(xué)論文不能不及格,甚至可以“理解”笑話。它可以回答每個(gè)人的問(wèn)題,組織生動(dòng)的語(yǔ)言結(jié)構(gòu),模仿各種語(yǔ)言特征;大語(yǔ)言模型和圖像生成 AI 將Midjourney等技術(shù)結(jié)合起來(lái),可以讓那些完全沒(méi)有接受過(guò)藝術(shù)訓(xùn)練的人,用一句話“創(chuàng)造”出驚人的藝術(shù)形象。
事實(shí)上,ChatGPT的本質(zhì)是大語(yǔ)言模型。(LargeLanguage Model,LLM)疊加生成人工智能。大語(yǔ)言模型,顧名思義,就是大,用大量的語(yǔ)素,用機(jī)器學(xué)習(xí)訓(xùn)練一個(gè)計(jì)算機(jī)模型。生成是指在對(duì)話中以預(yù)測(cè)的方式呈現(xiàn)最有可能的語(yǔ)素聯(lián)系。
對(duì)于知識(shí)“加工”和“消費(fèi)”的人來(lái)說(shuō),大語(yǔ)言模型和生成人工智能的能力是巨大的。大量的語(yǔ)素?cái)?shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)和巨大的計(jì)算能力相當(dāng)于“鋪平”整個(gè)來(lái)自互聯(lián)網(wǎng)的知識(shí),然后通過(guò)人機(jī)互動(dòng)進(jìn)行“自組裝”。
就計(jì)算邏輯而言,ChatGPT 相當(dāng)于一個(gè)更強(qiáng)大的搜索引擎。谷歌、百度等普通搜索引擎,通過(guò)爬蟲(chóng)“扒”整個(gè)互聯(lián)網(wǎng)信息,通過(guò)復(fù)雜的算法進(jìn)行排序。人工智能使用機(jī)器學(xué)習(xí)的方法相當(dāng)于用預(yù)測(cè)的方式整理出這些被扒出來(lái)的信息,符合語(yǔ)言邏輯。知識(shí)加工變得更加方便快捷,消費(fèi)變得更加簡(jiǎn)潔明了——有時(shí)候甚至太簡(jiǎn)單,給了考試論文作弊的機(jī)會(huì)。
針對(duì)這一點(diǎn),技術(shù)樂(lè)觀主義者認(rèn)為,既然機(jī)器從現(xiàn)在開(kāi)始可以產(chǎn)生的內(nèi)容可能不需要大多數(shù)人的大腦來(lái)實(shí)現(xiàn),就像搜索引擎取代了圖書(shū)館的收藏卡和計(jì)算器來(lái)代替珠算一樣。的確,即使是那些需要大量重復(fù)文字工作的人,或者機(jī)械列舉、整理工作, AI 不要介入最后的決定,的確還能提供相當(dāng)大的生產(chǎn)力,幫助人類(lèi)加工和消費(fèi)知識(shí)。
所以,讀書(shū)還有用嗎?高校、研究機(jī)構(gòu)的人員,也能下班嗎?
01 機(jī)器可以“學(xué)到”什么
大語(yǔ)言模型和生成人工智能給未來(lái)的知識(shí)“生產(chǎn)者”帶來(lái)了一個(gè)不可回避的話題:什么是知識(shí)?如何生產(chǎn)多樣、公平、真實(shí)的知識(shí)?
人工智能的“學(xué)習(xí)”能力令人驚嘆。當(dāng)前的大語(yǔ)言模型和人工智能應(yīng)用,都離不開(kāi)機(jī)器學(xué)習(xí)作為其背景。“學(xué)習(xí)”二字,本質(zhì)上是利用大量的數(shù)據(jù)訓(xùn)練來(lái)預(yù)測(cè)模型,并在預(yù)測(cè)的準(zhǔn)確性和普遍性上找到平衡。這一預(yù)測(cè)實(shí)際上是基于當(dāng)前的知識(shí),語(yǔ)言模型的預(yù)測(cè),也是基于當(dāng)前語(yǔ)言之間的聯(lián)系。例如輸入“紅燒”,機(jī)器預(yù)測(cè)“肉”;接著,根據(jù)更多的輸入,如地點(diǎn)、人、習(xí)慣等,給出更準(zhǔn)確的預(yù)測(cè),如“外婆做的紅燒牛肉”等。
這一預(yù)測(cè)是如何實(shí)現(xiàn)的?眾所周知的坐標(biāo)系是二維的。舉例來(lái)說(shuō),在整個(gè)人群中,身高和體重有一個(gè)大致的關(guān)系,給出身高,機(jī)器預(yù)測(cè)一個(gè)平均體重,就是基于當(dāng)前數(shù)據(jù)的預(yù)測(cè)。再次倒入另一個(gè)層次,比如性別,那就成了三維坐標(biāo),男女的預(yù)測(cè)也會(huì)有所不同。這樣,數(shù)據(jù)的維度就可以是無(wú)限的,機(jī)器學(xué)習(xí)的模型就是在人腦無(wú)法想象的多維空間中找到這種聯(lián)系,并不斷優(yōu)化每個(gè)維度之間的權(quán)重。舉例來(lái)說(shuō),身高對(duì)體重的預(yù)測(cè)“有多重要”,可在大量數(shù)據(jù)輸入后進(jìn)行調(diào)整。
因此,基于機(jī)器學(xué)習(xí)的人工智能將各個(gè)維度的數(shù)據(jù)與更高維度的空間聯(lián)系起來(lái),具有發(fā)現(xiàn)數(shù)據(jù)之間潛在聯(lián)系的能力,并“學(xué)習(xí)”現(xiàn)實(shí)中不存在但可能存在的一些聯(lián)系。在語(yǔ)言模型中,人工智能還可以學(xué)習(xí)不同的語(yǔ)言特征,探索當(dāng)前文字中的“本質(zhì)”和“問(wèn)題”。
資料越大,模型越完善,其運(yùn)算挖掘能力也越高。類(lèi)似于 BERT、GPT 這種方法起源于大型機(jī)構(gòu) AI,被很多人認(rèn)為已經(jīng)到了技術(shù)的“拐點(diǎn)”,量變產(chǎn)生質(zhì)變也不是沒(méi)有道理的——這對(duì)知識(shí)生產(chǎn)者來(lái)說(shuō)是一件好事。然而,大模型也存在一些問(wèn)題。模型越大,問(wèn)題越銳利,尤其是涉及到知識(shí)的多樣性、公平性和真實(shí)性。
02 如何才能產(chǎn)生真正公正的知識(shí)?
新知識(shí)可以從目前的知識(shí)聯(lián)系和新模式中獲得,這是從人和機(jī)器層面建立起來(lái)的。然而,現(xiàn)有的知識(shí)是否足夠?充分嗎?公平嗎?如果目前的知識(shí)基礎(chǔ)不足,甚至有偏見(jiàn),那么在此基礎(chǔ)上建立的新知識(shí)也會(huì)帶來(lái)誤差。
自從機(jī)器學(xué)習(xí)AI投入大規(guī)模應(yīng)用以來(lái),學(xué)者們一直在不斷揭示這些模型的內(nèi)在偏見(jiàn):性別歧視、種族歧視、違背倫理輸出等。開(kāi)發(fā)人員用各種補(bǔ)丁和糾正偏差來(lái)填補(bǔ),但大多數(shù)問(wèn)題都隱藏在數(shù)據(jù)生產(chǎn)和訓(xùn)練過(guò)程中,AI的偏見(jiàn)也體現(xiàn)和放大了社會(huì)偏見(jiàn)。
另外一個(gè)問(wèn)題是數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)不僅涉及到訓(xùn)練模型的能力,還涉及到數(shù)據(jù)的質(zhì)量和數(shù)量。現(xiàn)有的R&D流程,對(duì)模型的性能有更多的強(qiáng)調(diào)甚至迷信,反而會(huì)忽略更低層次的信息來(lái)源問(wèn)題。如今,大多數(shù)數(shù)據(jù)都依賴于人工清理和格式,包括數(shù)據(jù)分類(lèi)、標(biāo)記等。許多情況下,這一制作數(shù)據(jù)的過(guò)程是不透明的,甚至是潦草的。舉例來(lái)說(shuō),大型企業(yè)AI開(kāi)發(fā)的背后,是大量“臟亂”的人工外包給欠發(fā)達(dá)地區(qū)的“AI工廠”。這一過(guò)程一方面存在勞動(dòng)倫理問(wèn)題,另一方面也對(duì)數(shù)據(jù)質(zhì)量提出了挑戰(zhàn)。
在大模型時(shí)代,這個(gè)問(wèn)題可能會(huì)被隱藏得更深:并不是每個(gè)研究人員或團(tuán)隊(duì)都有能力從0開(kāi)始開(kāi)發(fā)AI模型,尤其是大語(yǔ)言、大圖像模型,大部分都是在現(xiàn)有模型的基礎(chǔ)上進(jìn)行微調(diào)。大模型本身的問(wèn)題和誤差會(huì)轉(zhuǎn)移到更多的應(yīng)用模型上。而且誤差越低,越難通過(guò)微調(diào)來(lái)處理。
當(dāng)前語(yǔ)言模型的預(yù)測(cè)生成方法,甚至?xí)糯蟋F(xiàn)有的數(shù)據(jù)誤差,產(chǎn)生“過(guò)擬合”的效果:
例如,在某一群體中,某一疾病的統(tǒng)計(jì)數(shù)據(jù)占比較高,約60%;但是如果讓語(yǔ)言模型產(chǎn)生病人的畫(huà)像,那么90%以上的可能性,產(chǎn)生的病人描述就會(huì)屬于這個(gè)群體。
目前一些AI模型訓(xùn)練,采用了一種“互搏”模式——所謂的“生成對(duì)抗網(wǎng)絡(luò)”(generative adversarial network),讓兩種模式相互生成,相互糾正。這種方法確實(shí)提高了模型訓(xùn)練的效率,但任何小錯(cuò)誤都應(yīng)該放大在這種“相互戰(zhàn)斗”中。同樣的原則,如果一個(gè)與機(jī)器密切合作的知識(shí)制造商依賴于這種“生成”,那么一些來(lái)自模型偏見(jiàn)的知識(shí)將被嵌入到更多的新知識(shí)中,新知識(shí)將被吸收為數(shù)據(jù),模型誤差將進(jìn)一步加強(qiáng)。在這一過(guò)程中,知識(shí)生產(chǎn)者必須提高警惕。
03 什麼是新知識(shí)?AI “生成”能否代表新的知識(shí)?
究竟什么是所謂的新知識(shí)?
若要充分利用AI來(lái)生產(chǎn)知識(shí),則知識(shí)生產(chǎn)者必須從人機(jī)的契合點(diǎn)來(lái)思考這一問(wèn)題。人類(lèi)從現(xiàn)實(shí)世界中獲得的任何信息和知識(shí),都需要被“清理”和“格式”成數(shù)據(jù)。除上述數(shù)據(jù)質(zhì)量外,數(shù)據(jù)生成過(guò)程也非常重要。簡(jiǎn)單地說(shuō),人們要探索哪些問(wèn)題?這一問(wèn)題被翻譯成什么樣的數(shù)據(jù)?這一信息是如何制作的,是否全面、公正地代表著知識(shí)生產(chǎn)者想要探索的問(wèn)題?
這一問(wèn)題,對(duì)于“傳統(tǒng)”的知識(shí)生產(chǎn)者來(lái)說(shuō),也是一個(gè)問(wèn)題。就拿歷史學(xué)來(lái)說(shuō),雖然歷史研究的是過(guò)去的事,但是過(guò)去的事并不能100%蓋棺定論。學(xué)者們通常會(huì)不斷地尋找新的歷史資料,以補(bǔ)充對(duì)歷史問(wèn)題的認(rèn)識(shí),不斷地探索過(guò)去被忽視的視角和聲音。有趣的是,目前的歷史經(jīng)常向大量數(shù)據(jù)尋求幫助,尤其是過(guò)去的經(jīng)濟(jì)、人口和氣候數(shù)據(jù),甚至依靠機(jī)器學(xué)習(xí),給歷史帶來(lái)新的認(rèn)識(shí)和觀點(diǎn)。
同樣,依靠機(jī)器產(chǎn)生的理解和觀點(diǎn)也可能放大某些信息來(lái)源的重要性。如今,知識(shí)制造商過(guò)于依賴互聯(lián)網(wǎng)和電子信息的主流物品,并在其他被“翻譯”為數(shù)據(jù)的物品中進(jìn)行創(chuàng)建。AI時(shí)代,AI 提供的便利性和可擴(kuò)展性也會(huì)讓人們更容易忽視非主流、經(jīng)驗(yàn)性的知識(shí),而不會(huì)被數(shù)據(jù)化、電子化,從而錯(cuò)過(guò)產(chǎn)生新觀點(diǎn)、新視角的概率。
在更深層次上,新知識(shí)通常發(fā)生在新材料的挖掘、不同觀點(diǎn)和視角之間的碰撞以及當(dāng)前知識(shí)的再解構(gòu)中。大語(yǔ)言模型給知識(shí)的呈現(xiàn)帶來(lái)了很多概率,但邏輯和結(jié)構(gòu)可能與這種生產(chǎn)方式相悖。
基于大語(yǔ)言模型的訓(xùn)練方法和模型生成的輸出特征,排名靠前、概率更高的導(dǎo)出內(nèi)容,權(quán)重會(huì)變大,特征會(huì)變得更加單一。。“AI產(chǎn)生的”幾乎成了一個(gè)修飾詞,用來(lái)描述那些沒(méi)有特色的、重復(fù)的、像沒(méi)有說(shuō)過(guò)的話。誠(chéng)然,對(duì)于知識(shí)消費(fèi)者來(lái)說(shuō),“最有可能”的答案大大降低了理解的門(mén)檻;但是對(duì)于知識(shí)生產(chǎn)者來(lái)說(shuō),這些東西可能會(huì)成為障礙。
04 新時(shí)代的知識(shí)生產(chǎn)者應(yīng)該去哪里?
可能很多像我這樣的社會(huì)科學(xué)研究者在使用ChatGPT的時(shí)候都遇到過(guò)這個(gè)問(wèn)題:問(wèn)它解釋一個(gè)概念,說(shuō)得清清楚楚;然而,當(dāng)被問(wèn)及來(lái)源時(shí),它是“一本正經(jīng)的廢話”,例如,列出一本作者從未寫(xiě)過(guò)的書(shū)和一篇從未發(fā)表過(guò)的論文。領(lǐng)域越小越專業(yè),“廢話”的概率越大。
退回到 AI 原則上,這種“創(chuàng)造”實(shí)際上是在海量的信息中探索“可能”的詞語(yǔ)之間的聯(lián)系,但這些聯(lián)系在現(xiàn)實(shí)中并不存在。說(shuō)白了,只是“聽(tīng)起來(lái)很像”。這一新現(xiàn)象,在當(dāng)今被稱為“幻視”(hallucination)。對(duì)于知識(shí)生產(chǎn)者來(lái)說(shuō),如何利用人工智能挖掘當(dāng)前知識(shí)庫(kù)中的方式和聯(lián)系,也是一項(xiàng)非常重要的技能,可以提高對(duì)機(jī)器“幻覺(jué)”的警惕。
與AI的“對(duì)話”也將成為一項(xiàng)新技能。對(duì)于大多數(shù)非技術(shù)人員(甚至技術(shù)人員)來(lái)說(shuō),目前的AI仍然是一個(gè)神秘的“黑箱”。如何從技術(shù)底層或中層入手,更有效地與機(jī)器對(duì)話,理解和抵抗“幻覺(jué)”,需要知識(shí)生產(chǎn)者與技術(shù)從業(yè)者的合作。。
而且對(duì)新知識(shí)、新視角、新材料的研究,各領(lǐng)域獨(dú)特的結(jié)構(gòu)和詮釋,在當(dāng)今仍是非常重要的。大型語(yǔ)言模型和生成式AI的預(yù)測(cè)方法,仍然傾向于單一、重復(fù),訓(xùn)練材料越少,能力越有限。如果你想整合機(jī)器和人的能力,你必須從數(shù)據(jù)生產(chǎn)的根源入手,用準(zhǔn)確、多樣、公平、新穎的數(shù)據(jù)訓(xùn)練AI模型,建立良性的人機(jī)互動(dòng)模式。
大語(yǔ)言模型和生成式AI的出現(xiàn)給研究人員帶來(lái)的挑戰(zhàn)只是開(kāi)始。與其討論“替代”,不如在更謹(jǐn)慎的眼光下尋找磨合和發(fā)展的可能性。
本文來(lái)自微信微信官方賬號(hào)“騰訊研究院”(ID:cyberlawrc),作者:李子,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com