江曉原:“數(shù)據(jù)挖掘”的雙面性:是天使還是魔鬼?
比特幣收益與制造業(yè)、金屬采礦業(yè)股票收益呈負(fù)相關(guān)……
特朗普在推特中使用"with"一詞四天后,中國(guó)茶葉分銷(xiāo)商Urban Tea股價(jià)下跌……
特朗普推特中"president"的使用與兩天后標(biāo)準(zhǔn)普爾500指數(shù)存在0.43的相關(guān)性……
這些新發(fā)現(xiàn)的"規(guī)律"是否讓你感到震撼與意外?顯然,此類(lèi)發(fā)現(xiàn)離不開(kāi)"大數(shù)據(jù)"與"AI算法",尤其是近年備受關(guān)注的"數(shù)據(jù)挖掘"方法。

《不被信任的科學(xué)——大數(shù)據(jù)、人工智能與信息欺騙》,[美]加里·史密斯 著,孫強(qiáng) 譯,上??萍冀逃霭嫔?025年出版
經(jīng)濟(jì)學(xué)家視角下的"數(shù)據(jù)挖掘"
"數(shù)據(jù)挖掘"常被稱(chēng)作"機(jī)器學(xué)習(xí)"或"知識(shí)發(fā)現(xiàn)",這些中文譯名充滿高科技與創(chuàng)新感,無(wú)批判意味。通俗而言,它是借助AI算法在海量大數(shù)據(jù)中探尋各類(lèi)數(shù)據(jù)關(guān)系的過(guò)程。
美國(guó)經(jīng)濟(jì)學(xué)家、統(tǒng)計(jì)學(xué)家加里·史密斯(耶魯大學(xué)經(jīng)濟(jì)學(xué)博士,波莫納學(xué)院教授)在《不被信任的科學(xué)》中指出,"虛假信息""數(shù)據(jù)歪曲""數(shù)據(jù)挖掘"正嚴(yán)重?fù)p害科學(xué)信譽(yù),其中"數(shù)據(jù)挖掘"是他抨擊的重點(diǎn)。他將挖掘出的數(shù)據(jù)關(guān)系比作"愚人金"——看似黃金實(shí)則無(wú)價(jià)值的銅,認(rèn)為這些關(guān)系多無(wú)意義甚至具有欺騙性。但關(guān)鍵問(wèn)題在于:如何界定"荒謬"與"合理"的界限?
史密斯對(duì)"數(shù)據(jù)挖掘"的定義觸及核心:"在不受理論影響的數(shù)據(jù)中尋找潛在模式,研究人員深入挖掘卻無(wú)法預(yù)知結(jié)果。"他對(duì)比傳統(tǒng)數(shù)據(jù)處理:"傳統(tǒng)查詢需假設(shè)引導(dǎo),而大數(shù)據(jù)挖掘能揭示未知關(guān)系。"他引用《連線》文章"大數(shù)據(jù)與理論家的消亡"稱(chēng):"算法找模式,假設(shè)從數(shù)據(jù)來(lái),分析師無(wú)需再提假設(shè)。"
簡(jiǎn)言之,史密斯認(rèn)為傳統(tǒng)數(shù)據(jù)處理有理論指導(dǎo)與預(yù)期,而"數(shù)據(jù)挖掘"是無(wú)方向的"亂挖",其發(fā)現(xiàn)多為無(wú)意義的"胡說(shuō)八道"。
從傳統(tǒng)數(shù)據(jù)處理到"數(shù)據(jù)挖掘"的演變
作為天體物理專(zhuān)業(yè)出身、曾在上海天文臺(tái)工作15年的學(xué)者,我認(rèn)為"數(shù)據(jù)挖掘"并非如史密斯所言非黑即白,它與傳統(tǒng)數(shù)據(jù)處理無(wú)絕對(duì)界限,常是正??蒲惺侄巍R蕴煳膶W(xué)"星歷表"為例,其記錄太陽(yáng)系天體坐標(biāo),可視為"大數(shù)據(jù)"。通過(guò)算法"挖掘",既能獲取牧野之戰(zhàn)時(shí)木星位置等有意義結(jié)果,也可能發(fā)現(xiàn)無(wú)關(guān)聯(lián)關(guān)系——關(guān)鍵在于是否有理論支撐與合理預(yù)期。
數(shù)據(jù)處理技術(shù)早于互聯(lián)網(wǎng)與AI存在。史密斯批判的實(shí)則是"數(shù)據(jù)挖掘"的濫用。20世紀(jì)80年代,星歷表以紙質(zhì)形式存在,人工挖掘難以濫用;90年代數(shù)字光盤(pán)普及后,算法挖掘成為可能,但科研人員仍堅(jiān)守嚴(yán)謹(jǐn)性??梢?jiàn)技術(shù)本身中性,濫用源于使用者。
科學(xué)信任危機(jī)的荒誕圖景
《不被信任的科學(xué)》書(shū)名易讓人聯(lián)想到科學(xué)知識(shí)社會(huì)學(xué)著作,實(shí)則不然。史密斯雖未從哲學(xué)角度探討,但對(duì)大數(shù)據(jù)與AI弊端的批判具有啟發(fā)意義。
書(shū)中第一部分討論"虛假信息":以區(qū)塊鏈與比特幣為例,許多人因區(qū)塊鏈的"科學(xué)性"盲目相信比特幣價(jià)值,而史密斯認(rèn)為比特幣內(nèi)在價(jià)值為零,堪比郁金香泡沫與南海騙局(此為作者觀點(diǎn),不代表本文立場(chǎng))。
第二部分揭露"數(shù)據(jù)歪曲":通過(guò)錯(cuò)誤解讀數(shù)據(jù)制造"科學(xué)假象"。史密斯仍以比特幣為例,指出數(shù)據(jù)被歪曲以支撐其價(jià)值論,批判邏輯具有學(xué)理合理性。
最后兩部分,史密斯批判人工智能進(jìn)展與部分社會(huì)學(xué)研究。他認(rèn)為AI業(yè)界夸大成果,還列舉如"女性求助時(shí)發(fā)型影響成功率"等他眼中的"荒誕研究"(該例未必真荒誕)。
史密斯以樸素視角指出:科技新成果(互聯(lián)網(wǎng)、大數(shù)據(jù)、AI)正損害科學(xué)聲譽(yù),公眾對(duì)科學(xué)的信任度下降。"科學(xué)家創(chuàng)造了大數(shù)據(jù)與分析工具,卻為自己制造了更多尷尬與信譽(yù)危機(jī)。"這一現(xiàn)象值得深思:技術(shù)本應(yīng)推動(dòng)科學(xué)進(jìn)步,為何反而引發(fā)信任危機(jī)?答案或許在于:當(dāng)工具被濫用,當(dāng)無(wú)理論支撐的"數(shù)據(jù)挖掘"取代嚴(yán)謹(jǐn)科研,科學(xué)便可能淪為"數(shù)字游戲"。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




