清華大學聶再清:科學研究需要大膽設(shè)想,不用刻意避免大模型幻覺
當前,圍繞大模型的" 短期炒作太多,長期關(guān)注不足 "。進入年中,伴隨著 ChatGPT 網(wǎng)站開始下滑的訪問量,OpenAI 創(chuàng)始人山姆 · 奧特曼給出前述警示。
整個上半年,在歷來不會錯過 AI 技術(shù)任何細小突破的醫(yī)療健康領(lǐng)域,瘋狂同樣止不住。據(jù) 36 氪不完全統(tǒng)計,國內(nèi)企業(yè)今年來發(fā)布的醫(yī)療健康類大模型已接近 20 個,全面覆蓋學術(shù)科研、醫(yī)學影像、醫(yī)療問診等場景。
短暫的狂歡過后,隨著盈利模式不清晰、概念驗證尚未落地、大模型問診效果不及真人醫(yī)生等經(jīng)營或技術(shù)層面的問題頻頻出現(xiàn),行業(yè)開始重新審視醫(yī)療大模型開發(fā)的必要性。
在給了所有人一個驚喜之后,大模型究竟是將走向顛覆,還是只迎來一個階段性高峰?藥物研發(fā)大模型和醫(yī)療大模型有什么大的不同嗎?
36 氪就這些話題與清華大學教授聶再清聊了聊。2020 年年底,摘下阿里達摩院 " 大牛 " 的頭銜后,聶再清加盟清華大學智能產(chǎn)業(yè)研究院(AIR),目前還擔任著由 AIR 孵化的科技企業(yè)水木分子首席科學家的職位。近日,他帶領(lǐng)的團隊剛剛開源一款參數(shù)達百億的可商用、多模態(tài)生物醫(yī)藥大模型 BioMedGPT-10B,現(xiàn)已在多個生物醫(yī)藥問答基準數(shù)據(jù)集上實現(xiàn) SOTA,在專業(yè)領(lǐng)域的問答能力比肩人類專家。
在聶再清看來,大模型最突出的特點在于實現(xiàn)了自然語言和生物編碼語言的對齊。生命現(xiàn)象本質(zhì)上也是 " 一種自然進化的語言編碼 ",通過將作為自然語言的人類知識與蛋白質(zhì)、氨基酸等數(shù)據(jù)放置到統(tǒng)一的大模型中進行編碼學習,有望讓大模型實現(xiàn)融會貫通的能力,進而推動生命科學相關(guān)的研究應(yīng)用。
以下為 36 氪與聶再清的對話:
大模型要解決 " 給誰用 " 的問題
36 氪:AI 大模型在醫(yī)療領(lǐng)域的使用場景很多,更常見的有醫(yī)學影像、醫(yī)療文本處理等。水木分子為什么選擇藥物開發(fā)這個方向?
聶再清:開發(fā)大模型首先要弄清楚 " 到底給誰用 " 的問題。在醫(yī)療健康領(lǐng)域,可應(yīng)用的場景包括醫(yī)學影像、藥物研發(fā)、醫(yī)療文本處理、學術(shù)科研等。
從實用性角度而言,我們認為醫(yī)生在接診時是否真的需要用到大模型仍有待檢驗,但大模型直接拿給科學家做 AI for Science 的使用場景是明確的,藥物開發(fā)是真正能把很多文章、數(shù)據(jù)去融會貫通,并產(chǎn)生比較好的結(jié)果的領(lǐng)域。一些醫(yī)療場景需要的可能是智能文本和影像這兩個數(shù)據(jù)模態(tài),但在制藥這件事上,數(shù)據(jù)代碼可能是小分子、大分子,或者一段氨基酸序列,蘊含大量生物功能在里邊,更具有挑戰(zhàn)性。
另一方面,處在訓練初始階段,我們還不能很好地操控大模型時,應(yīng)該選擇一個安全性更高的領(lǐng)域。藥物開發(fā)的試錯環(huán)節(jié)更多,如果一款藥有問題,臨床前、臨床試驗等管線開發(fā)的各個階段都可以隨時叫停,不像診療那樣直接面對患者,風險相對更小。給病人做診斷,10 個結(jié)果里有 1 個錯的后果可能就很嚴重;但藥物開發(fā)時,10 個分子里有 1 個能用,就是一件好事。
36 氪:開發(fā)生物醫(yī)藥大模型需要怎樣的團隊配置?
聶再清:開發(fā)大模型的門檻相對較高,團隊既要懂人工智能,還要懂藥,至少是融合了這兩個領(lǐng)域的團隊才能做,其實并不好招。水木分子在多模態(tài)生物醫(yī)藥大模型開發(fā)這件事上已經(jīng)做了兩年多了,團隊中已經(jīng)配備了醫(yī)學背景的科研人員,并聘請了專門做藥的顧問,但在生物醫(yī)藥方面也還是在不斷學習。
36 氪:利用大模型做藥物開發(fā)和傳統(tǒng)的 AI 制藥概念有什么區(qū)別?公司提到要做 ChatDD 引領(lǐng)下的 " 人機協(xié)作對話式藥物研發(fā) ",如何理解這一概念?
聶再清:傳統(tǒng)的藥物設(shè)計可分為 TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和 AIDD(AI Drug Design)三個階段。其中 TMDD 基于大量人工試驗和經(jīng)驗主義,利用手工合成、提取和篩選藥物,低通量、成本高,且缺乏系統(tǒng)性,雖然古老,但很多藥企還在沿用這一方法。
CADD 和 AIDD 概念其實相似,都是通過計算輔助藥物的研發(fā)和設(shè)計。這一過程中,AI 本身是理論計算的一環(huán),AIDD 確實可以做得很好,但無法自己做出一款藥。因為 AI 賦能的過程中需要大量人工和 AI 模型的互動,但行業(yè)尚未開發(fā)出一個系統(tǒng)或工具實現(xiàn)科研人員和算法的緊密互動。
基于此,我們提出藥物設(shè)計應(yīng)該進入一種名為 ChatDD 的新階段。相較過去,它多了自然語言和生物編碼語言對齊的環(huán)節(jié)。相當于通過一個大模型把所有外部的知識、數(shù)據(jù)和工具全部整合,再把科研人員的問題通過提示詞傳輸?shù)酱竽P椭?,形成交互?strong>將人的知識和直覺與數(shù)據(jù)、工具融會貫通,進而提高藥物研發(fā)效率,甚至產(chǎn)生一些過去時意想不到的效果。
36 氪:現(xiàn)在有沒有具體的證明大模型提高藥物研發(fā)效率的案例,比如節(jié)省多少開發(fā)時間?
聶再清:我們現(xiàn)在還更多的在干實驗上驗證了效率的提升,和藥企的濕實驗驗證還在進行中。這件事的重點在于,如果有了對蛋白、分子的更好的理解,科研人員在和大模型對話時,就能把語義帶進去,做很多操作。
比如在做分子設(shè)計時,我們輸入一個靶點,然后就能基于靶點的信息和模型進行對話,生成一個小分子藥;或者要開發(fā)針對某個疾病的小分子藥物時,找到最有可能成為成藥的小分子大模型就會自動調(diào)用 DTI 算法進行藥物靶點親和力預(yù)測。過去研發(fā)人員自己手動用算法操作這些步驟,現(xiàn)在通過對話就能實現(xiàn)。
不要怕大模型 " 胡說八道 "
36 氪:一般而言,基于語言的生成式模型,它能生成的都是模型已經(jīng)知道的規(guī)則,而藥物設(shè)計其實是一個不斷試錯的過程,很多時候逃脫不了人的認知。大模型本身到底能否做研究性的內(nèi)容?
聶再清:其實蛋白或小分子、疾病之間都是相互連接的知識,我們把這些稱作知識圖譜,并應(yīng)用在模型訓練的工作上。正是因為有這些聯(lián)系的存在,我們能將更多的信息融合在一起,啟發(fā)大模型去思考,比如用在優(yōu)化分子上。從這個角度來講,大模型是可以生成新的內(nèi)容的,并不只是已有知識的重復(fù)。
同理,在難成藥靶點的開發(fā)上,某一個靶點可能尚未被開發(fā),但有沒有和這個靶點相似的靶點?這個靶點屬于那個疾???如果有這樣的聯(lián)系,大模型就可以據(jù)此去做聯(lián)想,這是它優(yōu)于人工的地方。
36 氪:有觀點認為,醫(yī)藥研發(fā)不一定非要做通用大模型,而是各個環(huán)節(jié)上能有特定的、加速小模型就可以。您是如何看待這個問題的?
聶再清:小模型或針對單獨模態(tài)的模型 " 更多只是對一個生物編碼語言的理解 "。有一個小分子模型,理解的就是小分子的情況;做一個大分子模型,理解的就是大分子。但在實際的應(yīng)用中,由于人類現(xiàn)有知識中存在大量通過自然語言記錄的內(nèi)容,所以除了要把這些小分子、大分子的自身編碼模型做得越來越好之外,還需要將這些分子的自身編碼模型與之對齊。最終,小模型會成為大模型里的一個可隨時調(diào)用的工具,從而更好應(yīng)用于藥物研究,甚至臨床報告設(shè)計、患者招募等環(huán)節(jié)。通過和一些從業(yè)者的溝通,我們發(fā)現(xiàn)這部分需求也確實存在。
從數(shù)據(jù)質(zhì)量角度來講,目前已公開的各種結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),比如 PubMed、生物醫(yī)藥專利、以及海量的蛋白質(zhì)氨基酸序列和單細胞測序數(shù)據(jù)等,能夠提供的數(shù)據(jù)量就已經(jīng)足夠多,就像 ChatGPT 一樣,我們完全能夠基于公有數(shù)據(jù)訓練模型,能做的事情非常多。對于私有數(shù)據(jù),它的價值確實也很大,但也可以通過和相關(guān)企業(yè)開展合作的形式做私有化部署。
36 氪:如何避免大模型 " 一本正經(jīng)地胡說八道 "?
聶再清:我們并不刻意避免??蒲泄ぷ饔袝r候需要一定的幻覺,只是要把控這個程度,因為科研創(chuàng)新并不是完全把以前的知識重新重復(fù)出來,而是要產(chǎn)生新的內(nèi)容,所謂" 胡說八道 " 其實給創(chuàng)新提供了一定的可能性。
36 氪:評價大模型公司的維度、標準有哪些,大模型之后會不會陷入 " 內(nèi)卷 " 狀態(tài)?
聶再清:生物醫(yī)藥大模型企業(yè)尚處在早期階段,評價體系還沒有那么全面,但不會完全參考制藥公司的評價標準。歸根結(jié)底是要看你的大模型能否為客戶產(chǎn)生價值,比如是否真的提升效率、提高立項成功率等。
我認為通用大模型不會內(nèi)卷,因為隨著開源的通用大模型越來越多,你只有證明自己比開源的模型更好才有價值,不然為什么要做它?所以有些人可能做著做著就放棄了。未來,真正能跑出來的可能還是和各行業(yè)相結(jié)合的大模型,因為大模型的未來更多會成為行業(yè)的操作系統(tǒng),將各行業(yè)里的工具、數(shù)據(jù)、和自然語言文本整合起來。從這個角度來講,基于各行業(yè)開發(fā)的大模型有可能會再卷一卷。
36 氪:大模型企業(yè)的商業(yè)模式可以是怎樣的?
聶再清:生物醫(yī)藥大模型本身可以有 To B 和 To C 兩種用法,基本都可以走軟件付費、賣平臺的方式。比如 To B 向的模式,就是和合作客戶做私有化部署,至少在早期是這樣的。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com