AI問診:真的能成為救命稻草嗎?
如今,AI的應(yīng)用場景愈發(fā)廣泛,無聊時(shí)用它聊聊天,改寫文章風(fēng)格時(shí)借助它偷個(gè)懶,需要配圖時(shí)讓它畫一幅……不過,如果說AI能救命,你會(huì)作何反應(yīng)呢?
8月2日,微博CEO @來去之間發(fā)微博稱,昨天睡前突然感到強(qiáng)烈的頭暈?zāi)垦?,甚至?xí)灥阶卟粍?dòng)道、“站不起來”。家人幫他量血壓,發(fā)現(xiàn)高壓還不到90,屬于低血壓。
低血壓的情況可輕可重,嚴(yán)重時(shí)會(huì)陷入休克,甚至引發(fā)腦梗和心梗,危及生命。但這位微博CEO藝高人膽大,沒有第一時(shí)間打車去醫(yī)院,而是選擇先問AI。
他把癥狀夸大后,又將晚上吃喝的東西都發(fā)給AI,最終得到的“診斷結(jié)果”是,因喝了隔夜的VC泡騰水,患上了「反射性低血壓」。
在AI的建議下,他喝了點(diǎn)可樂、蒙脫石散和補(bǔ)液鹽,一小時(shí)后癥狀真的好了。

此事一出,刷新了很多人對(duì)AI的認(rèn)知,原來AI除了用于娛樂和偷懶,還能用于“問診”。然而,從網(wǎng)友的反應(yīng)來看,多數(shù)人并不買賬。在來去之間的評(píng)論區(qū),不少人批評(píng)這個(gè)例子會(huì)誤導(dǎo)網(wǎng)友在緊急時(shí)刻不找醫(yī)生而找AI,從而耽誤最佳治療時(shí)間。還有網(wǎng)友認(rèn)為,來去之間的這種行為是對(duì)生命健康的兒戲。
網(wǎng)友的質(zhì)疑可以理解。要是一個(gè)月前的我,肯定也會(huì)和大多數(shù)網(wǎng)友一樣,指責(zé)來去之間“不知死活”。但兩周前,我女朋友用AI解決了困擾她二十多年的疑難雜癥,再加上來去之間的這個(gè)案例,讓我更加相信“AI問診”可能遠(yuǎn)比大家想象的靠譜。
賽博神醫(yī)
隨著年齡增長,很多人或多或少都有一些多年未愈、雖不致命但難以根治的病癥。
比如我女朋友,從七歲起就有一個(gè)怪病。發(fā)病時(shí),她會(huì)先出現(xiàn)強(qiáng)烈的眼花、目眩,就像套上了萬花筒,半小時(shí)后開始頭暈,一暈就是四五個(gè)小時(shí)。
發(fā)病時(shí),她視線模糊,什么都看不見,頭暈后只能躺在床上休息,二十多年來一直如此。雖然不危及生命,但對(duì)日常生活和工作影響很大。
更讓人煩惱的是,二十多年里,她看了無數(shù)三甲醫(yī)院、診所,嘗試了各種偏方。醫(yī)生的診斷五花八門,有說是急性腸胃炎的,有說是耳源性眩暈的,看中醫(yī)又說是肩頸部供血不足……但始終沒有一個(gè)醫(yī)生、一種藥能解決問題,甚至緩解癥狀。
束手無策之際,我們抱著死馬當(dāng)活馬醫(yī)的心態(tài),詢問了ChatGPT 4o。沒想到,一試之下,結(jié)果令人驚訝。我們輸入女朋友的過往疾病史、生活史、過往診斷、用藥及效果后,ChatGPT給出了一個(gè)完全意料之外的診斷結(jié)果:前驅(qū)性偏頭痛。

對(duì)于這個(gè)診斷結(jié)果,它解釋道:“視覺異常+隨后頭暈惡心嘔吐+睡眠緩解+發(fā)作性+月經(jīng)周期相關(guān)的癥狀,高度符合偏頭痛伴先兆(Migraine with aura)的臨床表現(xiàn)。”
而且,ChatGPT似乎猜到我們會(huì)對(duì)“偏頭痛”這個(gè)結(jié)果感到意外,還特地解釋說:“許多偏頭痛患者并不以‘頭痛’為主,而可能以眩暈為主癥狀”,同時(shí)說明了之前醫(yī)生誤判的可能因素。

ChatGPT整理出答案后,還會(huì)推薦掛號(hào)的醫(yī)院科室,強(qiáng)調(diào)要找眩暈相關(guān)的醫(yī)生。最后,它還主動(dòng)詢問我們是否需要準(zhǔn)備病情的自述提綱,或者生成病癥判斷的邏輯文檔。

可以看出,ChatGPT的整個(gè)診斷流程分析有理有據(jù)、引經(jīng)據(jù)典,回答情商也很高。它不僅安慰患者、為過去的醫(yī)生找補(bǔ),還積極引導(dǎo)我們?yōu)榭床∽龊脺?zhǔn)備。
為驗(yàn)證這個(gè)診斷結(jié)果,我們用同樣的提示詞問了谷歌Gemini 2.5 Pro。Gemini給出了類似的答案,雖然它稱之為“前庭性偏頭痛(Vestibular Migraine)”,但結(jié)合后續(xù)對(duì)癥狀、病史的分析,說的其實(shí)是同一個(gè)病。
基本可以確定,這個(gè)怪病就是“偏頭痛”。

體驗(yàn)這兩款A(yù)I工具時(shí),我們發(fā)現(xiàn)Gemini的回答更加簡潔高效,文本排版更有重點(diǎn)、更舒服,只查詢病癥的話,用Gemini更方便。但如果想深入了解具體情況,ChatGPT的擬人化程度更高,交互更友好。相比Gemini回答結(jié)尾的“打雞血”,好像答完就下班了,GPT的循循善誘,甚至主動(dòng)提議幫我們準(zhǔn)備能用得上的材料,更加溫暖貼心。

為驗(yàn)證兩個(gè)AI的診斷結(jié)果,我們拿著GPT生成的看病材料,到廣州某三甲醫(yī)院的神經(jīng)內(nèi)科,根據(jù)它的推薦找了眩暈相關(guān)的醫(yī)生。
令人意外的是,門診醫(yī)生對(duì)GPT的診斷和它制作的就診信息匯總表高度肯定,稱GPT的診斷結(jié)果基本準(zhǔn)確。不過,因?yàn)榕笥寻Y狀發(fā)作時(shí)從未出現(xiàn)明顯頭痛,醫(yī)生認(rèn)為這是罕見病,也容易誤診。
最終醫(yī)生給出的診斷是“基底型偏頭痛”,這是偏頭痛病癥的一種細(xì)分類型。

更神奇的是,針對(duì)這個(gè)罕見病,醫(yī)生給女朋友開了一種還在臨床試驗(yàn)的特效藥,而且真的有效。后來女朋友發(fā)病時(shí),吃了特效藥,原本需要幾個(gè)小時(shí)才能緩解的眼花、頭暈,不到半個(gè)小時(shí)就大幅緩解,不影響正常生活和工作了。

所以,這次親身經(jīng)歷中,前期的AI輔助診斷和后期醫(yī)生的對(duì)癥下藥,都對(duì)找到罕見病的治療方法起到了巨大作用。
我們不禁會(huì)想:如果早幾年就能用上現(xiàn)在這個(gè)版本的ChatGPT 4o,是不是能更早擺脫這個(gè)罕見病帶來的痛苦?
而且,GPT在AI問診過程中,還能幫助我們梳理發(fā)病經(jīng)過、組織描述病歷的語言大綱。當(dāng)我們不確定如何描述癥狀時(shí),AI能引導(dǎo)我們準(zhǔn)確描述,甚至幫我們自動(dòng)生成類似自測(cè)量表的文書工具。其靠譜程度,比“百度搜病癥”強(qiáng)多了。
另外,經(jīng)此事件后我查閱資料發(fā)現(xiàn),原來AI在醫(yī)療領(lǐng)域回答的靠譜程度遠(yuǎn)高于其他領(lǐng)域。
“神醫(yī)”的底氣
一向愛胡編亂造的AI,為何在問診時(shí)突然靠譜了呢?
從宏觀層面看,醫(yī)療信息高度結(jié)構(gòu)化、知識(shí)密度大且更新速度快,這恰好是大模型擅長處理的內(nèi)容。
響應(yīng)迅速的大模型可以7x24小時(shí)處理大規(guī)模醫(yī)學(xué)知識(shí)、精準(zhǔn)匹配用戶問題,還能通過數(shù)據(jù)訓(xùn)練不斷學(xué)習(xí)和更新,在咨詢、問診過程中輔助醫(yī)生決策與診斷。
所以,能力越強(qiáng)的大模型,越適合回答醫(yī)療相關(guān)問題。除了ChatGPT 4o和谷歌Gemini 2.5 Pro,國內(nèi)一些出色的大模型在醫(yī)療領(lǐng)域表現(xiàn)也不錯(cuò)。
今年6月,斯坦福大學(xué)發(fā)布的臨床醫(yī)療AI模型評(píng)測(cè)顯示,DeepSeek R1以66%的勝率和0.75的宏觀平均分,在九個(gè)前沿大模型中脫穎而出,成為全球冠軍。
此外,阿里旗下的AI產(chǎn)品也高調(diào)進(jìn)軍醫(yī)療市場。夸克宣布將健康大模型集成在AI搜索框中,同門的“螞蟻AQ”則是專注C端健康管家的軟件。
但強(qiáng)大的模型能力只是基礎(chǔ)。對(duì)于醫(yī)療領(lǐng)域的回答,訓(xùn)練數(shù)據(jù)的準(zhǔn)確可靠遠(yuǎn)比其他領(lǐng)域重要。所以,必須使用高質(zhì)量、結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練。
ChatGPT稱其微調(diào)數(shù)據(jù)來自臨床指南、UpToDate、PubMed的數(shù)據(jù),還會(huì)過濾非結(jié)構(gòu)化網(wǎng)絡(luò)信息,避免患者論壇的誤導(dǎo)性內(nèi)容,保證醫(yī)療回答信息可靠、專業(yè)。
Gemini的數(shù)據(jù)依托Google Health的真實(shí)病例與結(jié)構(gòu)化EHR(電子健康檔案)數(shù)據(jù),并有醫(yī)生團(tuán)隊(duì)篩選訓(xùn)練語料,防止AI胡編亂造。
無論哪家大模型,醫(yī)療相關(guān)的數(shù)據(jù)來源都要經(jīng)過層層篩選,不是隨便從網(wǎng)上找來的數(shù)據(jù)就能用于訓(xùn)練的。
有了高質(zhì)量數(shù)據(jù)后,還會(huì)用到訓(xùn)練大模型過程中的“知識(shí)增強(qiáng)”(Retrieval-Augmented Generation, RAG)。在模型生成回答前,先進(jìn)行知識(shí)檢索,再由模型生成答案,確保輸出內(nèi)容與權(quán)威資料一致。
不同模型的具體做法可能不同,比如ChatGPT在聯(lián)網(wǎng)模式中,借助Bing +醫(yī)學(xué)數(shù)據(jù)庫內(nèi)容實(shí)時(shí)增強(qiáng);Gemini會(huì)動(dòng)態(tài)連接Google Search醫(yī)療知識(shí)面板,引用臨床試驗(yàn)、指南等摘要內(nèi)容。
除此之外,大模型還會(huì)內(nèi)置“醫(yī)療事實(shí)校驗(yàn)?zāi)K”(Fact Consistency Checker),在回答生成后,反向判斷輸出是否與數(shù)據(jù)庫一致。
例如,抽取模型回答中的關(guān)鍵實(shí)體(如疾病名、藥品名),檢查是否存在于知識(shí)庫中;對(duì)輸出進(jìn)行“自動(dòng)三段論”邏輯審查,檢查“疾病類型→感染類型→藥物適應(yīng)癥”三者之間是否合理配套。
這一步能顯著減少因錯(cuò)誤推理鏈導(dǎo)致的醫(yī)學(xué)性幻覺,無論是通用大模型(如ChatGPT、Gemini、Anthropic Claude),還是醫(yī)療垂直大模型(如夸克醫(yī)療大模型、訊飛星火醫(yī)療大模型和平安醫(yī)療認(rèn)知大模型),都已標(biāo)配。
最后,部分大模型輸出的結(jié)果,還會(huì)通過專業(yè)醫(yī)生反饋標(biāo)注,多輪標(biāo)注后用于強(qiáng)化學(xué)習(xí),并設(shè)計(jì)完善的準(zhǔn)確性獎(jiǎng)勵(lì)機(jī)制等。
簡而言之,AI醫(yī)療問答場景下的回答,要經(jīng)過一系列“防幻覺系統(tǒng)工程”的處理,比傳統(tǒng)問答流程更復(fù)雜、嚴(yán)謹(jǐn)和專業(yè),所以醫(yī)療場景下的AI回答更可信。
“吃錯(cuò)藥會(huì)死人”的道理大家都懂,在醫(yī)療這種嚴(yán)肅領(lǐng)域,AI大模型廠商更怕出事?lián)?zé)。
黎明前夜
財(cái)經(jīng)故事薈的數(shù)據(jù)顯示,在美國頂級(jí)醫(yī)療機(jī)構(gòu)中,高達(dá)87%的科室已實(shí)現(xiàn)AI工具的常態(tài)化使用(每周>50次),放射科、病理科的采納率更是達(dá)到95%。
美國、英國、法國、瑞士等國家也在試點(diǎn)將AI工具引入醫(yī)生的日常工作流,為患者解答問題、分析醫(yī)學(xué)影像和自動(dòng)生成臨床文書等,為探索AI工具在臨床醫(yī)學(xué)流程中的實(shí)際運(yùn)用提供了寶貴數(shù)據(jù)。
AI醫(yī)療是一個(gè)很有想象力的領(lǐng)域??床‰y、醫(yī)療資源不均衡是全球性問題,而AI的出現(xiàn),對(duì)普通人來說,意味著多了一本隨身攜帶的專業(yè)醫(yī)療知識(shí)寶典;對(duì)醫(yī)生來說,是一個(gè)強(qiáng)大的減負(fù)工具。
雖然現(xiàn)在沒人能保證AI問診結(jié)果百分百準(zhǔn)確,但不妨試試用ChatGPT、Gemini等工具總結(jié)病情發(fā)展經(jīng)過、描述癥狀和病情,并將信息整理到表格里,這至少能提高看病時(shí)與醫(yī)生溝通的效率,還不用擔(dān)心遺漏重要信息。
這可比用AI算命有價(jià)值多了。
本文來自微信公眾號(hào)“藍(lán)字計(jì)劃”,作者:Hayward,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





