麻省理工研究:患者更信AI醫(yī)療建議,醫(yī)生也難辨AI與人類回復(fù)
美國正面臨醫(yī)生短缺危機(jī)。在權(quán)威期刊《新英格蘭醫(yī)學(xué)雜志》10月刊中,哈佛醫(yī)學(xué)院教授Isaac Kohane提到,馬薩諸塞州是美國人均醫(yī)生數(shù)量最多的州,但該州多家大型醫(yī)院已拒絕接收新患者。
Kohane表示,數(shù)據(jù)顯示這一情況只會愈發(fā)嚴(yán)峻。因此,“無論是出于絕望、失望還是好奇,已有大量患者開始使用AI獲取醫(yī)療建議,包括二次診斷意見,有時甚至帶來了顯著的治療效果。”
對于人們愈發(fā)傾向于通過ChatGPT等生成式AI系統(tǒng)尋求醫(yī)療建議的趨勢,醫(yī)療界既感興趣,又略帶擔(dān)憂。
他們的擔(dān)憂不無道理,因?yàn)槿藗兯坪醺鼉A向于相信機(jī)器人給出的醫(yī)療建議,而非醫(yī)生,哪怕機(jī)器人給出的建議“質(zhì)量不高”。
01. 測試人們對AI生成醫(yī)療建議的看法
6月,《新英格蘭醫(yī)學(xué)雜志》發(fā)表了一項(xiàng)題為《即便準(zhǔn)確性低,人們?nèi)赃^度信任AI生成的醫(yī)療建議》的研究。麻省理工學(xué)院媒體實(shí)驗(yàn)室、斯坦福大學(xué)、康奈爾大學(xué)、波士頓貝斯以色列女執(zhí)事醫(yī)療中心及IBM的研究人員Shruthi Shekar與團(tuán)隊(duì),通過OpenAI早期的GPT - 3模型,測試了人們對AI醫(yī)療建議的反應(yīng)。
Shekar團(tuán)隊(duì)從健康網(wǎng)站HealthTap提取了150個醫(yī)療問題,并用GPT - 3生成答案。研究人員招募了一組醫(yī)生為AI答案的準(zhǔn)確性打分,對每個答案標(biāo)注“正確”、“錯誤”或“不確定”。
隨后,團(tuán)隊(duì)整理出三組數(shù)據(jù)集,每組包含30個問答對:第一組是醫(yī)生的實(shí)際回復(fù),第二組是“高準(zhǔn)確性AI回復(fù)”(即醫(yī)生大多判定為正確),第三組是“低準(zhǔn)確性AI回復(fù)”(即醫(yī)生大多判定為“錯誤”或“不確定”)。
研究團(tuán)隊(duì)開展了三項(xiàng)實(shí)驗(yàn):
在實(shí)驗(yàn)一中,研究人員從Prolific網(wǎng)站在線招募100名受試者,向其隨機(jī)展示90組問答對中的10組,不告知來源是醫(yī)生還是AI。研究人員要求受試者以1 - 5分制評估自己對問答對的理解程度,并判斷該內(nèi)容來源是人類還是AI的確定性。
在實(shí)驗(yàn)二中,另一組100名受試者需評估答案是否“有效”,并通過選擇題回答自己是否愿意遵循給出的醫(yī)療建議,但該組同樣未被告知內(nèi)容來源是醫(yī)生還是AI。
內(nèi)容的來源標(biāo)簽是隨機(jī)分配的,這意味著受試者可能會將AI撰寫的內(nèi)容誤認(rèn)為是醫(yī)生所寫,或認(rèn)為是醫(yī)生借助AI完成的。
02. 人們分辨不出是AI給出的建議
研究人員隨后分析了受試者在每項(xiàng)實(shí)驗(yàn)中的表現(xiàn)。
在實(shí)驗(yàn)一中,受試者在猜測問答對是來自人類還是人工智能時表現(xiàn)不佳,實(shí)際上他們的猜測準(zhǔn)確率與隨機(jī)猜測相差無幾。
當(dāng)被要求判斷醫(yī)療回復(fù)的來源(醫(yī)生撰寫或AI生成)時,受試者對“醫(yī)生回復(fù)”的來源判斷準(zhǔn)確率平均為50%,對“高準(zhǔn)確性AI回復(fù)”的判斷準(zhǔn)確率為53%,對“低準(zhǔn)確性AI回復(fù)”的判斷準(zhǔn)確率為50%。
即使答錯了,人們也非常自信。Shekar團(tuán)隊(duì)指出,盡管受試者判斷表現(xiàn)不佳,但他們對自己“區(qū)分AI與人類回復(fù)”的準(zhǔn)確性深信不疑?!笆茉囌吲袛嗾_與錯誤時的自信程度,并無顯著差異?!?/p>
在實(shí)驗(yàn)二中,受試者認(rèn)為“AI生成的回復(fù)比醫(yī)生回復(fù)更有效”,甚至“低準(zhǔn)確性AI回復(fù)”與“醫(yī)生回復(fù)”的表現(xiàn)也非常接近。
需注意的是,這些“低準(zhǔn)確性AI回復(fù)”是醫(yī)生判定為“錯誤”或至少“可能不準(zhǔn)確”的內(nèi)容。
可信度方面也呈現(xiàn)類似趨勢:受試者認(rèn)為“AI回復(fù)的可信度顯著高于醫(yī)生回復(fù)”,且“對三類回復(fù)(即高準(zhǔn)確性AI、醫(yī)生、低準(zhǔn)確性AI)的遵循意愿相對一致”。
03. 人們會被引導(dǎo)相信AI就是醫(yī)生
在實(shí)驗(yàn)三中,研究人員隨機(jī)標(biāo)注內(nèi)容來源(AI、醫(yī)生、醫(yī)生借助AI),結(jié)果顯示“醫(yī)生”標(biāo)簽對受試者影響極大。“當(dāng)標(biāo)注為‘此醫(yī)療問題回復(fù)由醫(yī)生提供’時,與回答標(biāo)注為來自AI的情況相比,受試者傾向于認(rèn)為高準(zhǔn)確性AI生成的回答明顯更可信。”
事實(shí)證明,就連醫(yī)生也可能被誤導(dǎo)。在后續(xù)測試中,Shekar團(tuán)隊(duì)讓醫(yī)生評估問答對,部分告知來源,部分不告知。
若告知來源,醫(yī)生會“認(rèn)為AI生成回復(fù)的準(zhǔn)確性顯著更低”;若不告知來源,“他們對準(zhǔn)確性的評估則無顯著差異”。研究人員稱,這表明醫(yī)生自身也存在偏見。
綜上,在醫(yī)療建議領(lǐng)域,普通人甚至醫(yī)生都無法區(qū)分內(nèi)容來自AI還是人類。且總體而言,普通人對AI回復(fù)的信任度高于醫(yī)生,即便AI回復(fù)質(zhì)量不高甚至有誤也是如此。更值得注意的是,若引導(dǎo)他們相信回復(fù)來自醫(yī)生,這種信任度還會進(jìn)一步提升。
04. 信任AI建議的風(fēng)險
Shekar及其團(tuán)隊(duì)對此深感擔(dān)憂:“無論準(zhǔn)確性如何,受試者均無法區(qū)分AI生成回復(fù)與醫(yī)生回復(fù)的質(zhì)量;同時,他們對‘低準(zhǔn)確性AI回復(fù)’的評價極高,認(rèn)為其與醫(yī)生回答相比不相上下,甚至更勝一籌。這構(gòu)成了令人擔(dān)憂的威脅……在這種危險場景下,不準(zhǔn)確的AI醫(yī)療建議可能被視為與醫(yī)生建議同樣可信。當(dāng)不知道回復(fù)來源時,受試者愿意信任、認(rèn)可AI生成的建議,甚至依據(jù)其采取行動,就像對待醫(yī)生建議一樣,即便AI回復(fù)中包含不準(zhǔn)確信息?!?/p>
Shekar團(tuán)隊(duì)總結(jié)稱,“專家監(jiān)督至關(guān)重要,既要最大化AI的獨(dú)特能力,也要最小化風(fēng)險”,這包括明確告知建議的來源。研究結(jié)果還表明,將AI整合到醫(yī)療信息傳遞中,需要比此前設(shè)想的更細(xì)致的方法。
然而,結(jié)論變得更為復(fù)雜,因?yàn)榫哂兄S刺意味的是,在實(shí)驗(yàn)三中,若受試者認(rèn)為回復(fù)來自“借助AI的醫(yī)生”,他們的評價就不那么積極了。研究人員指出,這一事實(shí)讓“結(jié)合AI全面回復(fù)與醫(yī)生信任度”的理想解決方案變得更加復(fù)雜。
05. 探索AI對醫(yī)療的幫助
可以肯定的是,有證據(jù)表明,若由醫(yī)生使用,AI在診斷等任務(wù)中可發(fā)揮輔助作用。
去年12月,《自然?醫(yī)學(xué)》發(fā)表了一項(xiàng)由斯坦福大學(xué)生物醫(yī)學(xué)信息學(xué)研究中心及合作機(jī)構(gòu)開展的研究。該研究在模擬環(huán)境(非真實(shí)患者)中測試了醫(yī)生在使用GPT - 4或傳統(tǒng)醫(yī)生資源診斷病情時的表現(xiàn)。該研究對人工智能持非常積極的態(tài)度。
研究主要作者Ethan Goh及團(tuán)隊(duì)寫道:“使用大語言模型的醫(yī)生,其診斷得分顯著高于使用傳統(tǒng)資源的醫(yī)生?!?/p>
綜合所有研究來看,若人們傾向于信任AI,且AI已被證明在某些情況下能幫助醫(yī)生,那么醫(yī)療領(lǐng)域下一步需要應(yīng)對的,便是AI在實(shí)際應(yīng)用中究竟能帶來幫助還是危害。
正如哈佛教授Kohane在其評論文章中所言,最終關(guān)鍵在于醫(yī)療質(zhì)量,以及AI是否能提供幫助。
“對于AI,我們難道不應(yīng)該將患者使用這些程序所取得的健康結(jié)果與我們當(dāng)前基層醫(yī)生短缺的系統(tǒng)所取得的結(jié)果進(jìn)行比較嗎?”
原文來源于:
1.https://www.zdnet.com/article/patients-trust-ais-medical-advice-over-doctors-even-when-its-wrong-study-finds/
中文內(nèi)容由元宇宙之心(MetaverseHub)團(tuán)隊(duì)編譯。
本文來自微信公眾號“元宇宙之心MetaverseHub”,作者:元宇宙之心,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com