讓大模型可控可信是個「偽命題」嗎?
通用大模型席卷半年,各行業(yè)對大模型的試水也步入正軌。在國內,僅過去兩月就有十余家金融、法律、教育等垂直領域企業(yè)宣布投身行業(yè)模型。
但在表面火熱背后,不難發(fā)現(xiàn)不少企業(yè)依舊對徹底擁抱大模型心存顧慮——在強調精準、可控、合規(guī)的 To B 領域,模型的交互式能力可能加劇數(shù)據(jù)泄露風險,過于豐沛的創(chuàng)造力會帶來 " 幻覺 " 過多的困擾??傊?strong>大模型本身令人驚嘆的 " 涌現(xiàn) ",反而在此時成為深入產業(yè)的阻礙。
針對這一現(xiàn)狀,36 氪在 WAIC 世界人工智能大會期間對話了清華大學副教授李琦、中國信通院華東分院人工智能與大數(shù)據(jù)事業(yè)部副主任常永波,以及螞蟻集團機器智能部副總經理、螞蟻安全天筭實驗室主任張?zhí)煲怼?/span>
模型的可控、精準、合規(guī)都與 AI 的安全密不可分。
張?zhí)煲砀嬖V 36 氪,AI 的安全問題并非新鮮事物,早前模型參數(shù)并未如此龐大時,關于模型的魯棒性、可解釋性、公平公正和隱私保護已經頗受關注——集合了這四個議題的框架在業(yè)內也被稱為 " 可信 AI"。常永波也補充,可信 AI 概念自 2017 年提出以來,業(yè)界在魯棒性、隱私保護等方面已經有了較多實踐。
但如今僅關注魯棒性、隱私保護顯然不夠。大模型的到來,給可信 AI ——尤其是其中的 " 可解釋性 " 提出新考驗。
常永波觀察到,過去看到的 AI 可解釋性實踐并不算多。但對企業(yè)來說,大模型的可解釋性是現(xiàn)在最亟待被解決的問題之一。
" 如果模型有較好的可解釋性,或許就能解決可控問題。因為我知道你的意圖和執(zhí)行過程,就可以有效地管理。" 李琦認為。反之," 如果一家企業(yè)今天希望用機器人給用戶推薦買什么基金,買什么股票,但發(fā)現(xiàn)機器人完全不可控,肯定最終還是不敢提供服務。" 張?zhí)煲砼e例。
而從解決方案看,問題比想象復雜。目前,業(yè)內提升可解釋性的方式包括提示詞工程、數(shù)據(jù)預處理、RLHF、疊加專家系統(tǒng),以及用大模型解釋大模型(如 OpenAI 用 GPT4 解釋 GPT2)等。但本質上,沒有人可以保證自己的方式徹底有效。
" 模型本身的復雜度超乎尋常。千億級的參數(shù)是如何協(xié)同的,甚至已經超過了人腦的理解能力。追求模型內部每個步驟的可解釋可能已經不是一個合理的訴求。" 張?zhí)煲硖寡浴?/span>
但同樣在這次交流中,我們發(fā)現(xiàn)即便進展不算迅速,但面對大模型的 " 黑盒 " 挑戰(zhàn),產學研三方已在分別推進應對之策。
李琦介紹,之前安全專家比較關心 AI 系統(tǒng)整體的安全問題,AI 專家則更偏向思考具體模型和算法的安全性。但現(xiàn)在,大模型的出現(xiàn)誘導出一些大模型系統(tǒng)特有的數(shù)據(jù)安全和系統(tǒng)漏洞問題,這促使安全專家和 AI 專家協(xié)同起來,一起解決大模型安全問題。
張?zhí)煲韯t拿螞蟻的 " 蟻鑒 AI 安全檢測平臺 " 舉例。他表示,2022 年 WAIC 時推出的蟻鑒,主要是在魯棒性上進行評測。但今年,蟻鑒不僅在事前的評測功能上加入了針對大模型的評測功能,用生成式 AI 能力檢測生成式 AI 模型,未來還希望延展事中干預、事后糾偏等模塊。
常永波則告訴 36 氪,信通院目前基于產業(yè)調研已有規(guī)劃系統(tǒng)化的評測體系,希望借此支撐更全面地提升大模型可信度,其中,內容生成安全、數(shù)據(jù)安全、合乎倫理等都是重點關注的問題。
這是我們目前看到的星星之火。
以下是對話部分(經編輯):
36 氪:大模型席卷半年,看似已經到了產業(yè)落地時間。在你的觀察中,現(xiàn)在企業(yè)因安全、可信問題而難以 " 嘗鮮 " 大模型是一個普遍現(xiàn)象嗎?
張?zhí)煲恚?/strong>企業(yè)的猶豫或顧慮有兩方面的原因。首先是監(jiān)管因素,如果企業(yè)的大模型產品要為公眾提供服務,那么提供服務的一方相應地需要承擔責任。比如,我提供了一個跟用戶進行問答的服務,但是在對話中發(fā)現(xiàn)可能有不當言論,這些在沒有詳細的解決方案之前,對服務提供商來說會有很大的壓力。
另一方面,技術自身也讓服務商顧慮。從應用的角度,如果有很多不可控因素,服務商甚至可能不清楚自己在提供什么樣的服務,肯定最終是不敢用的。
所以在沒有更好的支持之前,很多公司都不具備提供更多通用人工智能服務的能力。
李琦:很多學校和企業(yè)開始研究和應用大模型,特別是大家都嘗試在應用大模型技術來解決各自業(yè)務需求。與此同時,也能看到大家嘗試研究和開發(fā)各自的大模型時,也在盡量避免大模型里面的安全問題。例如,在清華大學就有好幾位老師正在做這方面的研究,為此清華大學也設立了大型基礎模型研究中心。
大模型的能力有目共睹,大家都愿意投入資源來研究和開發(fā)大模型,同時也在一起解決可能涉及到的安全可信問題。
36 氪:模型魯棒性、可解釋性、數(shù)據(jù)泄露等問題大家都非常關注。哪一類問題是最難被解決的?
常永波:最難解決的就是可解釋性問題。因為可解釋性是一個底層算法邏輯的問題,只要深度學習的底層算法機理或者邏輯推理無法解釋,短期內或許難以突破。我們也在和各種行業(yè)專家交流,大家都觀點比較類似,大模型參數(shù)規(guī)模這么大,這么龐大的一個黑盒模型,如何進行邏輯溯源,有很多技術點要攻關。
李琦:我認為可解釋性是至關重要的。如果模型可以解釋清楚,或許就能解決可控問題。因為我知道你的意圖和執(zhí)行過程,那么我就可以有效地管理。例如,由于現(xiàn)在的能力限制,可能惡意用戶只需要幾次交互就可能繞過大模型的 API 限制。實際上,目前沒有一種特別好的方法可以完全控制這個問題,不同的模型本身就存在差異,因此很難有通用的解決方案。此外,許多商用大模型并不對外開源,我們無法知道這些閉源大模型的模型結構、參數(shù)和開發(fā)過程,這也增大了對大模型可解釋性研究的難度。
張?zhí)煲恚何矣X得最難的是大模型的可控性,這與可解釋性和魯棒性都有關。目前可控性問題主要體現(xiàn)在兩方面:首先,這些模型存在實際上的偏誤。比如問模型 " 這首詩是誰寫的 ",它可能會瞎編。
其次,模型在邏輯上的可控性也有待提高。我們做過一個實驗,問模型 " 為什么認為某個人是一個賭徒 ",模型可能會回答 " 因為他在半夜花錢 " 等等。但是當你用同樣的數(shù)據(jù)再問模型 " 為什么認為這個人不是賭徒 ",它還是可以找到一些看似有理的回答。這就是模型背后的邏輯可控問題。
在專業(yè)領域這種問題更加嚴重。比如,如果你問模型為什么這個病人得了癌癥,它可能會回答得信誓旦旦。然后你再問它為什么這個病人得的是另一種病,它可能也會給出自信的答案。這就是目前大型模型面臨的挑戰(zhàn),在真正專業(yè)的領域如何確保事實上的準確性和邏輯的可控性。
而且現(xiàn)在的模型參數(shù)體量龐大,使得試圖去理解它的決策過程幾乎變成一個不可能的任務。
這個問題可能會引發(fā)上層的安全性和可能的倫理問題。當?shù)讓佣际且粋€黑盒、一個混沌不可知的系統(tǒng)時,我們對上層的所有這些問題的衡量都只能在事后進行。它是不是真的解決了這些問題,還是更加精密和狡猾的繞過了這些問題,其實很難評測,這些問題目前來看是非常嚴峻的。
36 氪 : 現(xiàn)在對可解釋性,行業(yè)內可以達到的效果到底是怎樣的?
張?zhí)煲恚?/strong>關于 AI 的可解釋性,通常我們做兩件事:模型的可解釋性和決策的可解釋性。
對于模型的可解釋性,假如你有一個深度學習模型,我們想要理解它,可能要理解它經特定的輸入,激活了某些神經元,最終得出某個結果。這是像解剖一樣去解剖這個模型,盡可能理解它的原理。
另一方面,決策的可解釋性更關注結果。我們可能不需要深入到模型的每一步,但我們會很好奇,為什么這個模型告訴我這個人是壞人,或者病患是癌癥。模型需要能夠解釋這個決策,能夠給出一些重要的原因,這些原因需要經得起推敲。
在大型模型領域,追求模型的可解釋性在短時間內可能是不可能的,因為模型本身的復雜度,甚至已經超過人腦能理解的程度。千億級的參數(shù)是如何協(xié)同的,已經超過了人腦的理解能力。追求模型內部每個步驟的可解釋可能已經不是一個合理的訴求。
盡管如此,我們看到一些有趣的嘗試。最近有一篇文章介紹了如何使用一個更大的模型 GPT4 來解釋較小的模型 GPT2,以幫助工程師理解大型模型是如何做決策的。這是在嘗試解釋模型的可解釋性,但其實也是用一個 " 魔法 " 來解決另一個 " 魔法 "。
在大模型決策的可解釋性方面,也可以嘗試用大模型去解釋大模型。比如,如果去慢慢誘導,它可以一步一步地把自己的一些邏輯展現(xiàn)。
常永波:我們近期和一些醫(yī)療、金融領域的企業(yè)交流后,發(fā)現(xiàn)在可解釋性比較難解決的情況下,大家會傾向于選擇在有限的場景下使用。可解釋性是算法本身的問題,但它也可以結合專家知識、行業(yè)知識,以及一些比較經典的決策類算法進行綜合性判斷。也不是說不可解釋就完全不能使用,輔助決策的場景下大家還是愿意嘗試的。
36 氪:現(xiàn)在行業(yè)內相關供應商以及研究者的情況是怎樣的?
張?zhí)煲恚?/strong>大多停留在檢測模型魯棒性方面。這個行業(yè)剛剛起步,真正能做到防御和干預的供應商還很少。許多服務還在整合階段,但這個行業(yè)的變化和發(fā)展非???,可能明年形態(tài)就完全不一樣了。
包括我們的蟻鑒,之前已經具備模型魯棒性等檢測能力,今年也嘗試在 AIGC 和模型可解釋方面進行更新。可解釋性的量化非常困難,現(xiàn)在我們也算是做了一個嘗試。經過和行業(yè)內不少機構的討論,今天我們初步制定了包括正確性、完備性、一致性、連續(xù)性、簡潔性等 7 個維度。未來,蟻鑒還會向事中阻攔、事后糾偏能力延展。
李琦:我個人觀察到,大模型的出現(xiàn)使得做 NLP 和傳統(tǒng)做安全的研究者的交集在逐漸增多。比如,做 NLP 的研究者現(xiàn)在也開始關注如何使模型更安全地應用。而傳統(tǒng)做安全的研究者也在關注如何對抗 NLP 模型的問題。這是因為隨著大模型的出現(xiàn),幻覺、越獄和模型劫持等問題已經成為了這些領域的共性問題。
之前 NLP 的研究者可能更多從模型和算法的角度來看待這些問題,安全研究者可能更關心 AI 平臺整體的問題,包括模型輸入到模型輸出過程中所有可能的安全問題。當然這可能涉及模型本身的問題,也可能涉及數(shù)據(jù)輸入和預處理過程、以及 NLP 模型的學習框架依賴庫中的安全問題。但現(xiàn)在不論是做安全的還是做 NLP 的研究者,大家都開始關注這些。
常永波:去年之前很多的案例,都聚焦在模型穩(wěn)定性和隱私保護這一塊,尤其是隱私保護這一部分非常多??山忉尯凸叫愿嗵幱谘芯侩A段,也會有一些企業(yè)結合專家系統(tǒng)或行業(yè)知識等,輔助提高可解釋性。
大模型出現(xiàn)之后,安全風險主要體現(xiàn)在三個大方面,一個是生成內容的風險,第二是大模型自身安全的風險,以及可解釋性等。這些方面不管是理論還是技術,都需要持續(xù)研究。后續(xù)信通院也會推動一系列大模式評估評測工作。
36 氪:另一個現(xiàn)象是,全球都在討論大模型的監(jiān)管,但這可能不是單個角色就可以解決的問題。你覺得大家應該怎樣一起推進這件事?
李琦:我覺得對大語言模型來說,合規(guī)和可信比過去的 AI 更難。OpenAI 雇了很多人對數(shù)據(jù)打標、做調優(yōu),還是沒辦法達成嚴格的法規(guī)預期,這已經證明了這件事的難度。這件事可能需要我們學術界一起參與,大家一起共建,目前來說還是有一些距離。
法規(guī)的完善有一個過程,但從技術本身來說,可解釋、可控,目前看來還是難題。OpenAI 大力發(fā)展人類反饋強化學習 ( RLHF ) ,為了增強模型與人類價值觀的對齊,讓大模型生成內容更加可控,但是 RLHF 本身訓練起來比較困難,這個方向還存在較大的研究空間。
再加上,法規(guī)是一方面,但具體怎么去評測,理想和現(xiàn)實是有差距的。我個人理解,大語言模型會有各種變種,不同模型特點不同,可能適合的測試也不一樣,這是比較復雜的問題,特別是大模型還可能涉及多模態(tài)的問題?,F(xiàn)在其實很多研究者也在做評測標準,根據(jù)模型輸出來對準則進行一些判別,這里面需要很多專家支持,也需要生態(tài)共建。
常永波:大模型現(xiàn)在類似于互聯(lián)網(wǎng)革命的初期的形態(tài),現(xiàn)在我們在評測中可能會更關注內容生成,當然這也是我們眼中最亟待解決的問題,這方面的規(guī)則要求也推出得比較早。其他尤其是可解釋性的問題,可能需要很長的一段時間才能解決,目前這方面更多停留在前瞻性研究階段。未來我們總體還是會從整套體系上對可信 AI 進行設計,而不是只關注其中的某個部分。
36 氪:最后一個問題??尚?AI 是比較早就提出的概念,當前在產學研界看來,AI 安全、可信 AI 以及安全的 AI 三者的關系是怎樣的?
張?zhí)煲恚?/strong>我覺得安全 AI 和可信 AI 的概念側重點不同。在討論可信 AI 的基本概念或原則時,雖然各國組織和學術機構的表述有所差異,但基本原則上仍存在廣泛共識。比如在螞蟻集團,我們認為有四個基本原則,即 AI 本身的安全性,這里包括魯棒性,另外還有隱私保護、公平性和可解釋性。除了魯棒性通常被認為與安全密切相關,可解釋性也與安全有很大關系,有時候,算法的不可解釋性或黑箱性可能對公眾構成安全隱患。綜上,可信 AI 和安全 AI 雖然有關聯(lián),但還是兩個有所區(qū)別的概念。
李琦:我覺得可信 AI 是一個相對概念,因為 " 可信 " 很難被明確地量化。這就是為什么存在著可解釋性的問題,因為 AI 存在很多不可解釋的問題。而 AI 安全是一個更泛化的概念,即使在使用 AI 解決安全問題的同時,也需要考慮 AI 自身的安全性。從我自身過往的觀察來看,可信 AI 主要關注算法的訓練、學習和決策過程,以及算法是否科學、有效和是否存在被攻擊的問題等。
但隨著大模型的出現(xiàn),可信 AI 和 AI 安全的關系變得更加復雜。深度學習本身存在許多難題,大模型的出現(xiàn)使得這些問題更加復雜,包括像 GPT 這樣的模型也出現(xiàn)了很多問題,如幻覺、越獄等?,F(xiàn)在很多人在研究基于 GPT 這類大模型的可解釋性和安全性問題,安全的范圍實際上變得更大了。
常永波:可信 AI 這個概念從 2017 年被提出后,就強調人工智能技術本身需要具備可信的品質。我們在前幾年發(fā)布的白皮書中,也明確指出可信 AI 是一套體系化的方法論,其中自然也包括了安全性。
我的理解是,可信 AI 就是要建立人與人工智能系統(tǒng)間的信任關系,類似于人與人之間的關系。安全則是可信 AI 的一個重要前提,它要求通過各種技術和策略確保人工智能系統(tǒng)的行為和決策不會對人類造成危害,避免潛在的風險和威脅。所以我認為,AI 安全的主體應是人工智能系統(tǒng)本身,而安全的 AI 的范疇則更廣一些。
整體來看,人工智能的可信一定是長期話題。2020 年以來,我們已經在世界人工智能大會連續(xù)做了三屆可信 AI 研究成果的發(fā)布。未來我們還會聯(lián)合更多企業(yè)一起,建立人與人工智能系統(tǒng)之間的可信賴關系。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com