圖靈測試 2.0:怎么判斷 AI 到底能干什么不能干什么
圖靈測試本身是一個定性的、概念性的測試,理論上隨便哪個程序都可以通過縮窄測試范圍、限定測試集然后通過所謂的圖靈測試。
換成產(chǎn)品視角,情況則有所不同,這時候能否通過圖靈測試就會限定在產(chǎn)品的邊界以內(nèi),并且拳拳到肉,一旦不靈,AI 驅(qū)動的產(chǎn)品就不成立了。本次測試就是抽取了真實產(chǎn)品的部分場景進行方便理解的再包裝,目的主要用于說明圖靈測試 2.0 這概念。
考慮潛在的誤讀,預(yù)先做如下聲明:
1. 本測試不權(quán)威也不全面,但可復(fù)現(xiàn),過程數(shù)據(jù)有留存。可復(fù)現(xiàn)是指按照步驟每個人都可以測試。
2. 本測試不代表各個模型優(yōu)劣,只代表和設(shè)定場景的匹配度。
3. 本測試選擇模型有主觀性,在用的起和好用上做了權(quán)衡。
角色中心式計算與圖靈測試 2.0
角色中心式計算是相對功能中心式計算說的。
到現(xiàn)在為止差不多所有我們用的 APP 是以功能來劃分的,職能相對單一,比如 IM、搜索、外賣、打車等等。
一個角色職責的完成往往需要組合很多的功能,比如那怕一個招聘的角色它背后都必須組合十幾個工具(從 IM 到招聘 APP 等)才能完成招聘某個人的工作。
現(xiàn)在 AI 可以承擔這個居中調(diào)度的角色,所以應(yīng)用的下一步必然是角色中心式計算。
而角色中心式計算是否成立,核心則在于 AI 的智商程度是否能夠處理角色邊界內(nèi)的一切事情,比如招聘的時候要能判斷當前的 JD 的描述是否匹配需求方的需求也要判斷一個候選人是否初步匹配對應(yīng)的招聘需求等。
如果角色的每一個這種關(guān)鍵步驟的都可以用 AI 來完成,那對這個角色而言就不單通過對話無法區(qū)分出這是真人還是 AI,從現(xiàn)實的反饋也無法區(qū)分。
這就算通過了圖靈測試 2.0。
這點之前展開比較多,這里不過多重復(fù)了。
在過去的文章里一直缺一個往下一步,怎么設(shè)計和實現(xiàn)圖靈測試 2.0 的例子,這篇文章重點在這里。
我們抽取一個真實場景的核心步驟,從易懂的角度包裝成一個極簡的例子,來說明圖靈測試 2.0 的概念怎么分解,和一個具體的角色怎么融合。
參見:
AI 的脈絡(luò):非共識時刻的認知價值
角色中心式計算:AI 大模型顛覆性的起點與終點
原點上的失?。菏秷?zhí)行力提升可以換來一個成功的 AI 產(chǎn)品么
圖靈測試 2.0 的示例
假如我們打造這么一個簡單角色。
它是你的代理,可以幫助你按照你的設(shè)定在特定 UGC 平臺上發(fā)布你生成的內(nèi)容。(OpenAI 發(fā)布會上 Greg Brockman 演示過類似的例子)
我們略去大量細節(jié)來描述這個角色。
這樣一來這個角色就有4 個關(guān)鍵內(nèi)涵:
1. 完成你對自己做的人設(shè)。
2. 針對特定話題或者問題生成內(nèi)容。
3. 確保內(nèi)容的質(zhì)量。
4. 發(fā)布等執(zhí)行步驟。
第四步的發(fā)布等是傳統(tǒng)的 RPA 等技術(shù),其實并不關(guān)鍵,后面就都略過了。
在這三個關(guān)鍵步驟里面,除了內(nèi)容生成,還需要 AI 做的判斷是:
1. 生成的內(nèi)容是不是真的匹配對應(yīng)的話題或者問題?(內(nèi)容生成是一次性的,在多個平臺發(fā)布是多次性的,所以要經(jīng)常做匹配的判斷)
2. 內(nèi)容的基礎(chǔ)質(zhì)量到底怎么樣?
這兩項工作別看簡單,但在沒有 AI 大模型前還真的很難做好。在過去你就沒辦法針對特定問題、話題實時生成內(nèi)容,也很難實時大批量的判斷匹配度。
有點像無機物到單細胞生物。
為了縮減文章篇幅,我們進一步降低目標。
完成第一項工作就變成生成一個內(nèi)容的概要,然后大模型判斷內(nèi)容概要和問題的匹配度。這里其實可以直接用模型,也可以用 Embedding 算法。
兩者各有利弊,但這里只關(guān)注用模型的判斷結(jié)果。
這步驟做完之后,比如你生成的內(nèi)容是:青玉案元夕相關(guān),那就可以匹配到古詩詞的標簽或者特定問題下面。
都測試完了之后,還需要用人來標注下最終測試結(jié)果,這樣就提供個絕對的尺度,知道 AI 大模型算法能進行到什么程度了。
第二項的評測簡化成使用 BLEU 算法來評測生成內(nèi)容的相似度。
這是避免內(nèi)容生成的重復(fù)。
為什么做這個呢?因為最終不希望反復(fù)發(fā)表一樣的內(nèi)容。即使輸入相對一致,比如人設(shè)、話題等有相似性,也不希望內(nèi)容一致。
至于是不是內(nèi)容生成的足夠優(yōu)美,就先不管了,那十分麻煩。
為了完成這個測試,需要一些真實數(shù)據(jù),這可以手動編輯或者抓取。這部分和具體你輻射的領(lǐng)域有關(guān)系,文藝青年、斜杠青年等需要的數(shù)據(jù)不怎么一樣。但這和 RPA 一樣是個傳統(tǒng)的活,大部分程序員都會做。這里為了避免不必要的麻煩,數(shù)據(jù)先不公開了。
感興趣的人可以聯(lián)系 cathywangyue 進讀者群再部分討論吧。
完成了上面的工作,其實就完成了從一個角色到圖靈 2.0 測試集的基礎(chǔ)映射:關(guān)鍵是要分解角色內(nèi)涵,為關(guān)鍵判斷建立測試集。
測試結(jié)果
在準備的 1000 條測試數(shù)據(jù)上,第一項測試最終結(jié)果是下面這樣:
這里面 檢出率是指在 1000 條測試項目里,有多少模型判斷為匹配的,準確率是指在認為匹配的項目里面和人的標注比,準確率什么樣。
這個測試結(jié)果最終怎么用會和你的傾向性相關(guān),顯然的數(shù)量優(yōu)先和質(zhì)量優(yōu)先結(jié)果是不一樣的。
結(jié)果里面最有意思的點是:至少在這一個判斷項上,AI 還不如人。所以如果判斷項比較多,整體精度的控制會是很有挑戰(zhàn)的問題。
然后我們測試的是內(nèi)容生成部分的質(zhì)量,這部分我們不測文辭是否優(yōu)美這些,就測生成內(nèi)容的最簡單的 BLEU 值,其中參數(shù)都用缺省參數(shù),temperature 這些就不改了。如果做的很細,這部分可以反復(fù)試多組值。但我們是為了說明圖靈測試 2.0 概念,就不做這部分了。
最終測試結(jié)果中得分前三的是:
全部模型的測試結(jié)果是:這里面和原文對比是指創(chuàng)作內(nèi)容和原始種子做比較,然后統(tǒng)計 BLEU 值小于 0.75 的比例,0.85 就意味著 85% 的內(nèi)容差異度大于 0.75。(原文可以看成是內(nèi)容的種子,基于原文和提示詞生成對應(yīng)內(nèi)容。)
和改寫結(jié)果比是指,同樣的方法會生成 3 次內(nèi)容,然后看 BLEU 值,把小于 0.75 的除以 3 就是上面的結(jié)果。當然提示詞中會包含加大差異度的部分。
內(nèi)容生成會比較耗費 token,所以同步要記錄下 token 數(shù)目和費用。最終出了個價格離譜的,說明模型初選的時候選錯了。
例子的意義
當這種測試可以通過,那就意味著最終從技術(shù)視角看,對應(yīng)的角色可以通過圖靈測試 2.0。如果精度達不到一定程度,那你設(shè)定的角色在當前 AI 的智商下就不成立。不管多酷炫、別人多么吹捧但對解決你設(shè)想的問題都沒意義。
其次是要理解,任何一個角色的成立要涵蓋對應(yīng)角色的 N 多方面。
用 AI 來做亮眼的 Demo,和用 AI 做真正能用的產(chǎn)品,兩者的難度不在一個數(shù)量級,雖然看著都是差不多的東西。這就是一般鏡頭和哈勃望遠鏡的鏡頭的區(qū)別。
這種測試結(jié)果也可以標識從產(chǎn)品角度看到的 AI 的真實進展。往往和某些媒體上來的認知有很大偏差。
落地時里面的項目和復(fù)雜度當然需要進一步增加。
但如果真想用 AI,那現(xiàn)在開始就需要建立你自己的測試集,并且在模型還不穩(wěn)定的時候定期測試。
假設(shè)這個測試集里面的數(shù)據(jù)采樣足夠豐富,再加上一個對接到各個大模型的測試框架,那在你的領(lǐng)域你會比任何人都權(quán)威,不用聽任何人的。
這就是之前說的一手體驗。
這里面對一般人有點挑戰(zhàn)的倒不是提示詞怎么寫,這部分資料比較多,反復(fù)測試可以找到解決方案,最不濟還可以問 AI。
麻煩一點的是怎么組合各種算法。
不是所有的時候都只用大模型一種算法就行的。
這部分只能陸續(xù)探討,沒有唯一解決方法。
限制
上述方法現(xiàn)在可以用于支持一些比較簡單的角色。
但因為角色自身的行為模式還是基于規(guī)則,只能在限定的流程框架里面完成任務(wù)。
如果角色過于復(fù)雜,可能還需要進一步的 AI 進步,暫時可以先別整。
但這已經(jīng)能夠打造一些和過去不一樣的應(yīng)用了。
小結(jié)
最終再總結(jié)下圖靈測試 2.0 的全過程:先定義你認為有商業(yè)價值的角色,然后依據(jù)角色挖掘它的內(nèi)涵,具體成相應(yīng)的圖靈測試 2.0 的測試集,然后就反復(fù)測試各種模型。如果能通過,那從技術(shù)角度角色也成立,產(chǎn)品可以啟動。否則就得等等?;氐浆F(xiàn)場的一手體驗,是 AI 產(chǎn)品的最最關(guān)鍵的起點。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




