亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

圖靈檢測2.0:怎樣判斷AI到底能做什么不能做什么?

2024-06-22

圖靈檢測本身就是一種定性、概念性的檢測,理論上,任何一個程序都可以通過縮小測試范圍,限制測試集,然后通過所謂的圖靈測試。


從商品的角度來看,情況是不一樣的,這個時候能否通過圖靈檢測將受到產(chǎn)品界限的限制,并且拳拳到肉,一旦無效,AI驅(qū)動的產(chǎn)品就不會建立起來。。這次測試就是抽取一些真實產(chǎn)品的場景來方便理解再包裝,目的主要是為了表示圖靈檢測2.0的概念。


考慮到隱性誤解,提前做出以下聲明:


本測試不權(quán)威也不全面,但可以復(fù)制,過程數(shù)據(jù)有保留??蓮?fù)制是指每個人都可以按照步驟進(jìn)行測試。


這個測試并不代表每一個模型的好壞,只代表與設(shè)置場景的匹配程度。


本次測試的選擇模型具有主觀性,在使用和使用方面進(jìn)行了衡量。


角色中心計算和圖靈測試2.0


角色中心式計算是一種相對功能中心式計算。


到目前為止,我們使用的APP幾乎都是按功能劃分的,職責(zé)也比較單一,比如IM。、搜索,外賣,打車等等。


一個角色職責(zé)的完成通常需要結(jié)合很多功能,比如一個招聘角色背后必須結(jié)合十幾個工具(從IM到招聘APP等)。)才能完成招聘某人的工作。


現(xiàn)在AI可以承擔(dān)這個居中調(diào)度的角色,所以下一步的應(yīng)用必須是角色中心式計算。


角色中心計算是否成立,核心在于AI的智商水平是否能處理角色界限中的一切。比如在招聘的時候,我們要能夠判斷當(dāng)前JD的描述是否符合需求者的需求,也要判斷一個候選人是否初步匹配相應(yīng)的招聘需求。


如果人物的每一個關(guān)鍵步驟都可以通過AI來完成,那么對于這個人物來說,不僅無法通過對話來區(qū)分這是真人還是AI,也無法通過實際反饋來區(qū)分。


即便通過了圖靈檢測2.0。


這個問題以前做得比較多,這里只是多次重復(fù)。


過去的文章中一直缺少一個下一步,如何設(shè)計和實現(xiàn)圖靈檢測2.0的例子,這篇文章重點介紹了這里。


我們提取一個真實場景的關(guān)鍵步驟,從一個通俗易懂的角度包裝成一個極簡主義的例子,解釋如何分解圖靈測試2.0的概念,以及如何結(jié)合一個特定的角色。


圖靈檢測2.0的例子


假如我們創(chuàng)造了如此簡單的角色。


它是你的代理商,可以幫助你把你產(chǎn)生的內(nèi)容發(fā)布到特定的UGC平臺上。(在OpenAI發(fā)布會上, 類似的例子已經(jīng)在Brockman演示過)


為了描述這個角色,我們節(jié)省了很多細(xì)節(jié)。


這樣,這個角色就有了這個角色。4個關(guān)鍵內(nèi)涵


完成你對自己所做的人的設(shè)計。


根據(jù)特定的主題或問題生成內(nèi)容。


確保內(nèi)容質(zhì)量。


發(fā)布等執(zhí)行步驟。


步驟四等是傳統(tǒng)的RPA等技術(shù),其實并不重要,后面就忽略了。


除了內(nèi)容生成之外,在這三個關(guān)鍵步驟中,AI也要做出判斷:


1.產(chǎn)生的內(nèi)容真的匹配了相應(yīng)的話題或問題嗎?(內(nèi)容生成是一次性的,在多個平臺上發(fā)布是幾次性的,所以要經(jīng)常做出匹配判斷)


內(nèi)容的基本質(zhì)量究竟如何?


這兩項工作雖然簡單,但是在沒有AI模型之前真的很難做好。過去,你無法立即為特定的問題和話題生成內(nèi)容,也很難立即大量判斷匹配程度。


有點像單細(xì)胞生物的無機(jī)物。


我們將進(jìn)一步降低目標(biāo),以縮短文章的篇幅。


完成第一項工作就變成了對內(nèi)容的概述,然后大模型判斷內(nèi)容概述與問題的匹配程度。事實上,Embedding算法可以直接在這里使用。


兩者各有利弊,但這里只注重用模型來判斷結(jié)果。


這個步驟完成后,例如你生成的內(nèi)容是:與青玉案元夕有關(guān),那么就可以與古詩文標(biāo)簽或特定問題相匹配。


測試結(jié)束后,需要用人來標(biāo)記最終的測試結(jié)果,這樣才能提供一個絕對的尺度,知道AI大模型算法可以進(jìn)行到什么程度。


第2項的評估簡化為使用BLEU算法來評估生成內(nèi)容的相似性。


這樣可以防止內(nèi)容的重復(fù)。


你為什么這么做?因為我最終不想反復(fù)發(fā)布同樣的內(nèi)容。即使輸入是相對一致的,比如人的設(shè)計和話題是相似的,我也不希望內(nèi)容是一致的。


對于內(nèi)容是否產(chǎn)生了足夠的優(yōu)美,首先要忽略,那是非常麻煩的。


為完成這個測試,需要一些東西。真實數(shù)據(jù),這可以手動編輯或抓取。。這部分與你實際輻射的行業(yè)有關(guān)。年輕藝術(shù)家和斜杠青年需要不同的數(shù)據(jù)。但這和RPA一樣是一項傳統(tǒng)工作,大多數(shù)程序員都必須這樣做。為了防止不必要的損失,數(shù)據(jù)不會先公開。


有興趣的人可以聯(lián)系cathywangyue進(jìn)入讀者群進(jìn)行部分討論。


完成以上工作后,實際上完成了從一個角色到圖靈2.0測試集的基本投射:關(guān)鍵是分解角色內(nèi)涵,為關(guān)鍵判斷建立測試集。


檢測結(jié)果


對于準(zhǔn)備的1000條測試數(shù)據(jù),第一次測試的最終結(jié)果如下:


這里邊診斷率是指在1000個測試項目中,有多少模型被判斷為匹配,準(zhǔn)確性是指在感覺匹配的項目中與人的標(biāo)記比,準(zhǔn)確度如何。


這一測試結(jié)果最終如何使用將與您的選擇有關(guān),顯然,總數(shù)優(yōu)先和質(zhì)量優(yōu)先是不同的。


其中最有趣的一點是:至少在這個判斷項目中,AI還不如人類。因此,如果判斷項目較多,整體精度的控制將是一個非常具有挑戰(zhàn)性的問題。


然后我們測試了內(nèi)容生成部分的質(zhì)量。在這部分,我們測試了產(chǎn)生內(nèi)容最簡單的BLEU值,而不測試文字是否優(yōu)美,其中所有的參數(shù)都使用了省參數(shù),所以temperature不會改變。如果你做得很仔細(xì),這部分可以反復(fù)測試多個值。但是我們不做這部分是為了表明圖靈檢測2.0的概念。


在最后的測試結(jié)果中,前三名是:


所有模型檢測結(jié)果如下:


這里和原文的對比是指創(chuàng)作內(nèi)容與原種子進(jìn)行對比,然后統(tǒng)計BLEU值小于0.75的比例。0.85意味著85%的內(nèi)容差異大于0.75。(原文可以看作是內(nèi)容的種子,相應(yīng)的內(nèi)容是基于原文和提示詞生成的。)


與改寫結(jié)果相比,相同的方法會產(chǎn)生三個內(nèi)容,然后看BLEU值,以上結(jié)果將低于0.75的除以3。當(dāng)然,提示會包括增加差異的部分。



內(nèi)容生成會消耗token,所以token的數(shù)量和成本應(yīng)該同步記錄。最后出了一個價格離譜的,說明模型在初選的時候選錯了。


例子的意義


如果這個測試能通過,那就意味著最后一次。從技術(shù)角度來看,相應(yīng)的角色可以通過圖靈測試2.0。如果精度達(dá)不到一定程度,那么你設(shè)定的角色在當(dāng)前AI的智商下就不會成立。不管你有多酷,別人有多吹捧,解決你的想法都是沒有意義的。


第二,要明白,任何一個角色的建立都應(yīng)該包含對應(yīng)角色的N多個方面。


用AI做亮眼的Demo,用AI做真正能用的產(chǎn)品,雖然看起來都是一樣的物品,但是難度不在一個數(shù)量級。這就是普通鏡頭和哈勃望遠(yuǎn)鏡的區(qū)別。


這樣的檢測結(jié)果也可以識別AI在產(chǎn)品視角上的真實進(jìn)展。常常與某些媒體上的認(rèn)知存在較大誤差。


當(dāng)然,落地時內(nèi)部的項目和復(fù)雜性也需要進(jìn)一步增加。


但是如果真的想要使用AI,那么從現(xiàn)在開始就需要建立自己的測試集,并且在模型還不穩(wěn)定的時候定期進(jìn)行測試。


假設(shè)這個測試集中的數(shù)據(jù)采樣足夠豐富,再加上一個測試框架連接到每個大模型,那么你在你的領(lǐng)域會比任何人都更權(quán)威,你不必聽任何人的話。


以前就是這么說的一手感受


面對普通人的一些挑戰(zhàn),不是如何寫提醒詞。這部分信息比較多,反復(fù)測試可以找到解決方案,最差的可以問AI。


更麻煩的是如何組合各種算法。


并非所有時候都只使用一個大模型的算法。


這個部分只能一個接一個地討論,沒有唯一的解決辦法。


限定


以上方法現(xiàn)在可以用來支持一些比較簡單的角色。


但是由于角色本身的行為模式仍然是以規(guī)則為基礎(chǔ)的,只能在有限的過程框架內(nèi)實現(xiàn)目標(biāo)。


假如角色太復(fù)雜,也許還需要進(jìn)一步的AI進(jìn)步,暫時可以先別整了。


但是它已經(jīng)能夠創(chuàng)造出一些不同于過去的應(yīng)用。


總結(jié)


最終總結(jié)下圖靈檢測2.0的全過程:首先定義你認(rèn)為有商業(yè)價值的角色,然后根據(jù)角色挖掘其內(nèi)涵,形成相應(yīng)的圖靈測試2.0測試集,然后反復(fù)測試各種模型。如果可以通過,也可以從技術(shù)角度建立,產(chǎn)品可以啟動。否則,我們必須等待。回到現(xiàn)場的第一手感覺是AI產(chǎn)品最關(guān)鍵的起點。


本文來自微信微信官方賬號“琢磨事”(ID:zuomoshi),作者:老李話一三,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com