按鈕模型廣場,將模型評分權(quán)交給開發(fā)者
按鈕為開發(fā)者制作了一個(gè)扣子 AI 車間,讓開發(fā)者能低成本,一鍵觸達(dá)大模型。
文|徐鑫 趙艷秋
編|周路平
大型模型不缺熱點(diǎn),價(jià)格,參數(shù),工具鏈,長文本,多模式,競爭激烈,熱鬧非凡。
AI 應(yīng)用程序開發(fā)者卻陷入了困境。底層模型迅速升級變化,怎樣更好地跟蹤各種模型能力??場景中有不同的模型能力的差異到底在哪里??做一個(gè)應(yīng)用程序,怎樣更快地選擇合適的模型??
這個(gè)真正的煩惱,最近,在字節(jié)旗下, AI 應(yīng)用開發(fā)平臺扣子聯(lián)合開發(fā) Intel 推出的 AI 工坊( Coze AI Factory )在活動中,扣子很重“扣子模型廣場”上線。許多開發(fā)者可以低門檻,普遍參與模型能力評估,為應(yīng)用開發(fā)提供指導(dǎo)。
在模型廣場中,用戶可以建造兩個(gè)基于不同底座的模型。 Bot 發(fā)出請求,Bot 會匿名回到不同的結(jié)果。根據(jù)結(jié)果,用戶可以比較不同模型在特定場景中的表現(xiàn)和評分。“商品好不好,用戶會用腳投票”,扣子模型廣場,開發(fā)者可以通過輕松的戰(zhàn)斗方式,在很大程度上投票給大模型的場景能力,降低了評估模型能力的難度。
選擇合適的底層模型能力,關(guān)系到 AI 應(yīng)用效果,模型廣場的出現(xiàn)也有助于 AI 應(yīng)用程序可以獲得更好的用戶口碑。
扣子不斷地從產(chǎn)品和功能上發(fā)力,減少 AI 加快應(yīng)用開發(fā)門檻 AI 應(yīng)用生態(tài)繁榮。
01
好不好,誰說了算
去年,一個(gè) AI 開發(fā)者告訴我們使用大模型開發(fā)。 AI “有時(shí)你不知道是模型問題,還是場景問題,還是你自己的問題,還是三者都有問題,”應(yīng)用中的糾結(jié)。
它看上去就像一個(gè)笑話,但實(shí)際上反映了當(dāng)前開發(fā)者在使用大模型技術(shù)時(shí)的群體。典型心態(tài)——到底大模型是否可以用在某一特定的場景中,基于這一場景中的模型選擇是否正確,要做的工程化工作到底做得不好。
經(jīng)過一年多的探索,大家對大語言模型能做些什么基本都有了共識和結(jié)論,情境與模型匹配階段卻變成了更多的卡點(diǎn)。。
市場在不斷變化,廠商在不斷推新,比如掛載知識庫等能力,提供更大的文本窗口等等。細(xì)分領(lǐng)域 AI 應(yīng)用程序開發(fā)者,究竟應(yīng)該如何從這么多模型中選擇合適的模型,開發(fā)自己的應(yīng)用程序?
最近,針對這一痛點(diǎn),紐扣推出了一個(gè)非常輕松有趣的功能“模型廣場”,一鍵即可。 PK 每個(gè)大型模型在不同場景中的能力。評估大型模型在特定應(yīng)用領(lǐng)域和規(guī)則中的性能有三種方法。—— Bot 對戰(zhàn)、隨機(jī) Bot 對戰(zhàn)和純模型對戰(zhàn)。
Bot 對戰(zhàn)模式下面,扣子現(xiàn)在在各種場景中提供了差異。 Bot,使用者可在任何場景中選擇 Bot 看看兩個(gè)匿名大模型的表現(xiàn)。
如果你對“信息分析與處理”場景中不同大模型的能力差異非常清楚,可以選擇這個(gè)分類下的“ LYi 論文助手" Bot 來檢測。
兩個(gè)基于不同大模型底座構(gòu)建的界面將出現(xiàn)在界面中。 Bot,模型 A 和模型 B。在發(fā)出相同的指令后,他們會給出不同的回應(yīng)。
在所有回復(fù)之后,頁面上會跳出一個(gè)評分欄,用戶需要對兩個(gè)匿名大模型的場景能力進(jìn)行評分。
基于回復(fù)的內(nèi)容,我發(fā)現(xiàn)模型 A 具有較強(qiáng)的提取和結(jié)構(gòu)化相關(guān)參考文獻(xiàn)的呈現(xiàn)能力。從背景、研究方向、意義、研究成果和參考文獻(xiàn)中更完整地呈現(xiàn)整個(gè)任務(wù),更符合現(xiàn)實(shí)生活中論文閱讀和信息提煉場景中的需求。而模型 B 嚴(yán)格基于“背景與價(jià)值”這兩個(gè)問題的需求,將所有的研究方向都放在有意義的部分。雖然達(dá)到了預(yù)期的效果,但從結(jié)構(gòu)化能力的角度來看,A 更豐富的答案。
給這次 PK 評分" A 在“表現(xiàn)更好”之后,系統(tǒng)揭開了兩個(gè)模型的神秘面紗。
在產(chǎn)品界面設(shè)計(jì)中,紐扣非常注重用戶的參與,分享按鈕的出現(xiàn)可以直接截圖整個(gè)過程。如果你對我的評價(jià)和評分過程感興趣,可以橫屏看看這張長圖中的兩個(gè)模型。
如果你沒有明確的評價(jià)方向,隨機(jī) Bot 對戰(zhàn)模式接下來,系統(tǒng)會自動為您分配一個(gè) Bot 對2個(gè)匿名大模型的性能進(jìn)行評估。之后的體驗(yàn)過程和之前的指定 Bot 戰(zhàn)斗完全一樣。
還有一種戰(zhàn)斗模式,純模型對戰(zhàn),不要選擇任何東西 Bot,只需直接向模型提出要求即可。就拿過去全國高考“甲卷”的作文要求來說,讓兩個(gè)大模型進(jìn)行對戰(zhàn)。
根據(jù)結(jié)果,兩個(gè)匿名大型模型基于不同的重點(diǎn)給出了回復(fù)。模型 A 強(qiáng)調(diào)表達(dá)時(shí)的自然感,其風(fēng)格與我提出的請求風(fēng)格一致。模型 B 強(qiáng)調(diào)內(nèi)容表達(dá)的結(jié)構(gòu)性,其分層表達(dá)更為嚴(yán)謹(jǐn)。
在這個(gè)測試中,我們可以看到兩個(gè)模型側(cè)重于不同的方向。因此,如果開發(fā)者想要應(yīng)用與人交談和互動,模型可能是 A 而且如果想做信息提煉類應(yīng)用,模型更適合, B 那就更符合要求了。把這場比賽的結(jié)果分成“兩者都不錯(cuò)”。
三種模式,兩種模式對戰(zhàn),紐扣的產(chǎn)品界面和設(shè)計(jì)細(xì)節(jié)都很有意思。可以看出,它希望每個(gè)人都能輕松參與這種評價(jià)。
02
訪問主流模型,滿足整個(gè)場景
現(xiàn)在在扣子模型廣場上,可以選擇對戰(zhàn)。 Bot,覆蓋了資料分析與處理,知識應(yīng)用,推理能力,編碼能力,任務(wù)處理,創(chuàng)作與角色扮演等待多個(gè)場景。
其實(shí)這也是目前大模型能力比較擅長的情況和領(lǐng)域。做了這么多細(xì)分,其實(shí)是從開發(fā)者的角度出發(fā)的。因?yàn)榈搅苏嬲木W(wǎng)絡(luò)層面,每個(gè)開發(fā)者都必須看到特定的情況并嘗試。
以前市場上有很多評價(jià)指標(biāo)和榜單,只是為了給模型開發(fā)者提供一些指導(dǎo)。然而,這些評估大多是裸體模型評估。從應(yīng)用開發(fā)的角度來看,光靠裸體模型可能是不夠的。
每個(gè)應(yīng)用程序開發(fā)人員都有一個(gè)面向細(xì)分的場景,他可能需要的不是一個(gè)大模型的所有能力,而是充分利用它在某個(gè)場景中的潛力。因此,從應(yīng)用落地開始,真正的嘗試是扣子分場景對戰(zhàn)。
在這些趨勢和安排下,紐扣的思路一目了然。
一方面,通過實(shí)際使用效果,可以直觀地呈現(xiàn)不同場景中的大模型是否好用。是騾子還是馬,拿出來散步,用感覺和效果說話。評價(jià)過程中有兩種模式是匿名的,評價(jià)后才能看到哪種模式有好評,可以大大保證評價(jià)的公平性。
現(xiàn)在,扣子已接入。豆包,通義千問,智譜,MiniMax、Moonshot 、Baichuan等待國內(nèi)主流大語言模式。更多主流大語言模式的訪問,代表著更多的人對其進(jìn)行評估和反饋,解決了開發(fā)者的選擇困難。
有人說人工智能之所以像人工智能障礙,是因?yàn)槟P湍芰Σ?。如果開發(fā)者能夠根據(jù)自己的情況選擇情景中能力強(qiáng)的模型,使用效果會更好。從這個(gè)角度來看,扣子做的事情也在幫助整個(gè)市場掃平。 AI 應(yīng)用落地難題。
03
遇事不決,用 Bot
除了最新推出的模型廣場,扣子還有其他功能和商品,讓更多的人感覺更低門檻,更方便。 AI。
扣子也上線了 Bot(機(jī)器人)商店,類似蘋果的 AppStore,每個(gè) Bot 這是一個(gè)小應(yīng)用程序。
扣子用戶在上面建造了各種各樣的扣子。 Bot,有高考志愿咨詢,有劇本殺戮,動漫,小紅書文案,還有哄女朋友神器。 ... 看起來,愛讀書的人真的很多,扣子上有很多讀書的小助手,比如“認(rèn)真讀一百本書”、“假裝讀過一萬本書”,顧客很多。
店鋪里的 Bot 還在繼續(xù)創(chuàng)新。本月高考剛剛結(jié)束,各種相關(guān)志愿者咨詢 Bot 很受歡迎。
就像高考專業(yè)指南 Bot,通過 10 選擇題,分析用戶的性格特點(diǎn)和對未來生活的愿望,然后給出參考的專業(yè)方向。從右邊的介紹可以看出,它是基于豆包。 Function call 模型,開發(fā)者做了私人工作流程。
我試著做了一個(gè)選擇題。它向我推薦了計(jì)算機(jī)和歷史管理專業(yè),并給出了這三個(gè)專業(yè)畢業(yè)后的平均起點(diǎn)工資,即 8000、5000 和 6000 元。
如果你說這種應(yīng)用可以實(shí)現(xiàn)之前的一些小程序,那就看看這個(gè)高考志愿填報(bào)顧問,問:“河北考生,高考總分。 460,選課組合為物理、歷史、政治,想報(bào)考芯片專業(yè)”,它提供了一些參考機(jī)構(gòu)。
除了高考的 Bot,還有許多很有趣的東西 Bot。比如這個(gè)橘貓漫畫家可以一句話生成一組橘貓漫畫,這些可愛的貓?zhí)斡耍郧暗男〕绦蚝茈y給人這樣的體驗(yàn)。我給它發(fā)了一張“一只橘貓失戀了”,它創(chuàng)作了一組四張圖片來安慰我。
04
怎樣一句話做一個(gè) Bot
我們不但可以在那里 Bot 商店使用各種有趣的東西 Bot,還能創(chuàng)造自己的東西 Bot,而且門檻很低,只要一句話。紐扣就像一個(gè)實(shí)驗(yàn)車間。難怪有些小學(xué)生可以從零開始,做復(fù)雜的工作。 Bot。
順便說一下,現(xiàn)在扣子和 Intel 聯(lián)合推出了 AI 工坊( Coze AI Factory ),它是一個(gè)主題 Bot 征集活動,歡迎您也來試試啊。
我們試圖創(chuàng)造一個(gè) Bot,叫圖講故事。點(diǎn)擊“建立” Bot ",只需取一個(gè)名字,寫一個(gè)功能介紹。
因?yàn)檫@ Bot 這個(gè)角色就是圖片講故事,我要選一些插件來改進(jìn)。 Bot 技能。紐扣上有一個(gè)插件商店,簡單來說就是一個(gè)輔助程序,可以幫助源程序?qū)崿F(xiàn)一些需要添加的特定功能。插件商店提供了大量的插件。看名字和一句話的功能介紹,就可以選擇了。普通人通過拖動很容易上手。
本人選擇了通義萬相文生圖和 ByteArtist 文生圖插件,分別試用效果。
如今,我對 Bot 說“畫一只胖貓,夏天在院子里的樹下,給孩子們講傳奇故事”。我看見了。 Bot 開始運(yùn)轉(zhuǎn),調(diào)用通義萬相。
這張圖是在幾秒鐘內(nèi)生成的。
就這么簡單,圖片講故事。 Bot 就完成了。
工作流程,串聯(lián)萬物
制作一張圖片并不令人滿意,我準(zhǔn)備制作一本繪本。這個(gè)需要 Bot 此外,選擇插入繪本制作的工作流程??圩由线€提供了工作流商店。
這一次,我通過搜索,在我的圖片中講故事。 Bot 插入繪本制作的工作流程。
現(xiàn)在,我給貓和老鼠講了一個(gè)故事。 Bot,但是它回答說我很抱歉,我不能制作繪本!我又試了一次,在故事前加上了工作流功能介紹中的“分鏡制作”二字,終于運(yùn)行起來,調(diào)用了繪本制作工作流,產(chǎn)生了一個(gè) 9 繪本張圖。
擁有自己的建立 Bot,哄娃不再令人頭痛。您還可以讓孩子們一起參與,使用, Bot 制作歌曲和故事。如果說以前的孩子是互聯(lián)網(wǎng)原住民,那么現(xiàn)在的孩子可能是大模型和大模型。 Bot 的原住民。
最近,大家發(fā)現(xiàn),Bot “添加圖像流”的功能再次出現(xiàn)在上面。顧名思義,圖像流是處理圖像的工作流。它也是通過拖動添加的,所以很容易上手。這是使用 AI 為了降低我們處理圖像的門檻,技術(shù)。
夏天來了,我想給自己組合一下。我選擇了“換衣服”這個(gè)圖像流,加上我新創(chuàng)作的“ Pattaya "助手的 Bot 里面。再次從圖庫中找到一張圖片,發(fā)送給助手,標(biāo)注“生成穿搭圖”。
可以看到,它開始調(diào)用照片流換衣服。
幾秒鐘后,它給出了兩張穿著圖片,可以點(diǎn)擊查看,穿著非常清爽。
您還可以使用照片流來實(shí)現(xiàn)智能換臉、換背景、擴(kuò)圖、摳圖、多圖組合等。有意思的是,我建立的。 Bot,也可選擇一鍵發(fā)布到各種社交平臺、通訊軟件或部署到網(wǎng)站等其它渠道。
我在想,如果以后想做一個(gè)賣衣服的電商網(wǎng)站,會變得很簡單,可以用扣子一個(gè)個(gè)建立。 Bot,創(chuàng)建文案,生成模特海報(bào),也能讓用戶一鍵換衣服看到效果,當(dāng)然也可以使用。 Bot 實(shí)現(xiàn)財(cái)務(wù)處理、進(jìn)銷存、物流的自動安排。
將來我們的生活和工作,可以一個(gè)個(gè) Bot 串聯(lián),并聯(lián)。
06
知識庫讓 Bot 更個(gè)性化
除了這些嘗試,我最近還有一個(gè)需求。我和同事們在日常工作中積累了大量的專業(yè)文件。上周,我的同事們?nèi)匀粨?dān)心我們組分散的文件。如何建立一個(gè)自己的知識庫,方便大家搜索查詢?
現(xiàn)在,我們發(fā)現(xiàn)了 Bot 其實(shí)有了新的知識庫功能,都是通過拖動來存儲各種形式的知識,最多可以上傳。 300 一份文件。我要上傳一份非常硬核的文件——華擎主板 570。上傳之前,我先問了。 Bot 一個(gè)問題,讓它介紹一下這個(gè)主板??梢?,它給出的答案是比較籠統(tǒng)的。
接著,我創(chuàng)造了它 Pattaya 知識庫,上傳華擎主板 570 專業(yè)文件。再一次問類似的問題,這一次,它的回復(fù)非常具體,也給出了文檔中的相關(guān)頁面。
經(jīng)過這次嘗試,我和同事計(jì)劃整理一些個(gè)性化的知識庫,包括案例庫、大型知識庫等。,以便于我們小組的搜索和重用。我的一個(gè)朋友準(zhǔn)備把他這兩年看鳥的照片做成一個(gè)知識庫。
還有更多的工具用于扣子。舉例來說, Bot 與用戶溝通時(shí)記憶力更好,紐扣支持將重要內(nèi)容存儲為關(guān)鍵變量和數(shù)據(jù)庫。為了有更好的互動體驗(yàn),紐扣支持開場詞、客戶問題建議、快速指令、背景圖片、語音等。,并且還支持導(dǎo)出卡片格式。
開發(fā)者之間的交流也很活躍。 Bot 除了展示商店、插件商店和工作流商店外,每一家 Bot 右邊有社區(qū)入口,大家可以交流。
還有很多開發(fā)者建立群聊交流,開始直播交流。一些直播,開發(fā)者一起討論,通常是幾個(gè)小時(shí)。
一位開發(fā)者說,紐扣讓他真正接觸到了大模型。在此之前,他四處尋找,有些可能無法支付。如今,紐扣提供了各種模型和工具,就像一個(gè) AI 或者實(shí)驗(yàn)室 AI 車間,讓大模型觸手可及,幫助他開始了未來的旅程。對于普通用戶來說,何嘗不是!
? 原創(chuàng)內(nèi)容為數(shù)智前線(szqx1991)
未經(jīng)授權(quán),禁止轉(zhuǎn)載
入群、轉(zhuǎn)載或招商合作聯(lián)系后臺
文章優(yōu)選
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




