Claude 3.5一夜封王,10倍的編碼速度絕世,全網最全面的實測來了。
昨日,Anthropic在深夜發(fā)布了Claude,下一代旗艦大模型。 3.5 Sonnet。
據悉,Claude 3.5 Sonnet不僅在評估中超過了GPT-4o,而且保持了GPT-4o的作用?!钢斜棺詈玫男詢r比,超過了自己的Claude 3 Opus。
如今,Claude 3.5 在全球范圍內,Sonnet已開啟免費試用。
就成本而言,Sonnet處理每百萬輸入token只需3美元,每百萬輸出token只需15美元。
對比之下,GPT-每100萬輸入token收費5美元,每100萬輸出token收費15美元,在價格上可以算是不相上下。在正式對戰(zhàn)中,每個家庭都已經降到了成本價。
前OpenAI對齊團隊負責人Jan Leike說,我喜歡Sonnet新模型。我經常要求它向我解釋ML論文。雖然不一定都是對的,但可能比我略讀好,速度也快很多。自動對齊研究越來越近...
有些網民也表示,「Claudee可以為我的一半工作。 3.5 完成Sonnet,我非常激動?!埂?/p>
MichaelaelAnthropic的產品經理 Gerstenhaber稱新模型為新模型「全世界最智能的模型」。
他指出,「在這一行業(yè),我們正處在寒武紀大爆發(fā)的開始。」。
今年的晚點期,Claude 3.5 最強版本的Haiku和Claude 3.5 Opus將陸續(xù)推出。
模型制造商是完全卷起來的!
網友實測
Claude 3.5 Sonnet發(fā)布后,在全網引起了強烈的反響,許多網民開始了一波測試。
十倍的編碼速度驚人
首先來看看Claude 3.5 Sonnet敲擊代碼的速度有多可怕。
網民們只是在一次對話中使用threejs cannonjs建立了包含物體和碰撞效果在內的3D太陽系模型。
另外一位網友表示,使用Claude 3.5 與GPT-4相比,Sonnet編碼的效率是任何其它大型語言模型的10倍。全新的Artifacts功能,可以在聊天旁邊生成和運行代碼,令人驚嘆。
沒有什么比使用Claude更好的了。 3.5 為了解密維吉尼亞密碼,Sonnet一次性編寫了一個程序。
許多網民紛紛稱贊Claude 3.5 快速起飛的Sonnet速度。

一個2分鐘的小游戲
一個開發(fā)者直接用了不到2分鐘的時間,做了一個小狗戴著太陽鏡吃骨頭的游戲。
其他人花了3分鐘制作馬里奧克隆版,并為人物提供了動畫效果。
還有另一款「原創(chuàng)」Color游戲 Cascade。

建立蛇梯棋游戲需要2分鐘。
網友表示,「通過新的Artifacts功能,我可以實時查看代碼并玩游戲。使用Claude的代碼感覺比GPT-4和Gemini好10倍」。

這個網民用Sonnet做了一個乒乓球游戲。
與ChatGPT不同,它不使用編碼編譯器。在此過程中,我們可以制作html/其中一個選項的文檔、筆記和其他內容。jss。
神經網絡可視化
有些人還做了可視化深度學習,但由于消息有限,不得不暫停。
以下是用動畫效果來解釋反向傳播的工作原理。
重建3D「模擬矩陣」
Claude 3.5 在第一次嘗試中,Sonnet是第一個可以再現電影《黑客》的人?!笖祿鳌?D情景模型。
而且,在制作恐怖游戲時,Claude 3.5 與Opus相比,Sonnet的3D結構更好。

SVG效果圖
Claude 3.5 獨角獸SVG圖片可以在Sonnet中繪制。
它甚至可以生成芯片制造過程的示意圖。
「井字棋」游戲失敗
在使用新模型后,OpenAI研究科學家德撲鼻祖表示,
比如GPT-4o(現在有Claude 3.5 Sonnet)這種前沿模型,在許多方面都有可能達到?!嘎斆鞯母咧猩顾?,但它們是形象「井字棋」這種基本任務無法完成。
每個人都希望原生的多模態(tài)訓練能有所幫助,但事實并非如此。


改變Artifacts的互動交互
從上面可以看出,這次更新的一個亮點就是Claude。 Artifacts引入了超強實時交互功能。
這個功能,可以算是開啟互動AI最具潛力的方法。
它標志著Claude從對話AI向合作工作環(huán)境的轉變。將來,Anthorpic的想法是,整個組織可以專注于知識、文檔和工作,而Claude將隨時提供服務。
Ethan在沃頓商學院教授 在Mollick看來,Artifacts可以說是一個簡化代碼編譯器。
就是這樣一款螃蟹游戲,他開始建立。
最初的版本是這樣的,略顯平淡。

教授直接問,游戲能不能有點嚇人?接著氣氛瞬間就上來了。
每個人的直觀感受是,使用Claude和Artifacts就像在IDE工作一樣。
這位日本網友說,簡單地說,Artifacts就是一個顯示代碼瀏覽的功能。易于直觀地理解,可用于多種目的。
-網站創(chuàng)建
-形狀
-圖形
-文檔
-簡單游戲
這有助于建立一個簡單的網站。
只需告訴它“制作計算器應用程序”,一個使用React的計算器應用程序瀏覽即可完成。
使用Artifacts,Sonnet可以使用HTML來建立簡單的ppt材料。
這位網友發(fā)現,在這個過程中,設計照片可以顯示給Sonnet,他們將使用這些圖片作為參考。

Claude 3.5 Sonnet不僅比GPT-4o或其它LLMs具有更高的編碼效率,而且由于Artifacts功能可以在聊天旁邊生成和運行代碼,因此可以提供令人驚嘆的使用體驗。
例如,讓它用React生成一個貪吃蛇的游戲。

接下來,我們還可以用自然語言來修改游戲,例如做一個漂亮的背景,或讓蛇有一個化身。
Artifacts功能完全貫徹了從對話人工智能到協調工作環(huán)境的理念,因為它可以在創(chuàng)建游戲的同時立即在右窗口玩這個游戲。
總體而言,Artifacts似乎是Claude長遠景的一個信號。
很長一段時間,Anthropic一直表示,他主要關注公司,并計劃把Claude變成一個工具,讓公司「安全地」把他們的知識、文檔和正在進行的工作集中在一個共享空間。
聽起來,這個概念更像是Notion或者Slack,而非ChatGPT。Anthropic模型將位于整個系統(tǒng)的中心。
打GPT-4o,上一代2倍速度。
總的來說,Claude 3.5 在生成率方面,Sonnet已經完成了升級,是上一代超大杯Claudee。 3 2倍于Opus。
而且,新模型在視覺上完全超越了GPT-4o。上個月剛剛發(fā)布的OpenAI新模型,沒想到這么快就被取代了。

下面是官方博客中的一些基準測試。
從圖中可以看出,Claude 在大多數標準中,3.5已領先GPT-4o、Gemini Llama-400B模型1.5。
在代碼標準中,Claude 在零樣本的前提下,3.5取得了92%的成績。數學方面,零樣本 ClaudeCoT加持 GPT-4o仍然落后于3.5。

就視覺標準而言,Claude 3.5 在視覺問答MMU標準上,Sonnet略遜于GPT-4o。
然而,在視覺數學推理、科學表格、圖表問答、文檔問答等方面,都取得了最高分。
Claude不僅可以準確地識別和轉錄圖像中的文本內容,而且結合強大的代碼生成能力,真正地將多種模式集成在一起。

與眾不同的是,Claude 3.5 與GPT-4o相比,Sonnet并沒有集成語音助手,或者可以生成圖像,而且Anthropic暫時沒有這樣的準備。
Danielanielalanielanthropic聯創(chuàng)兼總裁 在接受彭博獨家采訪時,Amodei指出,「我們的目標是讓它成為所有企業(yè)業(yè)務的首選模型」。
她繼續(xù)說,從研究的角度來看,我們可以生成圖像導出,但是畫一個「滑雪的貓」圖像并非我們的企業(yè)客戶所需要的,所以我們并不優(yōu)先考慮這一點。
當前,制藥巨頭Pfizer已使用Claude模型,幫助發(fā)現新藥。
未來,模型越智能,支持這種非常高水平的智商工作的力量就越大。顯然,Anthropic正在努力進一步多元化它想要看到的企業(yè)和公司。
Artifacts,一種可以擴展Claude交互技術的新功能,是一種新的嘗試。
Anthropic的提高速度,簡直令人驚嘆。
現在Anthropic的這一步,一定會迫使其他競爭者跟上。
要知道,Claude并不像Gemini或者ChatGPT那樣受到更多的關注,但是它在賽場上很受歡迎。
參考資料:
https://www.anthropic.com/news/claude-3-5-sonnet
https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/
本文來自微信微信官方賬號“新智元”(ID:AI_era),作者:新智元,編輯:編輯部,36氪經授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




