亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Gemini谷歌數(shù)學(xué)版解決奧運(yùn)難題,堪比人類數(shù)學(xué)家。

2024-05-23

四個(gè)月的迭代,讓Gemini 1.5 Pro已經(jīng)成為世界上最強(qiáng)的LLM(幾乎)。


在谷歌I/O發(fā)布會(huì)上,劈柴宣布Geminini。 1.5 Pro系列升級(jí),包括前后200k的支持,超過35種語(yǔ)言。



同時(shí),新成員Geminini 1.5 Flash推出,設(shè)計(jì)體積更小,運(yùn)行更快,還支持前后100k。


近期,Gemini 1.5 最新版本的Pro技術(shù)報(bào)告已經(jīng)發(fā)布。


論文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf


報(bào)告顯示,升級(jí)后的模型Gemini 1.5 Pro,所有關(guān)鍵基準(zhǔn)測(cè)試都取得了顯著進(jìn)展。



簡(jiǎn)而言之,1.5 Pro的性能已經(jīng)超越「超大杯」1.0 Ultra,而1.5 Flash(最快模型)性能接近1.0 Ultra。


甚至,新的Geminini。 1.5 Pro和Gemini 1.5 在大多數(shù)文本和視覺測(cè)試中,F(xiàn)lash的性能仍然優(yōu)于GPT-4。 Turbo。


Jeff Dean發(fā)表了一篇文章,Gemini 1.5 Pro「數(shù)學(xué)定制版」在基準(zhǔn)測(cè)試中,91.1%的成績(jī)被打破。


而且三年前的今天,SOTA只有6.9%。


而且,數(shù)學(xué)標(biāo)準(zhǔn)版本 Gemini 1.5 在數(shù)學(xué)標(biāo)準(zhǔn)方面,Pro的表現(xiàn)與人類專家相當(dāng)。



三年來,數(shù)學(xué)評(píng)估暴漲84.2%


對(duì)于這個(gè)「數(shù)學(xué)定制版」該團(tuán)隊(duì)采用了多種來自數(shù)學(xué)競(jìng)賽的基準(zhǔn)測(cè)試來評(píng)估Gemini的能力,包括MATH。、AIME、Math HidemMathMath,Odyssey和團(tuán)隊(duì)內(nèi)部開發(fā)的測(cè)試、IMO-Bench等。


結(jié)果表明,在所有測(cè)試中,Gemini 1.5 Pro「數(shù)學(xué)定制版」都明顯優(yōu)于Claude 3 Opus和GPT-4 Turbo,與通用版本相比,1.5 Pro有了顯著的改進(jìn)。


特別是在MATH測(cè)試中取得了91.1%的突破性成績(jī),并且不需要使用任何外部工具,如定理證書庫(kù)或谷歌搜索,這與人類專家的水平相當(dāng)。



另外,集中在AIME檢測(cè)中,Gemini 1.5 Pro「數(shù)學(xué)定制版」可以解決的問題數(shù)量是其它模型的4倍。


這里有兩個(gè)亞太數(shù)學(xué)奧林匹克競(jìng)賽,曾經(jīng)讓之前的模型無計(jì)可施。(APMO)題。


在這些例子中,上面的例子非常有代表性,因?yàn)樗且粋€(gè)證明問題,而非計(jì)算問題。


對(duì)于這一點(diǎn),Gemini給出的解決方案不僅是直截了當(dāng)?shù)?,而且非常重要?!钙痢埂?/p>



Gemini 1.5 全面提升Pro核心性能


文本評(píng)定

除數(shù)學(xué)外,升級(jí)后的1.5 在推理、編碼、多模態(tài)多項(xiàng)基準(zhǔn)測(cè)試中,Pro取得了顯著的優(yōu)勢(shì)。


甚至連主推導(dǎo)速度都是1.5。 Flash,在性能上也不輸1.0 Ultra。


尤其在MMLU通用語(yǔ)言邏輯基準(zhǔn)測(cè)試中,Gemini 1.5 在正常的5個(gè)樣本設(shè)置中,Pro得分為85.9%,在大多數(shù)投票設(shè)置中得分為91.7%,超過GPT-4。 Turbo。


相對(duì)于2月份出版的技術(shù)報(bào)告,新升級(jí)1.5 在代碼的兩個(gè)標(biāo)準(zhǔn)中,Pro有了很大的提高,從71.9%上升到84.1%(HumanEval),Natural22.7%上升到82.6%Code)。


新升級(jí)1.5,多語(yǔ)種基準(zhǔn)測(cè)試 Pro的能力略有下降。


另外,在5月份的報(bào)告中,對(duì)數(shù)學(xué)和推理能力進(jìn)行分離評(píng)估,新升級(jí)1.5。 從91.7%到90.8%,Pro明顯下降。


MMLU的性能在推理測(cè)試中從81.9%提高到85.9%。


2月版


對(duì)于函數(shù)調(diào)用,1.5 除了多個(gè)函數(shù)之外,Pro在多個(gè)任務(wù)中獲得了最高分。1.5 在多個(gè)函數(shù)任務(wù)中,F(xiàn)lash獲得了領(lǐng)先優(yōu)勢(shì)。



對(duì)于指令調(diào)優(yōu),1.5 面對(duì)更長(zhǎng)時(shí)間的指令1326提醒,Pro的響應(yīng)精度最高。而且406的指令更短,1.00 Ultra的表現(xiàn)更加出色。


涉及到更專業(yè)的知識(shí)問答,1.5 幾乎和1.5一樣,Pro準(zhǔn)確 Flah持平,僅差0.6%,但都明顯優(yōu)于1.0。 Pro和1.0 Ultra。



對(duì)于STEM前后的問答任務(wù),在Qasper數(shù)據(jù)上,Gemini 提高1.0和1.5的準(zhǔn)確性,同時(shí)顯著降低不準(zhǔn)確性。


我們來看看喜好的結(jié)果,根據(jù)不同的提醒和1.0。 與Pro相比,1.5 Pro和1.5 Flash的分?jǐn)?shù)相對(duì)較高。


多模態(tài)評(píng)定

針對(duì)多模態(tài)性能,技術(shù)報(bào)告涉及多個(gè)基準(zhǔn)測(cè)試,包括多模態(tài)推理、圖表與文檔、自然圖像和視頻理解四個(gè)方面,共有15個(gè)圖像理解任務(wù)和6個(gè)視頻理解任務(wù)。


總的來說,除了一個(gè)測(cè)試,1.5。 Pro的表現(xiàn)可以超過或與1.0相同。 Ultra相當(dāng),而且輕便1.5 在大多數(shù)測(cè)試中,F(xiàn)lash超過1.0 Pro。


能夠看見1.5 在多模態(tài)推理的4個(gè)基準(zhǔn)測(cè)試中,Pro得到了改進(jìn)。


1.5 Pro實(shí)現(xiàn)了從47.9%到62.2%的提升,甚至達(dá)到了94.4%和1.5%的Ai2D檢測(cè)水平。 Flash也得到91.7%的高分。


對(duì)多模態(tài)大模型、圖表和文檔的理解更具挑戰(zhàn)性,因?yàn)橐獪?zhǔn)確地分析和推理圖像信息。


Gemini 1.5 在ChartQA,Pro獲得了87.2%的SOTA結(jié)果。


在TAT-DQA測(cè)試中,分?jǐn)?shù)為1.0。 9.9%的Pro升至37.8%,1.5% 與1.00相比,F(xiàn)lash Ultra也有近10%的提升。


另外,團(tuán)隊(duì)還創(chuàng)建了BetterQA等9種不相交的能力評(píng)估。資料顯示,與上一代相比,1.0 Pro,1.5 Pro總體增長(zhǎng)超過20%。


關(guān)注模型對(duì)物理世界的認(rèn)知和空間推理能力,對(duì)自然圖像理解進(jìn)行檢測(cè)。


專用V*檢測(cè),1.5 SEAL,Pro和測(cè)試提出者發(fā)布的模型,幾乎是一樣的。


在Blink測(cè)試中,人類擅長(zhǎng)但不擅長(zhǎng)模型,1.5 Pro實(shí)現(xiàn)了45.1%(1.0 Pro)在61.4%的增長(zhǎng)之前,F(xiàn)lash的成績(jī)?nèi)匀桓哂?.00(56.5%) Ultra(51.7%)。


除了「海底撈針」,這個(gè)團(tuán)隊(duì)還為Geminini 1.5 在其它視頻理解方面,Pro進(jìn)行了基準(zhǔn)測(cè)試,但是改進(jìn)沒有前三個(gè)方面那么明顯。


與2月份發(fā)布的Gemininini相比,在VATEX英語(yǔ)和中文兩項(xiàng)測(cè)試中, 1.5 Pro技術(shù)報(bào)告,經(jīng)過三個(gè)月的訓(xùn)練,提高不超過2分。


檢測(cè)YouCook2時(shí),1.5 似乎Pro永遠(yuǎn)無法達(dá)到1.0。 與2月份技術(shù)報(bào)告中的134.2相比,Ultra的135.4分降至最新的106.5分。


有趣的是,在OpenEQA零樣本測(cè)試中,1.5 Flash得分63.1,甚至超過1.5。 Pro的57.9。由于1.55,技術(shù)報(bào)告解釋 Pro拒絕回答某些問題。


2月版


對(duì)比GPT-4、Claude 3優(yōu)勢(shì)明顯


下一步,再看橫向?qū)Ρ?,新升?jí)的1.5。 Pro與GPT-4、相比之下,Claude模型的性能如何?


改善模型診斷能力

下面顯示的是,在2000個(gè)MRCR任務(wù)案例中,字符串相似度累計(jì)平均分?jǐn)?shù)與前后文長(zhǎng)度之間的函數(shù)關(guān)系。


在和GPT-4 Turbo和Claude 在對(duì)比2.1時(shí),研究人員發(fā)現(xiàn)8K和20K的短語(yǔ)分別為1.5。 Pro和1.5 Flash的性能比這兩個(gè)模型要好得多。


1.5,隨著前后文長(zhǎng)度的增加 Pro和1.5 Flash的性能下降幅度大大縮小,最多可以達(dá)到100萬(wàn)個(gè)token。


將小語(yǔ)種Kalamang翻譯成英語(yǔ)的量化結(jié)果如下。


新升級(jí)的1.5 在喂了半本書,甚至整本書的數(shù)據(jù)之后,Pro的性能都有了很大的提高,比GPT-4還要好。 Turbo和Claude 3的表現(xiàn)。



但是,在將英語(yǔ)翻譯成Kalamang語(yǔ)言的量化結(jié)果中,1.5 Pro的勝率也是最高的。



低資源機(jī)器翻譯前后文拓展

再來看,在「低資源」在機(jī)器翻譯中,模型前后文學(xué)學(xué)習(xí)拓展(Scaling)表現(xiàn)。


1.5隨樣品數(shù)量的增加而增加 Pro的翻譯性能越來越好,大大超越了GPT-4 Turbo。



QA,長(zhǎng)前后文本

1.5針對(duì)長(zhǎng)文本的問答 在710k左右的文本中,Pro的表現(xiàn)明顯優(yōu)于GPT-4 Turbo。此外,在RAG的加持下,超越了無前后文,支持4k上下文的1.5。 Pro。



長(zhǎng)前后文音頻

每一個(gè)模型的單詞錯(cuò)誤率在音頻長(zhǎng)上下文的測(cè)試中表現(xiàn)如何?


能看到,1.5 在OpenAI中,Pro只有5.5%的Whisper模型錯(cuò)誤率高達(dá)12.5%。


但是和2月份的報(bào)告相比,1.5 在Pro的音頻長(zhǎng)度下,單詞的錯(cuò)誤率仍然明顯下降。


2月版


QA長(zhǎng)前后文視頻

1.5小時(shí)視頻問答任務(wù), 在不同的標(biāo)準(zhǔn)上,Pro的準(zhǔn)確性與3分鐘視頻任務(wù)的準(zhǔn)確性基本一致。


再次看看去年2月版的對(duì)比,1.5 從最高0.643到0.722,Pro在一小時(shí)任務(wù)中的準(zhǔn)確率有了很大的提高。另外,在3分鐘視頻QA任務(wù)中,從0.636上升到0.727。


2月版


在1H-VideoQA測(cè)試中,團(tuán)隊(duì)在一個(gè)小時(shí)的視頻中每秒取出一幀圖片,最后在線性下取樣到16幀或150幀,分別輸入GPT-4V和Geminini。 問答1.5。


無論幀數(shù)多少,Gemini 1.5 Pro的性能比GPT-4V強(qiáng),其中16幀測(cè)試的優(yōu)勢(shì)最為明顯(36.5% vs. 45.2%)。


看完整個(gè)視頻后再回答,Gemini 1.5 Pro從2月份的64.3%提高到72.2%。



2月版


長(zhǎng)期前后規(guī)劃

「推理」和「規(guī)劃」雖然LLM在推理上取得了顯著的進(jìn)步,但是技能對(duì)于解決問題還是非常重要的。


本報(bào)告特別呈現(xiàn)了Geminini。 規(guī)劃能力評(píng)估1.5涉及移動(dòng)積木、安排物流路線、室內(nèi)導(dǎo)航、規(guī)劃時(shí)間表、旅行路線等任務(wù)場(chǎng)景。


在測(cè)試過程中,模型必須根據(jù)給定的任務(wù)一次快速生成解決方案,類似于人類?!割^腦風(fēng)暴」過程。


總體上,Gemini 1.5 在大多數(shù)情況下,Pro的表現(xiàn)優(yōu)于GPT。 4 Turbo,不但可以在少樣本時(shí)做好計(jì)劃,而且可以更有效地利用上下文信息。


更加輕巧的Gemini 1.5 Flash的表現(xiàn)一直不敵Geminini。 1.5 Pro,但是在幾乎一半的情況下,可以和GPT-4 Turbo的表現(xiàn)是相當(dāng)?shù)摹?/p>


GPT-4 在BlocksWorld中,Turbo的零樣本表現(xiàn)接近于零,而Gemini 1.5 Pro和Flash分別達(dá)到35%和26%。


Calendar GPT的1-shot精度在10%以下,Scheduling也是如此,而1.5。 達(dá)到33%的Pro。


1.5隨樣品數(shù)量的增加而增加。 雖然GPT-44-Pro的表現(xiàn)基本持續(xù)提升, 當(dāng)樣本增加到一定程度時(shí),Turbo會(huì)呈現(xiàn)下降趨勢(shì),甚至在Logistics中持續(xù)下降。


比如Calendarar 在Scheduling中,當(dāng)樣本數(shù)逐漸增加到80-shot時(shí),GPT-4 Turbo和1.5 Flash的準(zhǔn)確率只有38%,比Gemini還要高。 1.5 Pro降低了32%。


之后增加到400-shot時(shí),1.5 Pro已經(jīng)達(dá)到了77%的準(zhǔn)確率,而GPT仍然徘徊在50%左右。


非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)分析任務(wù)

現(xiàn)實(shí)世界中的大多數(shù)數(shù)據(jù),如圖像和對(duì)話,仍然是非結(jié)構(gòu)化的。


為了將圖像中包含的信息提取到結(jié)構(gòu)化數(shù)據(jù)表中,研究人員向LLM展示了一組1024張圖像。


圖17顯示了從圖像中獲取不同類型信息的準(zhǔn)確性結(jié)果。


Gemini 1.5 在所有屬性提取中,Pro的準(zhǔn)確性提高了9%(平方根)。與GPT-4相比, Turbo,1.5 Pro提高了27%。


但是,在評(píng)估時(shí),Claude 3 API不能分析超過20個(gè)圖像,所以Claude 3 最終限制了Opus。


另外,數(shù)據(jù)顯示,1.5 Pro在處理更多圖像時(shí)會(huì)帶來持續(xù)更好的效果。這表明該模型可以有效地使用額外和更長(zhǎng)的前后文本。


對(duì)GPT-4來說 對(duì)于Turbo來說,隨著提供的圖像的增加,其準(zhǔn)確性會(huì)降低。


參考最新技術(shù)報(bào)告的更多細(xì)節(jié)。


參考資料:


https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/


https://x.com/JeffDean/status/1791522915021627438


https://x.com/sundarpichai/status/1791582982870089752


本文來自微信微信官方賬號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com