亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<bdo id="ozxyv"><mark id="ozxyv"><strong id="ozxyv"></strong></mark></bdo>

<label id="ozxyv"></label>

<label id="ozxyv"></label>

<center id="ozxyv"></center>

Gemini谷歌數(shù)學(xué)版解決奧運(yùn)難題，堪比人類數(shù)學(xué)家。

2024-05-23

四個(gè)月的迭代，讓Gemini 1.5 Pro已經(jīng)成為世界上最強(qiáng)的LLM(幾乎)。

在谷歌I/O發(fā)布會(huì)上，劈柴宣布Geminini。 1.5 Pro系列升級(jí)，包括前后200k的支持，超過35種語(yǔ)言。

同時(shí)，新成員Geminini 1.5 Flash推出，設(shè)計(jì)體積更小，運(yùn)行更快，還支持前后100k。

近期，Gemini 1.5 最新版本的Pro技術(shù)報(bào)告已經(jīng)發(fā)布。

論文地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

報(bào)告顯示，升級(jí)后的模型Gemini 1.5 Pro，所有關(guān)鍵基準(zhǔn)測(cè)試都取得了顯著進(jìn)展。

簡(jiǎn)而言之，1.5 Pro的性能已經(jīng)超越「超大杯」1.0 Ultra，而1.5 Flash(最快模型)性能接近1.0 Ultra。

甚至，新的Geminini。 1.5 Pro和Gemini 1.5 在大多數(shù)文本和視覺測(cè)試中，F(xiàn)lash的性能仍然優(yōu)于GPT-4。 Turbo。

Jeff Dean發(fā)表了一篇文章，Gemini 1.5 Pro「數(shù)學(xué)定制版」在基準(zhǔn)測(cè)試中，91.1%的成績(jī)被打破。

而且三年前的今天，SOTA只有6.9%。

而且，數(shù)學(xué)標(biāo)準(zhǔn)版本 Gemini 1.5 在數(shù)學(xué)標(biāo)準(zhǔn)方面，Pro的表現(xiàn)與人類專家相當(dāng)。

三年來，數(shù)學(xué)評(píng)估暴漲84.2%

對(duì)于這個(gè)「數(shù)學(xué)定制版」該團(tuán)隊(duì)采用了多種來自數(shù)學(xué)競(jìng)賽的基準(zhǔn)測(cè)試來評(píng)估Gemini的能力，包括MATH。、AIME、Math HidemMathMath，Odyssey和團(tuán)隊(duì)內(nèi)部開發(fā)的測(cè)試、IMO-Bench等。

結(jié)果表明，在所有測(cè)試中，Gemini 1.5 Pro「數(shù)學(xué)定制版」都明顯優(yōu)于Claude 3 Opus和GPT-4 Turbo，與通用版本相比，1.5 Pro有了顯著的改進(jìn)。

特別是在MATH測(cè)試中取得了91.1%的突破性成績(jī)，并且不需要使用任何外部工具，如定理證書庫(kù)或谷歌搜索，這與人類專家的水平相當(dāng)。

另外，集中在AIME檢測(cè)中，Gemini 1.5 Pro「數(shù)學(xué)定制版」可以解決的問題數(shù)量是其它模型的4倍。

這里有兩個(gè)亞太數(shù)學(xué)奧林匹克競(jìng)賽，曾經(jīng)讓之前的模型無計(jì)可施。（APMO）題。

在這些例子中，上面的例子非常有代表性，因?yàn)樗且粋€(gè)證明問題，而非計(jì)算問題。

對(duì)于這一點(diǎn)，Gemini給出的解決方案不僅是直截了當(dāng)?shù)?，而且非常重要?！钙痢埂?/p>

Gemini 1.5 全面提升Pro核心性能

文本評(píng)定

除數(shù)學(xué)外，升級(jí)后的1.5 在推理、編碼、多模態(tài)多項(xiàng)基準(zhǔn)測(cè)試中，Pro取得了顯著的優(yōu)勢(shì)。

甚至連主推導(dǎo)速度都是1.5。 Flash，在性能上也不輸1.0 Ultra。

尤其在MMLU通用語(yǔ)言邏輯基準(zhǔn)測(cè)試中，Gemini 1.5 在正常的5個(gè)樣本設(shè)置中，Pro得分為85.9%，在大多數(shù)投票設(shè)置中得分為91.7%，超過GPT-4。 Turbo。

相對(duì)于2月份出版的技術(shù)報(bào)告，新升級(jí)1.5 在代碼的兩個(gè)標(biāo)準(zhǔn)中，Pro有了很大的提高，從71.9%上升到84.1%（HumanEval），Natural22.7%上升到82.6%Code）。

新升級(jí)1.5，多語(yǔ)種基準(zhǔn)測(cè)試 Pro的能力略有下降。

另外，在5月份的報(bào)告中，對(duì)數(shù)學(xué)和推理能力進(jìn)行分離評(píng)估，新升級(jí)1.5。從91.7%到90.8%，Pro明顯下降。

MMLU的性能在推理測(cè)試中從81.9%提高到85.9%。

2月版

對(duì)于函數(shù)調(diào)用，1.5 除了多個(gè)函數(shù)之外，Pro在多個(gè)任務(wù)中獲得了最高分。1.5 在多個(gè)函數(shù)任務(wù)中，F(xiàn)lash獲得了領(lǐng)先優(yōu)勢(shì)。

對(duì)于指令調(diào)優(yōu)，1.5 面對(duì)更長(zhǎng)時(shí)間的指令1326提醒，Pro的響應(yīng)精度最高。而且406的指令更短，1.00 Ultra的表現(xiàn)更加出色。

涉及到更專業(yè)的知識(shí)問答，1.5 幾乎和1.5一樣，Pro準(zhǔn)確 Flah持平，僅差0.6%，但都明顯優(yōu)于1.0。 Pro和1.0 Ultra。

對(duì)于STEM前后的問答任務(wù)，在Qasper數(shù)據(jù)上，Gemini 提高1.0和1.5的準(zhǔn)確性，同時(shí)顯著降低不準(zhǔn)確性。

我們來看看喜好的結(jié)果，根據(jù)不同的提醒和1.0。與Pro相比，1.5 Pro和1.5 Flash的分?jǐn)?shù)相對(duì)較高。

多模態(tài)評(píng)定

針對(duì)多模態(tài)性能，技術(shù)報(bào)告涉及多個(gè)基準(zhǔn)測(cè)試，包括多模態(tài)推理、圖表與文檔、自然圖像和視頻理解四個(gè)方面，共有15個(gè)圖像理解任務(wù)和6個(gè)視頻理解任務(wù)。

總的來說，除了一個(gè)測(cè)試，1.5。 Pro的表現(xiàn)可以超過或與1.0相同。 Ultra相當(dāng)，而且輕便1.5 在大多數(shù)測(cè)試中，F(xiàn)lash超過1.0 Pro。

能夠看見1.5 在多模態(tài)推理的4個(gè)基準(zhǔn)測(cè)試中，Pro得到了改進(jìn)。

1.5 Pro實(shí)現(xiàn)了從47.9%到62.2%的提升，甚至達(dá)到了94.4%和1.5%的Ai2D檢測(cè)水平。 Flash也得到91.7%的高分。

對(duì)多模態(tài)大模型、圖表和文檔的理解更具挑戰(zhàn)性，因?yàn)橐獪?zhǔn)確地分析和推理圖像信息。

Gemini 1.5 在ChartQA，Pro獲得了87.2%的SOTA結(jié)果。

在TAT-DQA測(cè)試中，分?jǐn)?shù)為1.0。 9.9%的Pro升至37.8%，1.5% 與1.00相比，F(xiàn)lash Ultra也有近10%的提升。

另外，團(tuán)隊(duì)還創(chuàng)建了BetterQA等9種不相交的能力評(píng)估。資料顯示，與上一代相比，1.0 Pro，1.5 Pro總體增長(zhǎng)超過20%。

關(guān)注模型對(duì)物理世界的認(rèn)知和空間推理能力，對(duì)自然圖像理解進(jìn)行檢測(cè)。

專用V*檢測(cè)，1.5 SEAL，Pro和測(cè)試提出者發(fā)布的模型，幾乎是一樣的。

在Blink測(cè)試中，人類擅長(zhǎng)但不擅長(zhǎng)模型，1.5 Pro實(shí)現(xiàn)了45.1%(1.0 Pro）在61.4%的增長(zhǎng)之前，F(xiàn)lash的成績(jī)?nèi)匀桓哂?.00(56.5%) Ultra（51.7%）。

除了「海底撈針」，這個(gè)團(tuán)隊(duì)還為Geminini 1.5 在其它視頻理解方面，Pro進(jìn)行了基準(zhǔn)測(cè)試，但是改進(jìn)沒有前三個(gè)方面那么明顯。

與2月份發(fā)布的Gemininini相比，在VATEX英語(yǔ)和中文兩項(xiàng)測(cè)試中， 1.5 Pro技術(shù)報(bào)告，經(jīng)過三個(gè)月的訓(xùn)練，提高不超過2分。

檢測(cè)YouCook2時(shí)，1.5 似乎Pro永遠(yuǎn)無法達(dá)到1.0。與2月份技術(shù)報(bào)告中的134.2相比，Ultra的135.4分降至最新的106.5分。

有趣的是，在OpenEQA零樣本測(cè)試中，1.5 Flash得分63.1，甚至超過1.5。 Pro的57.9。由于1.55，技術(shù)報(bào)告解釋 Pro拒絕回答某些問題。

2月版

對(duì)比GPT-4、Claude 3優(yōu)勢(shì)明顯

下一步，再看橫向?qū)Ρ?，新升?jí)的1.5。 Pro與GPT-4、相比之下，Claude模型的性能如何？

改善模型診斷能力

下面顯示的是，在2000個(gè)MRCR任務(wù)案例中，字符串相似度累計(jì)平均分?jǐn)?shù)與前后文長(zhǎng)度之間的函數(shù)關(guān)系。

在和GPT-4 Turbo和Claude 在對(duì)比2.1時(shí)，研究人員發(fā)現(xiàn)8K和20K的短語(yǔ)分別為1.5。 Pro和1.5 Flash的性能比這兩個(gè)模型要好得多。

1.5，隨著前后文長(zhǎng)度的增加 Pro和1.5 Flash的性能下降幅度大大縮小，最多可以達(dá)到100萬(wàn)個(gè)token。

將小語(yǔ)種Kalamang翻譯成英語(yǔ)的量化結(jié)果如下。

新升級(jí)的1.5 在喂了半本書，甚至整本書的數(shù)據(jù)之后，Pro的性能都有了很大的提高，比GPT-4還要好。 Turbo和Claude 3的表現(xiàn)。

但是，在將英語(yǔ)翻譯成Kalamang語(yǔ)言的量化結(jié)果中，1.5 Pro的勝率也是最高的。

低資源機(jī)器翻譯前后文拓展

再來看，在「低資源」在機(jī)器翻譯中，模型前后文學(xué)學(xué)習(xí)拓展（Scaling）表現(xiàn)。

1.5隨樣品數(shù)量的增加而增加 Pro的翻譯性能越來越好，大大超越了GPT-4 Turbo。

QA，長(zhǎng)前后文本

1.5針對(duì)長(zhǎng)文本的問答在710k左右的文本中，Pro的表現(xiàn)明顯優(yōu)于GPT-4 Turbo。此外，在RAG的加持下，超越了無前后文，支持4k上下文的1.5。 Pro。

長(zhǎng)前后文音頻

每一個(gè)模型的單詞錯(cuò)誤率在音頻長(zhǎng)上下文的測(cè)試中表現(xiàn)如何？

能看到，1.5 在OpenAI中，Pro只有5.5%的Whisper模型錯(cuò)誤率高達(dá)12.5%。

但是和2月份的報(bào)告相比，1.5 在Pro的音頻長(zhǎng)度下，單詞的錯(cuò)誤率仍然明顯下降。

2月版

QA長(zhǎng)前后文視頻

1.5小時(shí)視頻問答任務(wù)，在不同的標(biāo)準(zhǔn)上，Pro的準(zhǔn)確性與3分鐘視頻任務(wù)的準(zhǔn)確性基本一致。

再次看看去年2月版的對(duì)比，1.5 從最高0.643到0.722，Pro在一小時(shí)任務(wù)中的準(zhǔn)確率有了很大的提高。另外，在3分鐘視頻QA任務(wù)中，從0.636上升到0.727。

2月版

在1H-VideoQA測(cè)試中，團(tuán)隊(duì)在一個(gè)小時(shí)的視頻中每秒取出一幀圖片，最后在線性下取樣到16幀或150幀，分別輸入GPT-4V和Geminini。問答1.5。

無論幀數(shù)多少，Gemini 1.5 Pro的性能比GPT-4V強(qiáng)，其中16幀測(cè)試的優(yōu)勢(shì)最為明顯(36.5% vs. 45.2%）。

看完整個(gè)視頻后再回答，Gemini 1.5 Pro從2月份的64.3%提高到72.2%。

2月版

長(zhǎng)期前后規(guī)劃

「推理」和「規(guī)劃」雖然LLM在推理上取得了顯著的進(jìn)步，但是技能對(duì)于解決問題還是非常重要的。

本報(bào)告特別呈現(xiàn)了Geminini。規(guī)劃能力評(píng)估1.5涉及移動(dòng)積木、安排物流路線、室內(nèi)導(dǎo)航、規(guī)劃時(shí)間表、旅行路線等任務(wù)場(chǎng)景。

在測(cè)試過程中，模型必須根據(jù)給定的任務(wù)一次快速生成解決方案，類似于人類?！割^腦風(fēng)暴」過程。

總體上，Gemini 1.5 在大多數(shù)情況下，Pro的表現(xiàn)優(yōu)于GPT。 4 Turbo，不但可以在少樣本時(shí)做好計(jì)劃，而且可以更有效地利用上下文信息。

更加輕巧的Gemini 1.5 Flash的表現(xiàn)一直不敵Geminini。 1.5 Pro，但是在幾乎一半的情況下，可以和GPT-4 Turbo的表現(xiàn)是相當(dāng)?shù)摹?/p>

GPT-4 在BlocksWorld中，Turbo的零樣本表現(xiàn)接近于零，而Gemini 1.5 Pro和Flash分別達(dá)到35%和26%。

Calendar GPT的1-shot精度在10%以下，Scheduling也是如此，而1.5。達(dá)到33%的Pro。

1.5隨樣品數(shù)量的增加而增加。雖然GPT-44-Pro的表現(xiàn)基本持續(xù)提升，當(dāng)樣本增加到一定程度時(shí)，Turbo會(huì)呈現(xiàn)下降趨勢(shì)，甚至在Logistics中持續(xù)下降。

比如Calendarar 在Scheduling中，當(dāng)樣本數(shù)逐漸增加到80-shot時(shí)，GPT-4 Turbo和1.5 Flash的準(zhǔn)確率只有38%，比Gemini還要高。 1.5 Pro降低了32%。

之后增加到400-shot時(shí)，1.5 Pro已經(jīng)達(dá)到了77%的準(zhǔn)確率，而GPT仍然徘徊在50%左右。

非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)分析任務(wù)

現(xiàn)實(shí)世界中的大多數(shù)數(shù)據(jù)，如圖像和對(duì)話，仍然是非結(jié)構(gòu)化的。

為了將圖像中包含的信息提取到結(jié)構(gòu)化數(shù)據(jù)表中，研究人員向LLM展示了一組1024張圖像。

圖17顯示了從圖像中獲取不同類型信息的準(zhǔn)確性結(jié)果。

Gemini 1.5 在所有屬性提取中，Pro的準(zhǔn)確性提高了9%(平方根)。與GPT-4相比， Turbo，1.5 Pro提高了27%。

但是，在評(píng)估時(shí)，Claude 3 API不能分析超過20個(gè)圖像，所以Claude 3 最終限制了Opus。

另外，數(shù)據(jù)顯示，1.5 Pro在處理更多圖像時(shí)會(huì)帶來持續(xù)更好的效果。這表明該模型可以有效地使用額外和更長(zhǎng)的前后文本。

對(duì)GPT-4來說對(duì)于Turbo來說，隨著提供的圖像的增加，其準(zhǔn)確性會(huì)降低。

參考最新技術(shù)報(bào)告的更多細(xì)節(jié)。

參考資料：

https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/

https://x.com/JeffDean/status/1791522915021627438

https://x.com/sundarpichai/status/1791582982870089752

本文來自微信微信官方賬號(hào)“新智元”（ID：AI_era），作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

第一波平躺的年輕人，現(xiàn)在怎么樣了？

周廣州旅游商學(xué)生職業(yè)教育活動(dòng)展示風(fēng)采

為什麼每個(gè)人都在轉(zhuǎn)美團(tuán)拼飯？

全體員工Ai教育？這個(gè)研究貫通訓(xùn)練？報(bào)考北京理工大學(xué)的考生重點(diǎn)關(guān)注

中國(guó)科學(xué)院大學(xué)：這15個(gè)專業(yè)招生，改革省要求選擇物理。化學(xué)

<li id="qmqa9"></li><label id="qmqa9"><legend id="qmqa9"></legend></label>

<style id="qmqa9"><delect id="qmqa9"></delect></style>

<center id="qmqa9"></center>