亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<span id="jzupd"></span>

<rt id="jzupd"><small id="jzupd"></small></rt>

Karpathy 4小時AI課程上線，初學者將從零開始構建GPT-2。

2024-06-14

【導讀】距離上次的Karpathy AI課程更新后，還有一個多月的時間。這一次，他帶著超詳細的4小時課程——GPT-2模型，從零開始實現1.24億參數。

Karpathy大神新一期AI大課又上線了。

這次，他說的是——GPT-2模型重新開始實現124M大小，足有4小時。

Karpathy總結了這段視頻的兩個字：全面。

以GPT-2(124M)模型結束，我們從空文件開始。

換言之，這就是手把手教程，即使是AI新手看完之后，也會建立GPT-2。

Karpathy說這是從0到英雄。（Zero To Hero）最新視頻在系列中。

看看過去的Zero To 在Hero系列中，最長的視頻只有2小時25分，這4小時完全創(chuàng)下了最新的記錄。

在帖子中，他highlight在最新視頻中發(fā)布了一些關鍵內容：

- 首先，構建GPT-2神經網絡。

- 接著對其進行提升，實現高效訓練。

- 參考GPT-2和GPT-3論文，設置訓練操作優(yōu)化及超級參數。

- 啟動模型評估

- 祈求一切順利，唾感

- 等到第二天早晨，就可以查看模型結果，欣賞模型產生的有趣導出。

短短幾個小時，視頻的播放量已達11萬次。

Karpathy說，這次，「過夜」練習結果，甚至接近GPT-3(124M)模型水平。

對了，Karpathy自己做的封面圖片，也很有意思，直接點擊英偉達GPU。

網民們在下面評論說，Karpathy就是我的神！

Alexandrr華裔超級天才 Wang說，「你們的視頻等于流行歌曲明星發(fā)布的新單曲?！?。

「Karpathy推出GPT-2『大片』，看看就完事了」。

錄像下面，許多網友紛紛為此提供免費課程「打賞」。

下一步，讓我們一起來看看這節(jié)課講了什么？

4小時大課，干貨滿滿

最初，Karpathy首先介紹了GPT-2的情況。

OpenAI于2019年首次發(fā)布了GPT-2模型，并發(fā)布了相關論文和代碼。

論文地址：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

而且這個視頻，就是要重現一個1.24億參數模型的GPT-2模型。

選擇這個參數的原因，要明確，GPT-2在發(fā)送之前會有一個小系列。（miniseries），其中有4個參數，最大的一個叫做GPT-2。

另外，你可以把模型放在X軸上，把各種下游指標放在Y軸上，然后就可以畫出Sacling了。 Law定律曲線?；旧?，下游任務的性能隨著模型規(guī)模的擴大而更好。

Transformer架構1.24億參數共有12層，通道768個，（channels）。

GPT-2發(fā)布已經是五年前的事了，但是現在復制要容易得多，對GPU計算的需求也沒有那么大，大概需要一個小時，10美元。

Karpathy說，自己訓練模型的GPU來自Lambdathy GPU Cloud，由于他認為這是在云中按需啟動GPU案例的最佳和最簡單的方法。

接著，第一步是加載GPT-2模型，進入GitHub源代碼庫，然后點擊modle.py。

可以看出，Tensorflow是用來編寫這個模型的。

Karpathy尷尬地說，「如今，我們很少使用它，直接開始使用更友好的Pytorch?！埂?/p>

Karpathy還選擇使用Hugginginging，以便更方便地再現。基于Transformer重建Face上的GPT-2代碼，更容易使用。

下一步，從Hugging開始。導入GPT-2模型在Face頁面上。

對GPT-2進行預訓練之前，如果想要再現1.5B模型，只需在gpt2后面，-xl。

接下來，Pytorch NN模塊最初被定義為以下類別，然后打印鍵值。

如下是，GPT-2不同參數值和形狀的模型內部，W 嵌入token的權重大小為50257， 768。

這個課程分為四個部分，下一步Karpathy從構建到參數微調都給出了非常詳細的介紹。

第一節(jié)是實施GPT-2 nn.模塊。

第2節(jié)是速戰(zhàn)速決，GPU混合精度，1000ms

Hyperpamats是第三節(jié)，AdamW，梯度裁切

四是等待結果！GPT-2、GPT-3復現對比

最后，睡覺得出結論，第二天再看結果。

與GPT-3相比，模型訓練的損失也在不斷減少。

最后，這4個小時的大課，小編就放在這里。

參考資料：

https://x.com/karpathy/status/1799949853289804266

https://www.youtube.com/watch?v=8pRSU81PU

本文來自微信微信官方賬號“新智元”（ID:AI_era），編輯：桃子，36氪經授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

Copilot微軟 GPTs下個月停止服務，發(fā)布僅3個月，卻因為不能盈利而殺人。

OpenAI在馬斯克悄然撤訴，xAI融資招聘成功，戰(zhàn)略拖延已經實現？

久違的大反擊？藥明康德，傳來重大消息

AI入場，預見智慧礦山的最終結局。

這兒有一群追逐日月星辰的人，帶你去看你從未見過的北京。

項目推薦

<label id="wlfkk"></label>

<span id="wlfkk"></span>

<i id="wlfkk"><meter id="wlfkk"></meter></i><label id="wlfkk"></label>

<label id="wlfkk"></label>