亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Karpathy 4小時AI課程上線,初學者將從零開始構建GPT-2。

2024-06-14

【導讀】距離上次的Karpathy AI課程更新后,還有一個多月的時間。這一次,他帶著超詳細的4小時課程——GPT-2模型,從零開始實現1.24億參數。


Karpathy大神新一期AI大課又上線了。


這次,他說的是——GPT-2模型重新開始實現124M大小,足有4小時。


Karpathy總結了這段視頻的兩個字:全面。


以GPT-2(124M)模型結束,我們從空文件開始。



換言之,這就是手把手教程,即使是AI新手看完之后,也會建立GPT-2。


Karpathy說這是從0到英雄。(Zero To Hero)最新視頻在系列中。


看看過去的Zero To 在Hero系列中,最長的視頻只有2小時25分,這4小時完全創(chuàng)下了最新的記錄。


在帖子中,他highlight在最新視頻中發(fā)布了一些關鍵內容:


- 首先,構建GPT-2神經網絡。


- 接著對其進行提升,實現高效訓練。


- 參考GPT-2和GPT-3論文,設置訓練操作優(yōu)化及超級參數。


- 啟動模型評估


- 祈求一切順利,唾感


- 等到第二天早晨,就可以查看模型結果,欣賞模型產生的有趣導出。


短短幾個小時,視頻的播放量已達11萬次。


Karpathy說,這次,「過夜」練習結果,甚至接近GPT-3(124M)模型水平。


對了,Karpathy自己做的封面圖片,也很有意思,直接點擊英偉達GPU。



網民們在下面評論說,Karpathy就是我的神!


Alexandrr華裔超級天才 Wang說,「你們的視頻等于流行歌曲明星發(fā)布的新單曲?!?。


「Karpathy推出GPT-2『大片』,看看就完事了」。


錄像下面,許多網友紛紛為此提供免費課程「打賞」。


下一步,讓我們一起來看看這節(jié)課講了什么?


4小時大課,干貨滿滿


最初,Karpathy首先介紹了GPT-2的情況。


OpenAI于2019年首次發(fā)布了GPT-2模型,并發(fā)布了相關論文和代碼。



論文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


而且這個視頻,就是要重現一個1.24億參數模型的GPT-2模型。


選擇這個參數的原因,要明確,GPT-2在發(fā)送之前會有一個小系列。(miniseries),其中有4個參數,最大的一個叫做GPT-2。



另外,你可以把模型放在X軸上,把各種下游指標放在Y軸上,然后就可以畫出Sacling了。 Law定律曲線?;旧?,下游任務的性能隨著模型規(guī)模的擴大而更好。



Transformer架構1.24億參數共有12層,通道768個,(channels)。


GPT-2發(fā)布已經是五年前的事了,但是現在復制要容易得多,對GPU計算的需求也沒有那么大,大概需要一個小時,10美元。


Karpathy說,自己訓練模型的GPU來自Lambdathy GPU Cloud,由于他認為這是在云中按需啟動GPU案例的最佳和最簡單的方法。


接著,第一步是加載GPT-2模型,進入GitHub源代碼庫,然后點擊modle.py。


可以看出,Tensorflow是用來編寫這個模型的。


Karpathy尷尬地說,「如今,我們很少使用它,直接開始使用更友好的Pytorch?!埂?/p>


Karpathy還選擇使用Hugginginging,以便更方便地再現。 基于Transformer重建Face上的GPT-2代碼,更容易使用。


下一步,從Hugging開始。 導入GPT-2模型在Face頁面上。


對GPT-2進行預訓練之前,如果想要再現1.5B模型,只需在gpt2后面,-xl。


接下來,Pytorch NN模塊最初被定義為以下類別,然后打印鍵值。


如下是,GPT-2不同參數值和形狀的模型內部,W 嵌入token的權重大小為50257, 768。


這個課程分為四個部分,下一步Karpathy從構建到參數微調都給出了非常詳細的介紹。


第一節(jié)是實施GPT-2 nn.模塊。


第2節(jié)是速戰(zhàn)速決,GPU混合精度,1000ms


Hyperpamats是第三節(jié),AdamW,梯度裁切


四是等待結果!GPT-2、GPT-3復現對比



最后,睡覺得出結論,第二天再看結果。



與GPT-3相比,模型訓練的損失也在不斷減少。



最后,這4個小時的大課,小編就放在這里。


參考資料:


https://x.com/karpathy/status/1799949853289804266


https://www.youtube.com/watch?v=8pRSU81PU


本文來自微信微信官方賬號“新智元”(ID:AI_era),編輯:桃子,36氪經授權發(fā)布。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com