亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

PyTorch團(tuán)隊(duì)首發(fā)技術(shù)路線圖,近百頁文檔披露2024年下半年發(fā)展方向。

2024-07-16

【導(dǎo)讀】最近,PyTorch團(tuán)隊(duì)首次公布了由內(nèi)部技術(shù)文檔直接修改的開發(fā)路線圖,揭示了這一經(jīng)典開源庫的下一步發(fā)展趨勢。


假設(shè)您使用Python在AI領(lǐng)域進(jìn)行開發(fā),那么PyTorch一定是您的老朋友之一。2017年,Meta AI在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域發(fā)布了開源庫,現(xiàn)在已經(jīng)到了第七年。


依據(jù)Assembly AI HuggingFace上最受歡迎的top2021年統(tǒng)計(jì)數(shù)據(jù) 所有30個模型都可以在PyTorch上運(yùn)行,92%的模型都是PyTorch專有的,這讓包括TensorFlow在內(nèi)的所有競爭對手都望塵莫及。



七月十日,PyTorch的工程團(tuán)隊(duì)首次公開發(fā)布了他們的路線圖文檔,討論了2024年下半年的發(fā)展趨勢。


Soumith團(tuán)隊(duì),Meta共同創(chuàng)始人,領(lǐng)導(dǎo)PyTorch團(tuán)隊(duì) 在推特上,Chintala官方宣布了這一消息。


他指出,希望公開工程師的R&D動機(jī)和目標(biāo)。


「雖然所有PyTorch開發(fā)都是在GitHub上公開的,但是每一個PyTorch附屬公司團(tuán)隊(duì)編寫的實(shí)際計(jì)劃和路線圖文檔都沒有公開,所以我們決定做出改變,以提高透明度?!?/p>


Gottttttt,PyTorch團(tuán)隊(duì)的技術(shù)項(xiàng)目經(jīng)理 在論壇上,Brath也發(fā)表了類似的聲明。


我們一直在思考如何在PyTorch上分享團(tuán)隊(duì)的工作路線圖。我們每半年做一次計(jì)劃,所以這些都是2024年H24年P(guān)yTorch的許多關(guān)鍵領(lǐng)域。 一些公開版本的OSS計(jì)劃。



這些文件基本上是PyTorch團(tuán)隊(duì)內(nèi)部的文檔和工作計(jì)劃。刪除一些內(nèi)容后,它們會發(fā)布成路線圖,其中包括以下幾個方面:


- 核心庫和核心性能


- 分布式


- torchune、Torchrec、TorchVision


- PyTorch Edge


- 數(shù)據(jù)加載(DataLoading)


- 編譯器的核心和部署


- 開發(fā)者基礎(chǔ)設(shè)施


每一份文件都包含至少三個部分,并以O(shè)KR的方式進(jìn)行:


- 背景


- 關(guān)注領(lǐng)域和目標(biāo)的Top5:目標(biāo)、關(guān)鍵結(jié)果、已知或未知風(fēng)險及相應(yīng)的減少措施(最多一頁)


- 提高工程水平的Top3~5個方面:BE Pillar分類、目標(biāo)、指標(biāo)/狀態(tài)/具體目標(biāo)、已知或未知風(fēng)險、緩解措施、影響/成本、優(yōu)先/自信水平(最多一頁)


其中BE Pillar可以看作是Meta為開發(fā)團(tuán)隊(duì)寫的?!肝寰潴鹧浴?,具體內(nèi)容如下:


BetterCode,BetterDoc,Empoweringteams,ModernCode,BetterArchitecture



「最多一頁」不知道有沒有開發(fā)人員戳到卷文檔的長度。畢竟文檔貴不貴,把很多開發(fā)需求簡化到一頁的內(nèi)容,不僅節(jié)省了同事的時間,也考驗(yàn)了作者的技能。


此外,Meta開發(fā)團(tuán)隊(duì)的一些優(yōu)秀想法也可以在文檔中看到,比如重視各模塊團(tuán)隊(duì)的合作,重視與外部合作伙伴的API集成和共同開發(fā),重視與開源社區(qū)和開發(fā)者的互動。


在推出ExecuTorch這樣的新代碼庫,或者希望提高PyTorch編譯器的知名度時,團(tuán)隊(duì)通常會從兩個方面著手:一是鉚足力量提高性能,將目標(biāo)直接推向SOTA。;另外一方面,從深度集成開始,提供更多開箱即用的例子。


或許,這些都是Meta多年來在開源領(lǐng)域如魚得水、風(fēng)生水起的基礎(chǔ)。


下面是對每一份文件內(nèi)容的部分進(jìn)行截取和歸納。


原文地址:https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226


核心庫和核心性能


TendorDictt包含了文檔中涉及的核心庫。、torchao、NN、TorchRL等等。


在性能方面,PyTorch團(tuán)隊(duì)提出了在模型訓(xùn)練和推理方面實(shí)現(xiàn)SOTA特性的目標(biāo),包括引入結(jié)構(gòu)優(yōu)化技術(shù)和高性能kernel,并與整個PyTorch技術(shù)棧組合在一起。


在過去的一年里,我們見證了GenAI的快速發(fā)展,許多支持研究領(lǐng)域設(shè)計(jì)的外部庫應(yīng)運(yùn)而生,但其中許多并不直接依賴PyTorch,這將威脅到PyTorch在科學(xué)研究領(lǐng)域的主導(dǎo)地位。


PyTorch將支持量化、稀疏化、MoE和低精度訓(xùn)練等常見的開發(fā)設(shè)計(jì),包括構(gòu)建模塊和API(主要集成在torchao中),幫助各種Transformer架構(gòu)的模型提高性能,以再次跟上節(jié)奏。


在PyTorch框架下,torchao庫可以支持研究者定制高性能的dtype。、layout和優(yōu)化技巧,將應(yīng)用范圍擴(kuò)展到訓(xùn)練、推理、調(diào)優(yōu)等各種場景。


另外,核心庫的更新將包括以下幾個方面:


- 自動優(yōu)化庫torchao已經(jīng)取得了突破性的成功。下一步,它將提高其代碼組織性,并將數(shù)值計(jì)算與核心數(shù)據(jù)庫分離。


- 對TendorDict的關(guān)鍵模塊化進(jìn)行處理,支持載入/存儲的實(shí)例化,并使其在eager模式下的啟動速度提高2倍


- 上半年繼續(xù)內(nèi)存映射載入(memory mapped load)在這方面的成功,模型載入/存儲的性能和安全性不斷提高


- 將TorchRL的花銷減少50%


- 加入對NoGIL的關(guān)鍵支持


- TORCH_env變量修復(fù)用戶反映的問題不起作用


文件中還提到要實(shí)現(xiàn)nn。.棄用transformer模塊,表示將發(fā)布一系列教程和用例,展示如何使用torch。.compile、sdpa、NJT、FlexAttention、custom_op、建立Transformer的torchao等模塊。


分布式


LLM的預(yù)訓(xùn)練通??缭綌?shù)十個甚至上千個GPU,而且由于模型參數(shù)值的逐步增加,單個GPU很難完成推理和微調(diào)。


所以,下一步PyTorch是對的?!阜植际健褂?jì)劃包括三個環(huán)節(jié):訓(xùn)練、推理和微調(diào)。建議實(shí)現(xiàn)超大規(guī)模分布式訓(xùn)練、高內(nèi)存效率微調(diào)和多主機(jī)分布式推理。


訓(xùn)練

PyTorch原生支持的并行方式主要包括以下幾種:


- 完全分塊數(shù)據(jù)并行(full sharded data parallel,F(xiàn)SDP)


- 混合分塊數(shù)據(jù)并行(hybrid sharding data parallel,HSDP)


- 張量并行(tensor parallel,TP)


- 流水線并行(pipeline parallel,PP)


- 序列并行(sequence parallel,SP)


- 前后文并行(context parallel,CP)


PyTorch希望在TorchTitan中進(jìn)一步模塊化各種并行模式,使開發(fā)者能夠根據(jù)需要隨意搭配N維并行。


特別是在文件中,需要對MoE和多模態(tài)這兩種新的結(jié)構(gòu)進(jìn)行支持,例如專家并行、路由算法優(yōu)化等。


分布式團(tuán)隊(duì)除了TorchTitan本身的更新外,還需要與編譯器團(tuán)隊(duì)進(jìn)一步密切合作,更好地與torch.集成compile模塊,為大規(guī)模分布式場景帶來額外的性能提升。


微調(diào)與推理

微調(diào):聯(lián)合torchtune,將FSDP2 LoRA在模型狀態(tài)詞典中投入使用/QLoRA方案,以及NF4量化模型狀態(tài)詞典。


推理:PP和DP已成為分布式API的關(guān)鍵,下一步需要關(guān)注torchtitan的分布式推理,支持大型PP。 異步TP模式,將給出經(jīng)典案例


文件中還提到,HuggingFace的推理API將從PiPPy轉(zhuǎn)移到PyTorch(由HuggingFace完成)。


torchtune、TorchRec、TorchVision


torchtune

推出torchtune旨在幫助客戶更方便地微調(diào)LLM,這也是官方給出的Llama模型微調(diào)方案。


由torchtune定義的「微調(diào)」范圍很廣,主要可概括為三類情景:


- 適應(yīng)特定領(lǐng)域數(shù)據(jù)或下游任務(wù)模型


- RLHFF等獎勵喜好建模、DPO等


- 訓(xùn)練過程包括蒸餾和量化。


下半年的更新將支持agent工作流的微調(diào),同時重點(diǎn)關(guān)注微調(diào)性能的提高。


團(tuán)隊(duì)將與compile團(tuán)隊(duì)合作、core、配合distributed等模塊,提供高效微調(diào),并在PyTorch生態(tài)系統(tǒng)中建立有代表性的微調(diào)性能標(biāo)準(zhǔn)。


由于torchtune也是一個較新的開源庫,因此與開源社區(qū)的互動也是必不可少的。


文件提出發(fā)布博客文章和教程,舉辦技術(shù)講座,提高用戶理解度;并且會定義量化指標(biāo)來衡量LLM生態(tài)中torchturn的貢獻(xiàn)份額。


torchtune除開源社區(qū)外,還將與至少一位合作伙伴一起參與其社區(qū),以促進(jìn)torchtune的應(yīng)用。


TorchVision

作為CV領(lǐng)域的絕對主導(dǎo),TorchVision的技術(shù)也比較成熟,所以在路線圖中提出的更新很少。


在圖像編碼/解碼空間中,團(tuán)隊(duì)將繼續(xù)朝著預(yù)處理方向努力,支持更多格式(例如WebP、HEIC)和平臺(如CUDA),并在GPU上提高jpeg格式的編碼/解碼性能。


TorchRec

TorchRec旨在在大規(guī)模推薦系統(tǒng)中提供常用的稀疏和并行原語,并在秋季推出第一個穩(wěn)定版TorchRechRech。 1.0。


Edge


當(dāng)前,開源庫ExecuTorch已推出Alpha版本,主要依靠torch。.compile和torch.export,用于支持移動終端和邊緣設(shè)備(例如AR//VR、模型分析、調(diào)試和推理可穿戴設(shè)備)。


下半年,Edge團(tuán)隊(duì)將在PyTorch生態(tài)中推出xecuTorchBeta版本,同時為Meta的Llama系列模型和其它開源模型提供解決方案。


主要目標(biāo)包括兩個方向。第一,為設(shè)備中的AI提供基本功能和可靠的基礎(chǔ)設(shè)施,包括:


- 保證C API穩(wěn)定性和Python


- 實(shí)現(xiàn)模型壓縮、代理緩存位置管理、數(shù)據(jù)與程序分離等一系列主要功能


第二,為這個新的代碼庫保駕護(hù)航,培養(yǎng)開源社區(qū)的知名度,并與Arm一起、Apple 與Qualcomm等公司保持良好的合作關(guān)系。


其中,社區(qū)知名度的目標(biāo)更加量化,要求代碼在GitHub上獲得3k標(biāo)星,復(fù)制500次。(fork)。有興趣吃瓜的人可以去密切關(guān)注一下,看看球隊(duì)能否在年底完成這個OKR。


數(shù)據(jù)加載


基于Apache HuggingFaceArow格式 隨著無內(nèi)存限制的高速載入/存儲,datasets庫近年來異軍突起,似乎搶走了PyTorch相關(guān)功能的風(fēng)頭。


在數(shù)據(jù)加載的文檔開始時,它提出了自豪感。為了讓TorchData庫再次出類拔萃,PyTorch在數(shù)據(jù)加載方面的主導(dǎo)地位再次確立。


要實(shí)現(xiàn)這一目標(biāo),需要使相關(guān)功能靈活、可擴(kuò)展、高性能、高內(nèi)存效率,同時實(shí)現(xiàn)傻瓜式操作,支持各種規(guī)模的多模式訓(xùn)練。


具體的更新目標(biāo)包括以下幾個方面:


- DataLoader的功能開發(fā)和接口都將實(shí)施GitHub優(yōu)先級原則,DataPipes和DataLoader v2將逐步被棄用,刪除


- 確保TorchTune、TorchTitan、HuggingFace、支持多數(shù)據(jù)、多模態(tài)數(shù)據(jù)載入TorchData之間的清晰邊界和良好的互通性


- 利用StatefulDataLoaderAPI,HuggingFace確保兼容性,并及時更新樣例和功能測試。


編譯器的核心和部署


經(jīng)過多年的發(fā)展,PyTorch編譯器的主要功能已經(jīng)得到了改進(jìn),目前迫切需要彌補(bǔ)的是對LLM和GenAI領(lǐng)域的更深層次的整合和更多的支持。


提出路線圖,要把torch.compile()將函數(shù)帶到LLM和GenAI的使用周期(推理、微調(diào)、預(yù)訓(xùn)練)的各個方面,使重要模型在發(fā)布時能夠配備原始的PyTorch編譯。


為實(shí)現(xiàn)這一目標(biāo),文檔提出了許多具體措施,例如與Torchtune和TorchTitan團(tuán)隊(duì)合作,提高編譯性能,并在下半年發(fā)布了至少兩個原生的PyTorch編譯版本,這些版本的知名度很高。


另外,編譯器可以添加可視化功能,在non-eager訓(xùn)練模式下生成一個模型圖,表達(dá)前向計(jì)算/后向傳播過程。


客戶支持也有很多計(jì)劃,比如提高系統(tǒng)的監(jiān)控性和可觀察性,幫助客戶調(diào)整和編譯自己的問題。關(guān)鍵目標(biāo)還包括建立客戶支持團(tuán)隊(duì),處理開發(fā)者在GitHub等平臺上發(fā)布的問題,針對幾個關(guān)鍵領(lǐng)域(數(shù)據(jù)、前后管理等)。).


參考資料:


https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226


https://x.com/soumithchintala/status/1811060935211049046


https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2023/


本文來自微信微信官方賬號“新智元”(ID:AI_era),編輯:喬楊,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com