北大團(tuán)隊(duì),打造AI時(shí)代的軟件基座
我們已經(jīng)邁入了一個(gè)高度智能化的時(shí)代。近年來(lái),ChatGPT等人工智能(Artificial Intelligence,AI)應(yīng)用不斷帶來(lái)驚喜。面對(duì)各種問(wèn)題和需求,人工智能之所以能夠表現(xiàn)出“智能”,一個(gè)很重要的原因是其背后有著強(qiáng)大的計(jì)算資源作為基礎(chǔ)支持?;谶@些計(jì)算資源,可以訓(xùn)練出高質(zhì)量的人工智能模型,幫助人們解決問(wèn)題。因此,如何充分運(yùn)用好超大規(guī)模的計(jì)算資源,就成了人工智能時(shí)代亟需解決的重要基礎(chǔ)問(wèn)題。
近年來(lái),來(lái)自北京大學(xué)計(jì)算機(jī)學(xué)院、人工智能研究院的青年學(xué)者,關(guān)注面向人工智能的基礎(chǔ)系統(tǒng)軟件這一領(lǐng)域,組成研究團(tuán)隊(duì),開展聯(lián)合研究,連續(xù)發(fā)表高質(zhì)量學(xué)術(shù)論文并多次獲獎(jiǎng),取得了重要的學(xué)術(shù)研究進(jìn)展,而且成果在工業(yè)界開展了大規(guī)模實(shí)踐,產(chǎn)生了積極的產(chǎn)業(yè)影響。
01
實(shí)現(xiàn)系統(tǒng)軟件“根”的突破
當(dāng)前以深度學(xué)習(xí)為代表的人工智能,本質(zhì)上是一種數(shù)據(jù)驅(qū)動(dòng)的智能,首先要從大量的數(shù)據(jù)中“學(xué)習(xí)”出一些規(guī)則生成一個(gè)模型(稱之為模型訓(xùn)練),然后要運(yùn)用這些規(guī)則來(lái)解決問(wèn)題(稱之為模型推理)。如果做個(gè)比喻,可以粗略地把模型訓(xùn)練過(guò)程當(dāng)作“看例題”,把推理過(guò)程當(dāng)作“寫作業(yè)”。人工智能可以做到在邊看例題的同時(shí)邊寫作業(yè)。不過(guò),用多少精力看例題,用多少精力寫作業(yè),以及這些精力如何分配得合理、高效和經(jīng)濟(jì),就不再是人工智能自身能夠解決的問(wèn)題,而必須要依賴底層的系統(tǒng)軟件來(lái)調(diào)度算力資源為其賦能和提供支撐。
在計(jì)算機(jī)領(lǐng)域,系統(tǒng)軟件處于“承上啟下”的位置:向下要管理各類硬件,向上要支持各類的應(yīng)用,扮演“頂天立地”的角色。在人工智能時(shí)代,系統(tǒng)軟件的挑戰(zhàn)更大,需要“全棧式”的研究思維,不僅需要掌握系統(tǒng)軟件自身的知識(shí)和技能,還需要了解硬件體系結(jié)構(gòu)和人工智能的模型和算法,甚至需要一些經(jīng)濟(jì)學(xué)和倫理學(xué)的知識(shí),因此開展交叉融合研究尤為必要和重要。
在過(guò)去幾年里,來(lái)自計(jì)算機(jī)學(xué)院軟件研究所的劉譞哲、金鑫、李錠,聯(lián)合網(wǎng)絡(luò)與高能效計(jì)算研究所的許辰人和人工智能研究院智能系統(tǒng)軟件研究中心的馬鄆,組成了一支以青年學(xué)者為主的研究團(tuán)隊(duì),帶領(lǐng)和組織20余名博士研究生,堅(jiān)持面向系統(tǒng)軟件的領(lǐng)域前沿突破核心技術(shù)。
團(tuán)隊(duì)在SOSP、OSDI、ASPLOS、SIGCOMM、NSDI、WWW等頂級(jí)學(xué)術(shù)會(huì)議發(fā)表多篇論文,獲得了中國(guó)首個(gè)WWW大會(huì)最佳論文獎(jiǎng)、IEEE云計(jì)算技術(shù)創(chuàng)新獎(jiǎng),以及教育部青年科學(xué)獎(jiǎng)、阿里·青橙獎(jiǎng)等多個(gè)學(xué)術(shù)榮譽(yù)。同時(shí),團(tuán)隊(duì)非常注重和工業(yè)界需求實(shí)踐結(jié)合,成果在抖音、阿里等工業(yè)界大規(guī)模環(huán)境部署,取得了多項(xiàng)突破,努力從底層筑牢人工智能發(fā)展的根基,服務(wù)國(guó)家經(jīng)濟(jì)社會(huì)建設(shè)需求。
團(tuán)隊(duì)以“巴斯德象限”來(lái)詮釋科研的選題和定位。相對(duì)于以基礎(chǔ)原理探索為導(dǎo)向的“波爾象限”和以應(yīng)用為導(dǎo)向的“愛迪生象限”,瞄準(zhǔn)“巴斯德象限”意味著從事既受好奇心驅(qū)動(dòng)、又面向應(yīng)用的基礎(chǔ)研究,這與系統(tǒng)軟件的“基座”屬性及其在國(guó)家重大需求中的重要基礎(chǔ)地位有關(guān),也使得團(tuán)隊(duì)的研究在“前沿導(dǎo)向的探索性基礎(chǔ)研究”和“戰(zhàn)略導(dǎo)向的體系化基礎(chǔ)研究”之間取得平衡。
在實(shí)踐中,云計(jì)算平臺(tái)上通常要同時(shí)支持訓(xùn)練和推理兩類負(fù)載,每類負(fù)載往往都包含著大量的任務(wù),而且日益增長(zhǎng)的規(guī)模度和復(fù)雜性導(dǎo)致GPU共享的實(shí)現(xiàn)難度極大。針對(duì)這一問(wèn)題,團(tuán)隊(duì)和抖音集團(tuán)合作研發(fā)了具有通用性的動(dòng)態(tài)GPU算力分配系統(tǒng)MuxFlow并在抖音集團(tuán)進(jìn)行了大規(guī)模部署,GPU集群的資源利用率得到了大幅度的提升,節(jié)省了大量的運(yùn)營(yíng)成本。
當(dāng)前流行的大模型推理服務(wù)系統(tǒng)使用的是FCFS(先來(lái)先服務(wù))的處理方式,容易受到頭阻塞的影響從而導(dǎo)致較長(zhǎng)的任務(wù)完成時(shí)間,團(tuán)隊(duì)開發(fā)出了一種支持大模型任務(wù)的推理加速系統(tǒng)FastServe。FastServe采用了一種新穎的跳躍鏈接多級(jí)反饋隊(duì)列調(diào)度器,調(diào)度器根據(jù)用戶請(qǐng)求的輸入長(zhǎng)度信息,為每個(gè)到達(dá)的任務(wù)分配適當(dāng)?shù)某跏缄?duì)列,優(yōu)先級(jí)更高的隊(duì)列則會(huì)被跳過(guò)以減少降級(jí);同時(shí),為了解決推理過(guò)程中的大量?jī)?nèi)存占有問(wèn)題,團(tuán)隊(duì)設(shè)計(jì)了一種高效的GPU內(nèi)存管理機(jī)制,可以有效提高ChatGPT這類大模型推理任務(wù)的響應(yīng)速度。
模型訓(xùn)練任務(wù)一般是離線進(jìn)行,但開發(fā)者往往希望任務(wù)能夠在預(yù)期截止時(shí)間前完成,此前的機(jī)器學(xué)習(xí)系統(tǒng)同時(shí)并行處理多個(gè)任務(wù),難以感知和處理每個(gè)用戶的預(yù)期截止時(shí)間,也無(wú)法保障每個(gè)訓(xùn)練任務(wù)的服務(wù)質(zhì)量。團(tuán)隊(duì)設(shè)計(jì)實(shí)現(xiàn)了彈性分布式深度學(xué)習(xí)系統(tǒng)ElasticFlow,在給定的預(yù)期截止時(shí)間內(nèi),ElasticFlow可以將訓(xùn)練任務(wù)的完成數(shù)量提升1.46-7.65倍。這個(gè)系統(tǒng)特別適合科研院所的模型訓(xùn)練需求,目前正在北京大學(xué)計(jì)算中心部署測(cè)試,未來(lái)將有望服務(wù)于全校師生。
此外,團(tuán)隊(duì)也一直在思考如何為更普惠便捷的智能服務(wù)提供系統(tǒng)軟件支撐。在保護(hù)用戶數(shù)據(jù)安全的前提下,團(tuán)隊(duì)甚至成功地將“模型訓(xùn)練”任務(wù)放在手機(jī)等輕量級(jí)設(shè)備的終端上,通過(guò)對(duì)CPU、GPU和數(shù)字信號(hào)處理器DSP等端側(cè)異構(gòu)計(jì)算資源的混合調(diào)度,以及突破“內(nèi)存墻”的限制,將訓(xùn)練速度提升了5.5倍,能耗降低了10.9倍。該成果在國(guó)家電網(wǎng)和Kika Keyboard上線,已經(jīng)服務(wù)了全球上百個(gè)國(guó)家的用戶。
02
努力打造軟件研究的“中國(guó)名片”
能在短短數(shù)年內(nèi)實(shí)現(xiàn)基礎(chǔ)設(shè)施系統(tǒng)軟件的諸多突破,與北京大學(xué)軟件團(tuán)隊(duì)長(zhǎng)期以來(lái)的技術(shù)積累和團(tuán)隊(duì)的科研傳統(tǒng)是分不開的。不同于計(jì)算機(jī)應(yīng)用的日新月異,作為“底層基座”的系統(tǒng)軟件的更迭,更像是長(zhǎng)期圍繞著一個(gè)主線的變奏。因此,在一個(gè)又一個(gè)信息化浪潮中,北京大學(xué)軟件團(tuán)隊(duì)始終能站穩(wěn)腳跟,但這無(wú)疑也考驗(yàn)著他們的功底扎實(shí)度和耐心度,沒(méi)有相應(yīng)的實(shí)踐和長(zhǎng)期的積累,要做好系統(tǒng)軟件幾乎是不可能的。
上世紀(jì)70年代,楊芙清院士建立了北京大學(xué)軟件研究團(tuán)隊(duì)。近半個(gè)世紀(jì)以來(lái),以楊芙清院士、梅宏院士作為學(xué)術(shù)帶頭人,北京大學(xué)軟件研究團(tuán)隊(duì)長(zhǎng)期主動(dòng)對(duì)接軟件領(lǐng)域的重大問(wèn)題和國(guó)家重大需求,承接重大任務(wù),有組織地開展團(tuán)隊(duì)技術(shù)攻關(guān),完成了我國(guó)軟件發(fā)展歷史上的多個(gè)首次突破。在系統(tǒng)軟件領(lǐng)域,北大軟件團(tuán)隊(duì)在云計(jì)算、大數(shù)據(jù)領(lǐng)域的基礎(chǔ)設(shè)施系統(tǒng)軟件方面已形成了重要的積累,獲得了國(guó)家技術(shù)發(fā)明一等獎(jiǎng)/二等獎(jiǎng)、教育部科技進(jìn)步一等獎(jiǎng)等。從云計(jì)算、大數(shù)據(jù)處理到機(jī)器學(xué)習(xí),雖然運(yùn)行環(huán)境和任務(wù)類型在發(fā)生變化,但作為底層基座的系統(tǒng)軟件的任務(wù),始終是追求更好地發(fā)揮出計(jì)算資源的能力,更好地服務(wù)上層的應(yīng)用需求,這也是系統(tǒng)軟件研究者不懈努力的命題。系統(tǒng)軟件研究影響力不僅體現(xiàn)在高質(zhì)量的論文發(fā)表,也體現(xiàn)在能否有被人熟知和廣泛使用的軟件。以有世界影響力的前沿成果服務(wù)國(guó)家,這也是團(tuán)隊(duì)始終堅(jiān)守的研究目標(biāo)。
03
培養(yǎng)引領(lǐng)未來(lái)的卓越軟件人才
培養(yǎng)出一流的系統(tǒng)軟件人才,這是北大軟件團(tuán)隊(duì)一直堅(jiān)持的核心要義??蒲忻}絡(luò)的前后承續(xù),要求團(tuán)隊(duì)既能曉通變之理,也要有核心的凝聚力。事實(shí)上,軟件學(xué)科的偏“工程”屬性,就決定了科研過(guò)程的有組織性非常關(guān)鍵。個(gè)人的興趣、聰明才智和努力與團(tuán)隊(duì)成員間的密切合作,是帶動(dòng)科研工作騰霄破空的兩翼,而教育的薪火、人才的培養(yǎng)、科技的探尋,也在團(tuán)隊(duì)的協(xié)力共進(jìn)中融為一體。
善于發(fā)現(xiàn)學(xué)生的優(yōu)點(diǎn),尊重學(xué)生的個(gè)體差異,是團(tuán)隊(duì)中的共識(shí)。在學(xué)生培養(yǎng)上,團(tuán)隊(duì)已經(jīng)形成了一個(gè)成熟的模式。學(xué)生加入后,可以先跟著一個(gè)既有項(xiàng)目做實(shí)驗(yàn)、分析數(shù)據(jù)、調(diào)試系統(tǒng)等等,熟悉了科研的基本操作和流程后,就可以和老師商量著做一個(gè)自己的題目,有意思的是,這個(gè)過(guò)程中會(huì)不斷受到來(lái)自老師的質(zhì)疑和辯難,以保證選題的創(chuàng)新性和合理性,這對(duì)師生雙方來(lái)說(shuō)都是富有挑戰(zhàn)性的環(huán)節(jié)。因此,團(tuán)隊(duì)鼓勵(lì)學(xué)生和老師討論、辯論甚至爭(zhēng)論,真理越辯越明,這是北大人的特質(zhì),也是團(tuán)隊(duì)堅(jiān)持的文化。
系統(tǒng)軟件的市場(chǎng)需求大,但相應(yīng)地,技術(shù)門檻高,研究周期長(zhǎng),團(tuán)隊(duì)的老師們深諳此點(diǎn),也給予學(xué)生充足的耐心,每個(gè)學(xué)生培養(yǎng)起來(lái)都需要一定的周期,前期的穩(wěn)扎穩(wěn)打,正是為了后期學(xué)生們敢于在自己的項(xiàng)目中放手一搏。
團(tuán)隊(duì)建設(shè)過(guò)程中,還很好地體現(xiàn)了北大學(xué)科交叉融合的特點(diǎn)——加入團(tuán)隊(duì)的學(xué)生不都是計(jì)算機(jī)學(xué)科出身,還有來(lái)自化學(xué)、物理、醫(yī)學(xué)等其他學(xué)科的學(xué)生。系統(tǒng)軟件不僅是一門技術(shù),也是一門藝術(shù),它很多地方體現(xiàn)了哲學(xué)性、人文性的思考,而北大的多元學(xué)科所賦予的思維上的滋養(yǎng),也是北大系統(tǒng)軟件能在國(guó)內(nèi)乃至國(guó)際獨(dú)樹一幟的重要因素。
過(guò)去幾年里,多元自由的氛圍孕育著青年學(xué)生的科研主體性,培養(yǎng)出了優(yōu)秀的學(xué)生。例如,1名學(xué)生獲得了中國(guó)計(jì)算機(jī)學(xué)會(huì)優(yōu)秀博士論文和北京市優(yōu)秀博士論文,1名學(xué)生獲得了ACM SIGMOBILE中國(guó)優(yōu)秀博士論文獎(jiǎng),2人入選北京市科技新星,2名學(xué)生獲得北京大學(xué)學(xué)生最高榮譽(yù)“五四獎(jiǎng)?wù)隆保?人入選“微軟學(xué)者”(每年全球僅10-12人),1人當(dāng)選北京大學(xué)“學(xué)生年度人物”。此外,2名本科生在網(wǎng)絡(luò)系統(tǒng)領(lǐng)域頂級(jí)會(huì)議SIGCOMM和NSDI發(fā)表獨(dú)立一作論文,這在中國(guó)大陸均為首次。
讓學(xué)生難以忘懷的經(jīng)歷里,除了科研,還有充滿儀式感和歡樂(lè)氣息的共同記憶:“我們每周三都會(huì)跟老師一塊兒打球,學(xué)生們一隊(duì),老師們一隊(duì),老師們都太厲害了!”,“我們會(huì)自己組織新年晚會(huì),老師和學(xué)生們一同表演節(jié)目,大家都好有才”,“我們每個(gè)月都會(huì)舉辦生日會(huì),為過(guò)生日的老師和同學(xué)集體慶生”。
這個(gè)充滿創(chuàng)造活力的團(tuán)隊(duì),也是一個(gè)共同奮進(jìn)的溫暖大家庭,他們將為中國(guó)軟件研究的自立自強(qiáng)不斷貢獻(xiàn)力量。
從這里,正在走出一支學(xué)術(shù)和行業(yè)的生力軍,為人工智能時(shí)代的系統(tǒng)軟件基座發(fā)出北大的聲音。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com