數(shù)據(jù)中心上山下海,能不能背得動(dòng)AI能耗的鍋?
能源焦慮似乎是一個(gè)永恒的話(huà)題。從蒸汽機(jī)到內(nèi)燃機(jī),從煤炭到石油,世界的發(fā)展總是圍繞能源旋轉(zhuǎn)。在AI時(shí)代,這一點(diǎn)沒(méi)有改變。
OpenAI CEO Sam Altman在很多場(chǎng)合提到,未來(lái)的人工智能需要能源突破,因?yàn)锳I消耗的電力會(huì)遠(yuǎn)遠(yuǎn)超出大家的預(yù)期。馬斯克也推測(cè),未來(lái)兩年將從“缺硅”變成“缺電”。
數(shù)據(jù)顯示,ChatGPT每天需要響應(yīng)約2億個(gè)請(qǐng)求,這個(gè)過(guò)程將消耗超過(guò)50萬(wàn)度的電力。預(yù)計(jì)到2027年,整個(gè)人工智能產(chǎn)業(yè)每年將消耗85-134太瓦時(shí)(1太瓦時(shí)=10億千瓦時(shí))的電力,約等于2023年北京市全年總耗電量(135.78太瓦時(shí))。
巨大的能源消耗主要產(chǎn)生于兩個(gè)方面,一是驅(qū)動(dòng)AI服務(wù)器計(jì)算和存儲(chǔ)消耗的能源,二是減少AI服務(wù)器溫度消耗的能源,其中前者占60%,后者占40%。
但前者雖然占比較高,但即使AI芯片的能效一直在提高,也無(wú)法改變整體功耗持續(xù)上升的趨勢(shì),因?yàn)锳I的發(fā)展對(duì)算率的需求越來(lái)越大。因此,如何降低服務(wù)器冷卻時(shí)消耗的能源已經(jīng)成為降低AI運(yùn)營(yíng)成本和能源消耗的關(guān)鍵。
所以,大到Google、像微軟這樣的科技巨頭,小到服務(wù)器R&D供應(yīng)商,SpaceX這樣的尖端前沿也在煞費(fèi)苦心。
高級(jí)服務(wù)器,從風(fēng)冷到液冷
雖然2023年才刮起大模型的風(fēng),但是服務(wù)器冷卻并非一個(gè)新的課題。
一九四五年,世界上第一臺(tái)通用電腦ENIAC誕生。為解決ENIAC用電量大、熱量高的問(wèn)題,當(dāng)時(shí)的工程師們用風(fēng)扇來(lái)降低ENIAC的溫度,這幾乎是最早的服務(wù)器行業(yè)制冷。
但是風(fēng)扇制冷的效果畢竟是有限的,而且當(dāng)時(shí)的電腦又大又耗電。舉例來(lái)說(shuō),ENIAC的重量約為30噸,占地170平方米,耗電150~174KW。
面對(duì)如此巨大的怪物,僅僅依靠風(fēng)扇制冷是有點(diǎn)不可能的。因此,到1951年,當(dāng)美國(guó)雷明頓蘭德推出第一臺(tái)商用計(jì)算機(jī)UNIVAC時(shí)。 一時(shí)間,已經(jīng)用上了空調(diào)制冷。
空調(diào)器最早發(fā)明于1902年,最初是為了保持印刷廠(chǎng)的恒溫,然后陸續(xù)進(jìn)入家庭,大約在1920年就被廣泛應(yīng)用于美國(guó)。所以在1951年,UNIVAC 當(dāng)我出來(lái)的時(shí)候,空調(diào)系統(tǒng)已經(jīng)異常完善了。當(dāng)時(shí),雷明頓蘭德專(zhuān)門(mén)為UNIVACC設(shè)計(jì) 一是設(shè)計(jì)了一套中央空調(diào)制冷系統(tǒng)。
圖片:1951年美國(guó)人口普查局UNIVACC維基百科 I
從那以后,空調(diào)制冷逐漸成為大型計(jì)算機(jī)和服務(wù)器機(jī)房最重要的制冷方式,并持續(xù)了近百年,直到液冷技術(shù)登上舞臺(tái)。
和空調(diào)制冷一樣,液冷技術(shù)最早應(yīng)用于機(jī)械加工、配電變壓器或航天工程等領(lǐng)域,而不是服務(wù)器場(chǎng)景。它在服務(wù)器應(yīng)用領(lǐng)域只是近20年的事情。
這是因?yàn)橹钡?994年,全球互聯(lián)網(wǎng)浪潮才首次爆發(fā)。從那以后,互聯(lián)網(wǎng)公司開(kāi)始大規(guī)模建設(shè)和使用數(shù)據(jù)中心,以提供高效的服務(wù),大規(guī)模存儲(chǔ)數(shù)據(jù)。
因此,由于大量計(jì)算需求導(dǎo)致的芯片功耗增加、服務(wù)器密度增加等因素,傳統(tǒng)的空調(diào)制冷設(shè)備顯得有些力不從心,開(kāi)始限制芯片特性的提升。
Simon副總裁,蘋(píng)果,惠普和戴爾供應(yīng)商Liteon Ong說(shuō):“我們發(fā)現(xiàn)選擇風(fēng)冷方式的芯片只能達(dá)到其性能的60%,會(huì)有一定的過(guò)熱問(wèn)題,而液體冷卻解決方案可以繼續(xù)最大限度地提高計(jì)算性能?!?/p>
三月一日,黃仁勛在斯坦福大學(xué)舉行的2024年SIEPR經(jīng)濟(jì)峰會(huì)上說(shuō),英偉達(dá)的下一代DGX AI服務(wù)器將采用液冷技術(shù)。
據(jù)艾邦儲(chǔ)能網(wǎng)統(tǒng)計(jì),單個(gè)DGX H100系統(tǒng)消耗的功率約為10kW,液體冷卻可以提高20-40%的整體能效,100,000DGX系統(tǒng)可以節(jié)省20-40兆瓦的功耗,按0.10美元/千瓦計(jì)算,相當(dāng)于每年節(jié)省2000-4000萬(wàn)美元的能源成本。
圖:Nvidia,DGXAI服務(wù)器
與風(fēng)冷相比,液冷不僅具有更高的散熱效率和更低的能耗水平,還可以減少服務(wù)器的占地面積,即同樣大小的機(jī)房可以放下更多的服務(wù)器。各種優(yōu)勢(shì)使得液冷技術(shù)逐漸取代風(fēng)冷,成為數(shù)據(jù)中心的主要冷卻方式。
在全球范圍內(nèi),谷歌應(yīng)該是最早探索使用液冷技術(shù)的因特網(wǎng)技術(shù)企業(yè)之一。
谷歌前CEO埃里克·施密特于2006年在搜索引擎大會(huì)上(SES San Jose 2006年首次提出“云計(jì)算”(Cloud Computing)與此同時(shí),谷歌的數(shù)據(jù)中心也在快速增長(zhǎng)。
2009年,華爾街日?qǐng)?bào)報(bào)道谷歌為了提高數(shù)據(jù)中心能源利用效率,開(kāi)始探索液冷技術(shù)在數(shù)據(jù)中心的應(yīng)用。當(dāng)時(shí)谷歌表示,液冷技術(shù)可以將數(shù)據(jù)中心的能耗降低40%。
同年,惠普推出了一款名為ProLiant的產(chǎn)品。 DL380 Gen8服務(wù)器采用全新的液體冷卻技術(shù),可以降低40%的功耗。兩年后,IBM還推出了一款名為System的液體冷卻技術(shù)服務(wù)器。 x3550 M5,能降低45%的功耗。
此后,微軟,亞馬遜,F(xiàn)acebook(現(xiàn)在Meta)也開(kāi)始陸續(xù)跟進(jìn),并在2019-2022年左右,將所有數(shù)據(jù)中心的制冷方式轉(zhuǎn)化為液冷方式。
當(dāng)然,液體冷卻技術(shù)也分為很多類(lèi)別。根據(jù)冷凍液進(jìn)入電子產(chǎn)品的方式不同,大致可以分為芯片級(jí)液體冷卻、浸沒(méi)式液體冷卻、噴淋式液體冷卻、冷板式液體冷卻等。
例如芯片級(jí)液冷,為了吸收芯片產(chǎn)生的熱量,將冷凍液直接輸送到芯片頂部。這是一種完全降溫的形式,但是結(jié)構(gòu)復(fù)雜,成本高。浸沒(méi)式液冷就是將整個(gè)電子產(chǎn)品浸泡在冷凍液中,這種形式冷卻均勻,但是體積龐大,維護(hù)不方便。
噴淋式液冷就是在電子產(chǎn)品上噴灑冷凍液,雖然冷卻效果較差,但勝于結(jié)構(gòu)緊湊,成本較低。冷板式液冷它是由銅管、鋁板等高導(dǎo)熱材料制成的冷板來(lái)降溫。它的工作原理有些類(lèi)似于北方散熱器,但區(qū)別只是溫度升高和溫度降低。
目前,冷板液冷是市場(chǎng)上使用最廣泛的一種。根據(jù)Gartner的數(shù)據(jù),冷板液冷技術(shù)在2023年全球數(shù)據(jù)中心液冷市場(chǎng)的市場(chǎng)份額約為60%。
然而,近兩年來(lái),噴淋液冷和浸沒(méi)液冷的市場(chǎng)份額也有所增加。根據(jù)Gartner的數(shù)據(jù),噴淋液冷技術(shù)和浸沒(méi)液冷技術(shù)的市場(chǎng)份額將在2024年全球數(shù)據(jù)中心液冷市場(chǎng)分別達(dá)到約25%和15%。
在所有液冷技術(shù)中,噴淋液冷市場(chǎng)份額的增加,根本原因是其結(jié)構(gòu)緊湊,而且更容易安裝和維護(hù),成本最低。
聯(lián)想在2023年發(fā)布的《噴淋液冷服務(wù)器白皮書(shū)》中指出,“噴淋液冷技術(shù)具有良好的擴(kuò)展性和靈活性,可以滿(mǎn)足不同類(lèi)型數(shù)據(jù)中心的需求。”這符合越來(lái)越多企業(yè)在數(shù)字化轉(zhuǎn)型過(guò)程中建設(shè)私有云和自己的小數(shù)據(jù)中心的需求。
而且噴淋式液冷由于成本選擇得當(dāng),浸沒(méi)式液冷市場(chǎng)份額增長(zhǎng)的主要原因是效率。
隨著人工智能,特別是大型模型的發(fā)展,市場(chǎng)對(duì)數(shù)據(jù)中心的能源效率和服務(wù)器性能提出了更高的要求,近兩年來(lái),由于技術(shù)的成熟,沉浸式液體冷卻的成本逐漸降低,進(jìn)入了更多企業(yè)可接受的范圍。
總的來(lái)說(shuō),液體冷卻技術(shù)已成為目前市場(chǎng)上最重要的服務(wù)器冷卻方式。
數(shù)據(jù)中心上山下海
雖然液體冷卻技術(shù)在降低數(shù)據(jù)中心的能耗方面發(fā)揮了巨大的作用,但僅僅依靠傳統(tǒng)的液體冷卻方法遠(yuǎn)遠(yuǎn)不夠高速增長(zhǎng)的計(jì)算率和巨大的能耗。
另外,液冷技術(shù)也存在一些問(wèn)題,比如用水量巨大。
谷歌在其官方網(wǎng)站上宣布,2021年,谷歌數(shù)據(jù)中心平均每天消耗約45萬(wàn)加侖水。這相當(dāng)于給17英畝的草地澆水一次,或者種植160條牛仔褲的棉花。
同年,谷歌全球數(shù)據(jù)中心機(jī)隊(duì)消耗了約43億加侖水,相當(dāng)于每年在美國(guó)西南部澆水和維護(hù)29個(gè)高爾夫球場(chǎng)所所需的水量。
圖:谷歌
此外,隨著全球ESG理念日益成為判斷公司的重要標(biāo)準(zhǔn),減碳甚至無(wú)碳成為數(shù)據(jù)中心運(yùn)行的重要標(biāo)準(zhǔn)。
為了解決這個(gè)問(wèn)題,谷歌很早就開(kāi)始敞開(kāi)心扉。2009年,谷歌從芬蘭的一家造紙公司那里購(gòu)買(mǎi)了一家造紙廠(chǎng),并開(kāi)始將其轉(zhuǎn)化為數(shù)據(jù)中心。
選擇芬蘭的原因之一是緯度高,自然環(huán)境溫度低;另一個(gè)原因是這家紙廠(chǎng)位于芬蘭南部的海岸,谷歌準(zhǔn)備引導(dǎo)海水降低數(shù)據(jù)中心的溫度。
目前,該項(xiàng)目的第一個(gè)項(xiàng)目已于2011年9月竣工,谷歌最初投資2億歐元,但到目前為止,總投資已超過(guò)20億歐元。谷歌的目標(biāo)是讓所有數(shù)據(jù)中心和公園在2030年前24小時(shí)使用無(wú)碳能源運(yùn)營(yíng)業(yè)務(wù)。
Facebook也選擇了借助自然環(huán)境降溫。2011年,它在瑞典北部宣布了一個(gè)名為呂勒奧的城市建設(shè)數(shù)據(jù)中心。
之所以選擇這個(gè)地方,一是因?yàn)樗且粋€(gè)電費(fèi)便宜的工業(yè)城市。二是因?yàn)榫暥雀?。呂勒奧距離北極圈只有110公里左右,每年10月開(kāi)始下雪,冬季平均氣溫在零下6左右?!鉉至零下13.6°C,即使在夏天,平均氣溫也只有12?!鉉 - 20°C。
該項(xiàng)目于2011年開(kāi)始建設(shè),大型風(fēng)扇將外部冷空氣引入機(jī)房,為數(shù)千臺(tái)服務(wù)器提供物理退燒。根據(jù)扎克伯格的說(shuō)法,呂勒奧數(shù)據(jù)中心的工作效率比傳統(tǒng)數(shù)據(jù)中心高10%,能耗低40%。
不像谷歌和Facebook在地面上想辦法,藝術(shù)家膽大包天的微軟直接選擇把數(shù)據(jù)中心扔進(jìn)海里。
微軟認(rèn)為,超過(guò)一半的世界人口居住在距離海岸約120公里的地方。數(shù)據(jù)中心放置在沿海地區(qū)周?chē)乃?,?shù)據(jù)可以短距離傳輸?shù)窖睾I鐓^(qū)。
2015年,微軟正式啟動(dòng)了一個(gè)名為Natick的項(xiàng)目;2018年,該項(xiàng)目團(tuán)隊(duì)將12個(gè)配備864臺(tái)服務(wù)器的服務(wù)器機(jī)架通過(guò)壓力容器沉入蘇格蘭海岸附近的海床。兩年后,他們撈出了這個(gè)巨大的圓柱體,驗(yàn)證了這個(gè)項(xiàng)目的成功。
圖:微軟
現(xiàn)在,這種技術(shù)在國(guó)內(nèi)也同樣得到了應(yīng)用。
2022年12月,海南海底數(shù)據(jù)中心成功將近300臺(tái)服務(wù)器的“海底數(shù)據(jù)艙”放入海底,并開(kāi)始向外輸出數(shù)據(jù),成為世界上第一個(gè)商業(yè)海底數(shù)據(jù)中心。
該項(xiàng)目總經(jīng)理蒲定在接受《環(huán)球時(shí)報(bào)》采訪(fǎng)時(shí)表示,“以1萬(wàn)個(gè)陸地機(jī)柜為例,同等計(jì)算能力的海底數(shù)據(jù)中心每年可節(jié)約用電量1.75億千瓦時(shí),節(jié)約建設(shè)用地面積9.84萬(wàn)平方米,節(jié)約淡水15萬(wàn)噸?!?/p>
有些公司把服務(wù)器放在海里,自然也有公司把服務(wù)器放在山里。
比如2017年,富士康數(shù)據(jù)中心落戶(hù)貴安新區(qū)洞穴。設(shè)計(jì)師打開(kāi)山底兩端形成隧道,使空氣流通,使山內(nèi)溫度低于外界自然條件,成為機(jī)房服務(wù)器的自然條件 “空調(diào)房”。
位于北緯26度左右的貴州,四季溫度均衡,加上自然喀斯特地貌,使山體成為服務(wù)器的天然器皿。
2021年,中國(guó)提出了“東數(shù)西算”戰(zhàn)略,貴州成為中國(guó)西部最重要的數(shù)據(jù)中心之一。許多頭部企業(yè),如蘋(píng)果和華為,都在貴州的山區(qū)建立了自己的數(shù)據(jù)中心。
結(jié)語(yǔ)
如果說(shuō)谷歌、Meta等知名大公司之間的AI競(jìng)爭(zhēng)是人與人之間的技術(shù)競(jìng)爭(zhēng),那么AI本質(zhì)上就是重新解構(gòu)人與生態(tài)資源之間的關(guān)系,以提高能源效率。
能量是守恒的。人類(lèi)不僅要獲得更先進(jìn)的生產(chǎn)力,嘗試無(wú)限擴(kuò)大其能力上限,還要思考可能付出的代價(jià)是否超出了自己的極限,從而找到最佳解決方案,更科學(xué)地配置資源。
Open AI點(diǎn)燃了新一代AI競(jìng)爭(zhēng),將AI的“吃電”量推向了一個(gè)新的高峰,原本“看不見(jiàn)”的能源對(duì)決,也擺在了光明的一面。
雖然每個(gè)公司都在尋找“上山下海”的解決方案,但也可能面臨一些爭(zhēng)議和技術(shù)挑戰(zhàn)。比如海底放置服務(wù)器可能會(huì)影響海洋生態(tài),而偏遠(yuǎn)地區(qū)的數(shù)據(jù)中心可能會(huì)涉及復(fù)雜的物流和維護(hù)。
它就像打開(kāi)了“俄羅斯套娃”,每次解決一個(gè)問(wèn)題,都會(huì)發(fā)現(xiàn)背后總有新的問(wèn)題。
一切都是有代價(jià)的。當(dāng)資源稀缺時(shí),也是考驗(yàn)人類(lèi)智慧的時(shí)候。也許新的能源解決方案就在前方。只有當(dāng)人類(lèi)打開(kāi)“急切”的閘閥時(shí),他們才能更近距離地獲得新的解決方案。
參考資料
https://blog.google/outreach-initiatives/sustainability/our-commitment-to-climate-conscious-data-center-cooling/
本文來(lái)自微信微信官方賬號(hào)“產(chǎn)業(yè)象限”(ID:codesideAI),作家:山茶,編輯:錢(qián)江,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀(guān)點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com