十年六萬引,BatchNorm獲ICML時(shí)間檢驗(yàn)獎(jiǎng),開啟深度學(xué)習(xí)新時(shí)代
它的出現(xiàn),從根本上改變了研究者們訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方式。
一篇發(fā)表于2015年的論文,在十年后,于國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)2025上,被授予了“時(shí)間檢驗(yàn)獎(jiǎng)”(Test of Time Award)。

這篇論文就是深度學(xué)習(xí)領(lǐng)域無人不曉的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。
它的出現(xiàn),從根本上改變了研究者們訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方式,成為AI技術(shù)發(fā)展進(jìn)程中的一座關(guān)鍵里程碑。
一、一座無法繞過的豐碑
國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)的時(shí)間檢驗(yàn)獎(jiǎng),旨在表彰十年前發(fā)表的、并在此后十年間對(duì)整個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響的論文。
獲獎(jiǎng),意味著一項(xiàng)研究不僅在當(dāng)時(shí)具有開創(chuàng)性,更重要的是,它的思想和方法經(jīng)受住了時(shí)間的考驗(yàn),成為了后續(xù)無數(shù)研究的基石。
Batch Normalization(批次歸一化,簡(jiǎn)稱BatchNorm)的獲獎(jiǎng),可謂實(shí)至名歸。

自2015年由谷歌研究員Sergey Ioffe和Christian Szegedy提出以來,這篇論文的引用量已超過六萬次,是其所在時(shí)代被引用次數(shù)最多的深度學(xué)習(xí)文獻(xiàn)之一。

在工程實(shí)踐中,BatchNorm更是成為了一個(gè)“默認(rèn)選項(xiàng)”。開發(fā)者在構(gòu)建神經(jīng)網(wǎng)絡(luò)時(shí),幾乎會(huì)下意識(shí)地在卷積層或全連接層后加入一個(gè)BatchNorm層。
它就像是修建高樓時(shí)必不可少的鋼筋結(jié)構(gòu),為模型的深度和穩(wěn)定性提供了基礎(chǔ)保障。
可以說,如果沒有BatchNorm,今天我們所熟知的許多深度學(xué)習(xí)模型架構(gòu),或許根本無法被有效訓(xùn)練。

它的出現(xiàn),不僅解決了一個(gè)具體的工程難題,更重要的是,它為整個(gè)領(lǐng)域注入了強(qiáng)大的動(dòng)能,使得訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò)成為可能。
這座技術(shù)豐碑,至今仍然是所有深度學(xué)習(xí)從業(yè)者無法繞過的存在。
二、一場(chǎng)“撥亂反正”的革命
在BatchNorm出現(xiàn)之前,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是一件充滿挑戰(zhàn)甚至痛苦的事情。
一個(gè)核心的難題,被論文作者稱為“內(nèi)部協(xié)變量偏移”(Internal Covariate Shift)。這個(gè)術(shù)語聽起來很復(fù)雜,但它描述的現(xiàn)象卻很直觀。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,網(wǎng)絡(luò)由許多層堆疊而成,前一層的參數(shù)更新,會(huì)導(dǎo)致后一層接收到的輸入數(shù)據(jù)分布發(fā)生變化。
這就好比一個(gè)射擊手在瞄準(zhǔn)一個(gè)不斷移動(dòng)的靶子,網(wǎng)絡(luò)中的每一層都必須持續(xù)適應(yīng)這種變化。
這種不穩(wěn)定的學(xué)習(xí)環(huán)境,極大地拖慢了模型的訓(xùn)練速度。
為了應(yīng)對(duì)這個(gè)問題,研究人員不得不小心翼翼地設(shè)置學(xué)習(xí)率,通常只能選擇一個(gè)非常小的值,以防止梯度爆炸或消失。

同時(shí),他們還需要對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行精巧的初始化,這本身就是一門復(fù)雜的“玄學(xué)”。
訓(xùn)練一個(gè)擁有飽和非線性激活函數(shù)(如Sigmoid或tanh)的深度模型,在當(dāng)時(shí)被認(rèn)為是極其困難的。
BatchNorm的出現(xiàn),如同一場(chǎng)“撥亂反正”的革命,徹底改變了這一局面。
它的核心思想簡(jiǎn)單而有效:在每一層的輸入端,對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
具體來說,它在每次訓(xùn)練迭代中,利用當(dāng)前小批量(mini - batch)的數(shù)據(jù),計(jì)算出每個(gè)特征維度的均值和方差。
然后,用每個(gè)樣本減去均值,再除以標(biāo)準(zhǔn)差,將這一批數(shù)據(jù)的分布強(qiáng)制“拉回”到均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布。

這相當(dāng)于為網(wǎng)絡(luò)的每一層都提供了一個(gè)穩(wěn)定的、標(biāo)準(zhǔn)化的“靶子”。
為了保證網(wǎng)絡(luò)的表達(dá)能力不受影響,BatchNorm還引入了兩個(gè)可學(xué)習(xí)的參數(shù)(gamma和beta),允許網(wǎng)絡(luò)在歸一化之后,對(duì)數(shù)據(jù)進(jìn)行縮放和平移,學(xué)習(xí)恢復(fù)其原始的分布信息。

這一操作,被巧妙地設(shè)計(jì)為網(wǎng)絡(luò)架構(gòu)的一部分,隨著網(wǎng)絡(luò)的訓(xùn)練而自動(dòng)優(yōu)化。
BatchNorm帶來的好處是立竿見影的。
首先,它允許研究者使用非常高的學(xué)習(xí)率,從而將訓(xùn)練速度提升數(shù)倍甚至數(shù)十倍。
論文中的實(shí)驗(yàn)表明,在一個(gè)當(dāng)時(shí)最先進(jìn)的圖像分類模型上,使用BatchNorm后,僅用原來1/14的訓(xùn)練步數(shù),就達(dá)到了相同的精度。
其次,它降低了模型對(duì)權(quán)重初始化的敏感度,研究者不再需要花費(fèi)大量精力去“煉丹”般的調(diào)參。
此外,由于BatchNorm在每個(gè)小批量中引入了由該批次數(shù)據(jù)統(tǒng)計(jì)量帶來的輕微噪聲,它還起到了一種正則化的作用,在某些情況下甚至可以取代Dropout,有效防止了模型過擬合。
可以說,BatchNorm以一種優(yōu)雅的工程方式,馴服了深度神經(jīng)網(wǎng)絡(luò)這匹難以駕馭的“野馬”。
三、一個(gè)“喧囂”時(shí)代的開啟
BatchNorm的成功,是工程上的巨大勝利,但圍繞它的理論探討,卻開啟了一個(gè)“喧囂”的時(shí)代。
盡管論文的兩位作者將其成功歸因于“減少了內(nèi)部協(xié)變量偏移”,但這個(gè)解釋在后來的幾年里,受到了持續(xù)的審視和挑戰(zhàn)。
一些后續(xù)的研究發(fā)現(xiàn),BatchNorm的有效性與內(nèi)部協(xié)變量偏移的減少之間,并不存在必然的因果關(guān)系。
有實(shí)驗(yàn)表明,即使在某些情況下,BatchNorm反而增加了內(nèi)部協(xié)變量偏移,模型的性能依然得到了提升。
新的理論開始涌現(xiàn),試圖從其他角度解釋BatchNorm的魔力。
其中一個(gè)被廣泛接受的觀點(diǎn)認(rèn)為,BatchNorm的核心作用在于平滑了優(yōu)化過程中的損失函數(shù)曲面(Optimization Landscape)。
通過重新參數(shù)化網(wǎng)絡(luò),它讓損失函數(shù)的“地形”變得更加規(guī)整,減少了許多崎嶇的“山谷”和“尖峰”,使得梯度下降算法可以更穩(wěn)定、更快速地找到最優(yōu)解。
這種理論上的爭(zhēng)議,絲毫沒有動(dòng)搖 BatchNorm 在實(shí)踐中的統(tǒng)治地位。

它與殘差連接(Residual Connections)等技術(shù)相結(jié)合,共同催生了以ResNet為代表的超深度網(wǎng)絡(luò)架構(gòu)的誕生。
沒有BatchNorm提供的穩(wěn)定梯度流,訓(xùn)練上百層甚至上千層的網(wǎng)絡(luò)是不可想象的。
它的成功,也激發(fā)了對(duì)“歸一化”這一思想的深入探索。
研究者們意識(shí)到,在網(wǎng)絡(luò)內(nèi)部對(duì)數(shù)據(jù)分布進(jìn)行規(guī)范,是一個(gè)極其強(qiáng)大的工具。
隨后,一系列新的歸一化方法被提出,例如層歸一化(Layer Normalization)、實(shí)例歸一化(Instance Normalization)和組歸一化(Group Normalization)等。
這些方法各有側(cè)重,適用于不同的任務(wù)場(chǎng)景,例如RNN或者小批量尺寸不固定的情況,但它們都共享了BatchNorm的核心思想。
十年過去,BatchNorm不再是唯一的選擇,但它依然是應(yīng)用最廣泛、最基礎(chǔ)的歸一化技術(shù)。
它不僅是一個(gè)具體的算法,更是一種設(shè)計(jì)哲學(xué),深刻地影響了深度學(xué)習(xí)領(lǐng)域的思維范式。
它用一種簡(jiǎn)單、粗暴但極其有效的方式,解決了深度學(xué)習(xí)從理論走向大規(guī)模應(yīng)用的關(guān)鍵瓶頸,開啟了一個(gè)模型架構(gòu)設(shè)計(jì)百花齊放的繁榮時(shí)代。這或許就是“時(shí)間檢驗(yàn)獎(jiǎng)”想要真正表彰的、不朽的貢獻(xiàn)。
本文來自微信公眾號(hào)“大數(shù)據(jù)文摘”,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





