亞馬遜云服務(wù)宕機(jī):數(shù)字化世界的脆弱警鐘
云塌的那一刻,我們才驚覺數(shù)字化的世界竟如此脆弱。貓咪無法進(jìn)食、多鄰國打卡成泡影、金拱門外賣無法下單……甚至早上醒來,想瞇著眼刷會(huì)兒Snapchat,看到的卻是永遠(yuǎn)的“連接失敗”。切換到Venmo想付室友外賣錢,卡在支付頁面轉(zhuǎn)圈圈;打把《部落沖突》清醒一下,游戲匹配界面卡在“正在連接”,半天沒反應(yīng)。小貓?jiān)陂T外嗷嗷叫,開門一看,自動(dòng)喂食機(jī)一夜沒出糧。叫Alexa放首歌,它只回了句“抱歉,無法響應(yīng)”。
這些不相干的糟心事,背后都是亞馬遜云宕機(jī)惹的禍,就像一場“賽博世界末日”的預(yù)演。

這時(shí),門口有響聲,到門前一看,Ring門鈴的攝像頭也失靈了,連昨晚的監(jiān)控視頻都沒錄下。門突然被打開,原來是室友。他哭喪著臉說:“AWS掛了,機(jī)場的調(diào)度系統(tǒng)死機(jī)了,我回來的飛機(jī)在跑道上排了兩個(gè)小時(shí)!”

這不是科幻末日電影里的場景,而是昨天無數(shù)人的親身經(jīng)歷。
脆弱的數(shù)字化世界
一切的罪魁禍?zhǔn)资莵嗰R遜的AWS云服務(wù)。這個(gè)支撐著全球三分之一互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的“隱形巨人”,在美東當(dāng)?shù)貢r(shí)間10月20日凌晨3:11(北京時(shí)間15:11),US - EAST - 1(美國 - 東部 - 1)多個(gè)服務(wù)出現(xiàn)“錯(cuò)誤率增加和延遲”。一小時(shí)后的4:26,故障急劇升級(jí),流量均衡器崩潰。短短數(shù)小時(shí)內(nèi),從日常社交軟件、在線游戲、智能家居,到大企業(yè)、金融機(jī)構(gòu)、教育平臺(tái),皆在這一刻“掉線”。

影響巨大丨Down Dectector
互聯(lián)網(wǎng)流量監(jiān)測平臺(tái)Down Dectector數(shù)據(jù)顯示,有超過2500家公司受到影響,超過1100萬條用戶在此期間匯報(bào)了各種服務(wù)中斷的問題,全球數(shù)百萬網(wǎng)民的數(shù)字生活被按下暫緩鍵。

先說社交媒體和即時(shí)通訊,Snapchat、Signal都出現(xiàn)了服務(wù)問題,數(shù)百萬用戶發(fā)不了消息,刷不了Stories,甚至許多用戶因反復(fù)嘗試登陸,導(dǎo)致賬號(hào)被鎖定。游戲玩家們也“躺槍”,《堡壘之夜》《羅布思樂》等熱門在線游戲,服務(wù)器掛機(jī),玩家要么登錄后黑屏,要么戰(zhàn)斗中途掉線。Steam、Xbox、PSN、育碧的部分服務(wù)器也受影響。
其他常用工具也沒幸免。語言學(xué)習(xí)app多鄰國、約會(huì)App Hinge、出行服務(wù)Lyft,還有社交論壇Reddit都報(bào)告了不同程度的故障:Reddit刷不出貼,Hinge用戶抱怨匹配頁面加載失敗,Lyft打不到車,多鄰國打不了卡。

玩不了游戲,發(fā)不了消息,正好放下手機(jī)“數(shù)字排毒”,但賺不了錢才是真要命。Venmo宕機(jī),用戶無法付款和轉(zhuǎn)賬,小企業(yè)主欲哭無淚;Coinbase加密交易所中招,用戶登錄卡頓,交易訂單堆積如山;Robinhood和Webull等股票app全線崩潰,投資者眼睜睜看著市場波動(dòng)卻下不了單;同時(shí),星巴克、麥當(dāng)勞的app也出現(xiàn)了訪問問題。
政府機(jī)關(guān)也受到影響,蘇格蘭銀行發(fā)帖稱“AWS影響了英國許多網(wǎng)站和程序,包括我們的服務(wù)”,用戶用不了網(wǎng)上銀行。英國稅務(wù)、支付和海關(guān)當(dāng)局的網(wǎng)站也都掉線。

企業(yè)級(jí)影響同樣慘烈,Zoom會(huì)議斷斷續(xù)續(xù)幾乎不可用,Canva錯(cuò)誤率飆升,設(shè)計(jì)師們無法導(dǎo)出海報(bào),項(xiàng)目延誤;教育平臺(tái)Canvas癱瘓,學(xué)生上不了網(wǎng)課,交不了作業(yè);政府網(wǎng)站如部分聯(lián)邦服務(wù)也短暫下線,健康保險(xiǎn)網(wǎng)站能登錄,但拉不出理賠記錄。

智能家居也是受害者重災(zāi)區(qū)。亞馬遜自家的Alexa語音助手停擺,語音控制家電成空談,有網(wǎng)友稱“Alexa鬧鐘一響就關(guān)不掉”,評論區(qū)網(wǎng)友跟帖:“我家Alexa和Echo都掛了,定的鬧鐘一點(diǎn)沒響”。

Ring智能門鈴服務(wù)掛了,用戶看不了監(jiān)控,甚至打不開房門。還有用智能車庫的特斯拉車主,打不開車庫門。就連美聯(lián)航的機(jī)場調(diào)度系統(tǒng)都受到了影響。

迪士尼+、Apple TV、Prime Video、Netflix、Twitch都遭遇大規(guī)模無法連接或卡頓問題。之前人們用“蝴蝶效應(yīng)”形容復(fù)雜系統(tǒng)的脆弱性,如今,這只蝴蝶換成了AWS的服務(wù)器,只要它在弗吉尼亞的機(jī)房里輕輕“抽風(fēng)”一下,半個(gè)互聯(lián)網(wǎng)的屋頂就會(huì)塌,無數(shù)網(wǎng)站、app、物聯(lián)網(wǎng)設(shè)備、支付系統(tǒng)像多米諾骨牌,全線塌陷。
生活在云端
當(dāng)你看到這里時(shí),AWS的服務(wù)器已經(jīng)修復(fù),但網(wǎng)友們還陷在那幾個(gè)小時(shí)無限加載的恐慌里:原來支撐現(xiàn)代生活的那張數(shù)字之網(wǎng)如此脆弱?要理解這次大規(guī)模故障,首先得認(rèn)識(shí)一下AWS是什么。
AWS,全稱Amazon Web Services,它是亞馬遜旗下的云計(jì)算服務(wù)平臺(tái),也是一個(gè)數(shù)據(jù)中心、服務(wù)器機(jī)群和網(wǎng)絡(luò)節(jié)點(diǎn)遍布全世界的巨型網(wǎng)絡(luò)服務(wù)平臺(tái)。它就像現(xiàn)代互聯(lián)網(wǎng)?“電網(wǎng)”和“水管”,我們并不直接看到它,但幾乎所有的數(shù)字生活都靠它運(yùn)轉(zhuǎn),是互聯(lián)網(wǎng)最重要的“基礎(chǔ)設(shè)施”之一。全球上百萬家公司把網(wǎng)站、應(yīng)用、數(shù)據(jù)庫都托管在AWS上。

而這次出問題的“US - EAST - 1”區(qū)域,是AWS在弗吉尼亞州北部的旗艦數(shù)據(jù)中心集群,也是它全球業(yè)務(wù)的核心節(jié)點(diǎn)之一。業(yè)內(nèi)人士分析,這個(gè)區(qū)域承擔(dān)著過高的負(fù)載,很多全球知名網(wǎng)站、金融系統(tǒng)、API服務(wù)都默認(rèn)部署在這里。
根據(jù)亞馬遜的初步解釋,事故源于內(nèi)部一個(gè)監(jiān)控網(wǎng)絡(luò)負(fù)載均衡器的關(guān)鍵系統(tǒng)出錯(cuò),引發(fā)大面積連接失敗。通俗點(diǎn)說,即DNS解析出了岔子,系統(tǒng)找不到正確的“地址”,各大網(wǎng)站就像看不到收貨地址的外賣員,手里拿著飯卻不知道該送給誰。這本是可控的小故障,但在修復(fù)過程中又觸發(fā)了“級(jí)聯(lián)效應(yīng)”:為了止損,工程師關(guān)閉了一部分入口,卻導(dǎo)致新的服務(wù)器無法接入,流量分配再次紊亂。越修越亂,一環(huán)扣一環(huán),就像一場小車禍讓整個(gè)市中心大堵車。
截止到當(dāng)?shù)貢r(shí)間下午6時(shí)左右,亞馬遜旗下服務(wù)健康儀表板更新顯示,其服務(wù)已“恢復(fù)正常運(yùn)行”。

“蝴蝶效應(yīng)”為何會(huì)引發(fā)?核心原因在于云計(jì)算的“集中化魔咒”。AWS是云市場的“老大”,占全球30%的份額,而US - EAST - 1是它的旗艦區(qū)域,亞馬遜在這里砸了500億美元建數(shù)據(jù)中心,吸引了無數(shù)企業(yè)“安家”。根據(jù)AWS網(wǎng)站上的文檔,US - EAST - 1站點(diǎn)是許多AWS服務(wù)的默認(rèn)站點(diǎn)。為了省錢和便利,很多公司把核心數(shù)據(jù)全堆在這里,沒做足夠的“多區(qū)域備份”,就像把所有雞蛋放一個(gè)籃子,籃子晃一下就全碎了。同時(shí),AWS的系統(tǒng)就像一座極其精密咬合的機(jī)器,任何一個(gè)子系統(tǒng)的異常,都可能像倒下去的一塊多米諾骨牌,讓整個(gè)系統(tǒng)短暫崩潰。強(qiáng)大來源于高度整合,而脆弱也是因?yàn)檫^于集中。
這次短暫的宕機(jī)也讓無數(shù)公司和網(wǎng)友意識(shí)到,我們的生活、公司、政府服務(wù)是不是過于依賴某家公司的服務(wù)?;ヂ?lián)網(wǎng)的理想是分布式與開放,但現(xiàn)狀卻是集中與壟斷。我們所認(rèn)為“隨時(shí)可用”“永遠(yuǎn)在線”的背后,就是一張由少數(shù)幾家巨頭所搭建的網(wǎng)絡(luò)。一次短暫的宕機(jī),為我們敲響了警鐘。
本文來自微信公眾號(hào)“果殼”(ID:Guokr42),作者:糕級(jí)凍霧,編輯:沈知涵,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com


