盤點(diǎn)近幾年的互聯(lián)網(wǎng)宕機(jī)事件,都是啥原因?
互聯(lián)網(wǎng)宕機(jī)事件頻繁發(fā)生,引發(fā)廣泛關(guān)注,本文將回顧一些國內(nèi)外重大宕機(jī)事件,并分析宕機(jī)的可能原因。讓我們一起來看看吧!
“滴滴滴滴滴滴等待”,從昨天晚上到今天中午,滴滴崩了難住了不少打工人。
這次宕機(jī)持續(xù)近12個(gè)小時(shí),算是滴滴近年來癱瘓時(shí)間最長的一次故障。
滴滴2023年第三季度財(cái)報(bào)顯示,單季度中國出行業(yè)務(wù)總交易額為725億元,日均單量達(dá)到3130萬單。據(jù)此,有媒體估計(jì)將會讓滴滴損失過千萬的訂單量和超4億的交易額。
而除了滴滴外,阿里云在不到10天的時(shí)間里也出現(xiàn)了兩次故障。
第一次是11月12日下午5點(diǎn)多,阿里云出現(xiàn)異常,隨之“淘寶又崩了”“閑魚崩了”“阿里云盤崩了”“釘釘崩了”等話題相繼登上微博熱搜。
原因是2023年11月12日17:44起,阿里云產(chǎn)品控制臺訪問及API調(diào)用出現(xiàn)出現(xiàn)使用異常,阿里云工程師正在緊急介入排查。當(dāng)天晚上7點(diǎn)20左右恢復(fù)正常。
第二次就是昨天,阿里云再次出現(xiàn)故障,不到兩個(gè)小時(shí)后得到修復(fù)。
阿里云聲明稱11月27日09:16起,阿里云監(jiān)控發(fā)現(xiàn)北京、上海、杭州、深圳、青島 、香港以及美東、美西地域的數(shù)據(jù)庫產(chǎn)品(RDS、PolarDB、Redis等)的控制臺和OpenAPI訪問出現(xiàn)異常,實(shí)例運(yùn)行不受影響。經(jīng)過工程師緊急處理,訪問異常問題已于當(dāng)日10:58恢復(fù)。
而事實(shí)上,阿里云在近幾年曾出現(xiàn)多次事故。從2018年至2022年的5年時(shí)間里,阿里云曾有3次大事故。
2022年12月18日,阿里云爆發(fā)香港Region可用區(qū)C大規(guī)模服務(wù)中斷事件,導(dǎo)致多個(gè)香港及澳門站點(diǎn)受到影響。當(dāng)時(shí)阿里云坦言:“這對很多客戶的業(yè)務(wù)產(chǎn)生重大影響,也是阿里云運(yùn)營十多年來持續(xù)時(shí)間最長的一次大規(guī)模故障。”
后來,阿里云發(fā)布了事件說明,公告顯示,冷機(jī)系統(tǒng)故障恢復(fù)時(shí)間過長、現(xiàn)場處置不及時(shí)導(dǎo)致觸發(fā)消防噴淋、客戶在香港地域新購ECS等管控操作失敗、故障信息發(fā)布不夠及時(shí)透明是導(dǎo)致此次宕機(jī)時(shí)間長、規(guī)模大的四大重要原因。
下面我們再來盤點(diǎn)下近幾年來影響較大的宕機(jī)事件。
一、先看看國際宕機(jī)事件
1. Facebook史上最嚴(yán)重宕機(jī),長達(dá)7小時(shí),市值蒸發(fā)數(shù)百億
2021年10月5日,F(xiàn)acebook、Messenger、Instagram和WhatsApp等Facebook旗下應(yīng)用均出現(xiàn)故障。
據(jù)了解,此次宕機(jī)長達(dá)7個(gè)小時(shí),刷新了 Facebook 自 2008 年以來的最長宕機(jī)時(shí)長。
此次宕機(jī)影響到全球數(shù)十個(gè)國家和地區(qū)用戶,F(xiàn)acebook幾乎所有的產(chǎn)品都受到波及,甚至內(nèi)網(wǎng)都無法使用。Facebook擁有幾十億用戶,影響范圍不可想象。
宕機(jī)期間,大量用戶涌向了Twitter、Telegram等其他應(yīng)用,又進(jìn)一步導(dǎo)致這些應(yīng)用程序的服務(wù)器崩潰。
后來Facebook對宕機(jī)原因進(jìn)行了說明。
聲明中稱:“據(jù)我們工程團(tuán)隊(duì)的了解,協(xié)調(diào)數(shù)據(jù)中心之間網(wǎng)絡(luò)流量的主干路由器的配置變化導(dǎo)致了通信中斷,由此對我們數(shù)據(jù)中心的通信方式產(chǎn)生了連帶影響,使我們的服務(wù)陷入停頓。”
當(dāng)日Facebook股價(jià)盤中暴跌6%,市值減少數(shù)百億美元,扎克伯格個(gè)人財(cái)富一日蒸發(fā)逾60億美元。
當(dāng)時(shí)有媒體報(bào)道,專家估計(jì)Facebook、Instagram、WhatsApp全球服務(wù)中斷一小時(shí)就將給全球經(jīng)濟(jì)造成1.6億美元的損失。
2. ChatGPT和API服務(wù)出現(xiàn)嚴(yán)重停機(jī),CEO公開致歉
根據(jù)網(wǎng)絡(luò)狀況監(jiān)測網(wǎng)站Downdector的數(shù)據(jù)顯示,大概從11月8日北京時(shí)間周三晚22點(diǎn)左右開始,出現(xiàn)大量網(wǎng)友報(bào)告OpenAI的ChatGPT和API(提供給開發(fā)者搭建第三方服務(wù)的應(yīng)用程序接口)全都無法使用。整個(gè)故障的時(shí)間大致持續(xù)了100分鐘。
OpenAI也將這次的事件定義為“嚴(yán)重停機(jī)”(Major Outage)。公司在北京時(shí)間11月8日21點(diǎn)54分宣布服務(wù)出現(xiàn)問題。最終在當(dāng)天23點(diǎn)33分,OpenAI確認(rèn)已實(shí)施修復(fù)措施,服務(wù)開始逐漸恢復(fù)。
為此,OpenAI CEO山姆·奧特曼在X(原推特)上發(fā)表公開致歉稱,本周發(fā)布的新功能遇到遠(yuǎn)超預(yù)期的使用量。公司原計(jì)劃在周一為所有訂閱者啟用GPT服務(wù),但目前還無法實(shí)現(xiàn)。奧特曼進(jìn)一步表示,由于負(fù)載原因,短期內(nèi)可能還會出現(xiàn)服務(wù)不穩(wěn)定的情況。
3. 蘋果公司也多次宕機(jī)
作為全球最受矚目的科技公司,蘋果也有過宕機(jī)事件。
在去年蘋果曾多次出現(xiàn)宕機(jī)事故,一月份有1次,3月份有2次,8月份還有一次。
2022年1月26日,蘋果iCloud服務(wù)遭遇大范圍宕機(jī),受影響嚴(yán)重的地區(qū)有紐約、芝加哥、洛杉磯。
同年3月23日,蘋果再次出現(xiàn)服務(wù)器宕機(jī)。來到8月份,蘋果的一些iCloud服務(wù)發(fā)生了中斷。
2023年5月11日,蘋果全球服務(wù)經(jīng)歷了55分鐘的大規(guī)模宕機(jī),導(dǎo)致許多用戶的 Apple ID / iCloud 賬戶突然登出,無法登錄。宕機(jī)的原因是數(shù)據(jù)中心的嚴(yán)重故障,導(dǎo)致蘋果公司的多項(xiàng)服務(wù)無法正常運(yùn)行,包括 iCloud、App Store、iTunes 等。
4. 谷歌曾一年就4次宕機(jī)
谷歌也經(jīng)常發(fā)生宕機(jī)事件。
2022年8月8日,美國愛荷華州康瑟爾布拉夫斯的谷歌數(shù)據(jù)中心發(fā)生電力事故,導(dǎo)致3名電工嚴(yán)重?zé)齻?/p>
據(jù)媒體報(bào)道,3名電工在數(shù)據(jù)中心大樓附近的變電站工作時(shí),突然發(fā)生了電弧閃光,事故造成全球40多個(gè)國家/地區(qū)的至少1338臺服務(wù)器中斷服務(wù),谷歌搜索遭遇全球性宕機(jī)。
此外,在2020年谷歌就發(fā)生了4次宕機(jī)事件。
5. 特斯拉全球性宕機(jī)
2020年9月,特斯拉系統(tǒng)遭全球性宕機(jī)。
從美東時(shí)間9月23日11點(diǎn)開始,特斯拉車主便無法通過手機(jī)App連接到汽車上。同樣的問題也發(fā)生在特斯拉的能源產(chǎn)品上,特斯拉太陽能和Powerwall儲能電池用戶無法監(jiān)控他們的系統(tǒng)。
有用戶在宕機(jī)追蹤網(wǎng)站Down Detetor上表示,特斯拉App在iPhone上顯示已經(jīng)“凍結(jié)”,卸載、重新下載了后App則顯示“出現(xiàn)錯(cuò)誤”。受到影響的車主大部分來自美國,英國、德國、俄羅斯等歐洲國家的車主也報(bào)告了類似的問題,一些中國車主也反映了特斯拉App手機(jī)鑰匙斷開連接的問題。
有網(wǎng)友在推特求救稱,自己在一個(gè)沙漠的超級充電樁,但被鎖在Model 3車外了,特斯拉App無法連接到車上,已經(jīng)撥打緊急道路救援電話快兩小時(shí)了。
這并非特斯拉第一次出現(xiàn)全系統(tǒng)的宕機(jī)。早在2018年4月21日,從下午開始一直到次日早上,眾多特斯拉車主經(jīng)歷了長時(shí)間的App宕機(jī)。當(dāng)時(shí),特斯拉承認(rèn)出現(xiàn)了問題并表示當(dāng)日晚間已經(jīng)修復(fù),但許多車主在次日早上仍在經(jīng)歷同樣的問題。而2017年3月7日,特斯拉的APP和API停機(jī)幾乎長達(dá)24小時(shí)。
6. 云計(jì)算巨頭OVH數(shù)據(jù)中心大火,導(dǎo)致360萬個(gè)網(wǎng)站下線
2021年3月份,歐洲云計(jì)算巨頭OVH位于法國斯特拉斯堡的數(shù)據(jù)中心發(fā)生嚴(yán)重火災(zāi),該區(qū)域總共有 4 個(gè)數(shù)據(jù)中心,其中一個(gè)數(shù)據(jù)中心被完全燒毀。大火6個(gè)小時(shí)才被撲滅。
據(jù)了解,此次多達(dá)360萬個(gè)網(wǎng)站下線。
受到此次大火影響的客戶包括歐洲航天局的數(shù)據(jù)與信息訪問服務(wù)ONDA項(xiàng)目,此項(xiàng)目負(fù)責(zé)為用戶托管地理空間數(shù)據(jù)并在云端構(gòu)建應(yīng)用程序。Rust旗下的游戲工作室Facepunch Studios證實(shí),有25臺服務(wù)器被燒毀,他們的數(shù)據(jù)已在這場大火中全部丟失。即使數(shù)據(jù)中心重新上線后,也無法恢復(fù)任何數(shù)據(jù)。
7.美國民航系統(tǒng)癱瘓,數(shù)百架次航班取消
2023年1月11日,美國民航系統(tǒng)于當(dāng)?shù)貢r(shí)間周三早間癱瘓,導(dǎo)致當(dāng)日9時(shí)全美所有航班禁飛,超過4000架次國內(nèi)國際航班延誤,據(jù) FlightAware 數(shù)據(jù)顯示,截至美東時(shí)間8時(shí)50分,全美約698架次航班取消。
這次故障可能源于飛行任務(wù)通知系統(tǒng)的一個(gè)文件損壞,而在緊急情況下使用的備份系統(tǒng)也發(fā)現(xiàn)了損壞文件,美國聯(lián)邦航空管理局被迫重啟系統(tǒng),導(dǎo)致航班大面積延誤或取消。
二、再來看看國內(nèi)宕機(jī)事件
1. 唯品會宕機(jī)12小時(shí),損失超億元
今年3月29日,“唯品會崩了”登上熱搜,由于崩潰時(shí)間太長,影響了很多消費(fèi)者無法正常下單,唯品會官方對此回應(yīng)稱,因系統(tǒng)短時(shí)故障,主站“加購”等功能或出現(xiàn)異常。
6月5日,唯品會發(fā)布“關(guān)于329機(jī)房宕機(jī)故障處理公告”,公告稱,3月29日(00:14-12:01)南沙IDC冷凍系統(tǒng)故障,導(dǎo)致機(jī)房設(shè)備溫度快速升高宕機(jī),造成線上商城停止服務(wù)。此次事故影響時(shí)間持續(xù)12個(gè)小時(shí),導(dǎo)致唯品會業(yè)績損失超億元,影響客戶達(dá)800萬,唯品會將此次故障判定為P0級故障。
公告指出,唯品會決定對此次事件嚴(yán)肅處理,對應(yīng)部門的直接管理者承擔(dān)此次事故責(zé)任,基礎(chǔ)平臺部負(fù)責(zé)人予以免職做相應(yīng)處理。
2. 招商證券三個(gè)月崩2次
2022年3月和5月,招商證券出現(xiàn)了2次系統(tǒng)崩潰情況。
3月14日早間開盤后,陸續(xù)有網(wǎng)友在社交平臺反映招商證券交易系統(tǒng)出現(xiàn)系統(tǒng)故障,包括無法成交、無法撤回等。隨后,“招商證券崩了”登上微博熱搜。
5月16日,有大量投資者再次反映招商證券系統(tǒng)崩潰,電腦和手機(jī)都無法登錄。
事實(shí)上除了招商證券,今年3月份,東方財(cái)富證券交易軟件在一個(gè)交易日內(nèi)出現(xiàn)“兩連崩”。
3. 語雀宕機(jī)7小時(shí),影響數(shù)千萬用戶
2023年10月23日,螞蟻集團(tuán)旗下的在線文檔編輯與協(xié)同工具語雀發(fā)生服務(wù)器故障。從故障發(fā)生到完全恢復(fù)正常,語雀整個(gè)宕機(jī)時(shí)間將近8小時(shí)。
語雀方面表示,10月23日下午,服務(wù)語雀的數(shù)據(jù)存儲運(yùn)維團(tuán)隊(duì)在進(jìn)行升級操作時(shí),由于新的運(yùn)維升級工具bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲服務(wù)器被誤下線。
4. 百度宕機(jī)系運(yùn)營商DNS問題
2018年11月9日,百度網(wǎng)站疑似崩潰,移動(dòng)端和網(wǎng)頁端均無法打開。對此百度方面回應(yīng)稱,系運(yùn)營商DNS問題,影響北京聯(lián)通部分用戶。
據(jù)了解,本次事故主要涵蓋北京地區(qū)的聯(lián)通用戶。具體表現(xiàn)為無法打開百度移動(dòng)端和網(wǎng)頁端。目前,百度方面稱,已與運(yùn)營商方面聯(lián)動(dòng),目前已經(jīng)定位并正在加緊修復(fù)該問題。
三、宕機(jī)原因都有啥?
服務(wù)器宕機(jī)的原因五花八門,常見原因有:
- 硬件故障:服務(wù)器的硬件組件(如電源、內(nèi)存、硬盤、主板等)出現(xiàn)故障,導(dǎo)致系統(tǒng)無法正常工作。
- 軟件問題:操作系統(tǒng)、應(yīng)用程序或驅(qū)動(dòng)程序出現(xiàn)錯(cuò)誤、崩潰或沖突,導(dǎo)致系統(tǒng)不穩(wěn)定甚至宕機(jī)。
- 資源耗盡:CPU、內(nèi)存、磁盤空間或網(wǎng)絡(luò)帶寬等資源耗盡,使服務(wù)器無法繼續(xù)運(yùn)行。
- 網(wǎng)絡(luò)問題:網(wǎng)絡(luò)故障、網(wǎng)絡(luò)攻擊(如DDoS攻擊)或網(wǎng)絡(luò)設(shè)備問題導(dǎo)致服務(wù)器無法正常訪問或通信。
- 電力問題:電源不穩(wěn)定、電壓波動(dòng)、電力供應(yīng)中斷等問題導(dǎo)致服務(wù)器關(guān)機(jī)或宕機(jī)。
- 安全問題:惡意攻擊、病毒、惡意軟件或黑客入侵導(dǎo)致服務(wù)器宕機(jī)或無法正常工作。
- 操作錯(cuò)誤:誤操作、配置錯(cuò)誤或不當(dāng)?shù)南到y(tǒng)管理操作可能導(dǎo)致服務(wù)器不穩(wěn)定或宕機(jī)。
- 數(shù)據(jù)庫問題:數(shù)據(jù)庫故障、死鎖、數(shù)據(jù)損壞等問題可能影響應(yīng)用程序和服務(wù)器的正常運(yùn)行。
- 溫度問題:過高的溫度可能導(dǎo)致服務(wù)器硬件損壞或系統(tǒng)關(guān)機(jī),尤其是在散熱不良的情況下。
文中提到的例子中,很多都有涉及。比如ChatGPT就是典型的服務(wù)器負(fù)載過大;美國民航系統(tǒng)是文件損壞,不得不重啟系統(tǒng);還有唯品會是運(yùn)行環(huán)境的冷卻系統(tǒng)故障,高溫導(dǎo)致機(jī)房宕機(jī)。
除了以上原因,我們還能注意到火災(zāi)等危險(xiǎn)也是服務(wù)器面臨的重要考驗(yàn)。
當(dāng)然服務(wù)器宕機(jī)是個(gè)復(fù)雜的問題,可能受到多重因素的影響,背后的原因也比我們想象的復(fù)雜。
有人認(rèn)為最近頻繁的宕機(jī)或許和人員優(yōu)化有關(guān),得出人才缺失的結(jié)論。這種說法看似有點(diǎn)道理,但實(shí)則沒有有力依據(jù)。
對一個(gè)成熟公司來說,邊緣業(yè)務(wù)可能因?yàn)槿瞬帕魇艿捷^大影響,而核心業(yè)務(wù)根本不會。
作者:三言
來源公眾號:三言Pro(ID:sycaijing),提供新科技、新消費(fèi)、新未來的前沿資訊。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @三言財(cái)經(jīng) 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!