AWS 數據中心再出斷電事故,導致部分客戶數據丟失

2019-09-05 21:28:44 GDIDC

美國勞動節(9月第一個星期一)周末,亞馬遜網絡服務中心的一個數據中心發生斷電,導致部分客戶數據丟失。


我們被告知,當電源耗盡,備份生成器隨后出現故障時,一些虛擬服務器實例就會消失,而一些云承載的卷就會被銷毀,必須從備份中恢復(在可能的情況下)。


今天一位注冊讀者向我們透露,周六上午,亞馬遜的云業務開始在其us - east -1地區遭遇崩潰。


我們的情報人員告訴我們,他們在Amazon的云托管Elastic Block Store(EBS)中有超過1TB的數據,這些數據在宕機期間消失了:他們被告知“與您的EBS卷相關的底層硬件發生了故障,與卷相關的數據不可恢復。”


我們的讀者要求保持匿名,他能夠手動從大約8小時前方便地拍攝的EBS快照中恢復數據。沒有這個備份,他們可能無法恢復任何丟失的信息:亞馬遜的工程師們能夠恢復絕大多數被擊落的系統,盡管不是所有的存儲容量都能在這次硬著陸中幸存下來。


AWS工作人員告訴那些不幸的客戶,盡管他們試圖恢復丟失的比特和字節,但有些1和0被永久打亂了:“少量的卷是駐留在硬件損失的不利影響的力量。但是,由于power事件造成的損壞,這些卷的底層EBS服務器還沒有恢復。


“在進一步嘗試恢復這些卷之后,它們被確定為不可恢復的。”


與此同時,一個客戶和技術顧問Andy Hunt,不僅在推特上抱怨說,他們的數據在斷電時被破壞,但還聲稱失敗的原因并不是迅速傳達到用戶:“AWS電源故障,備用發電機失敗,造成他們死亡EBS服務器,它帶著我們所有的數據。然后他們花了四天的時間才弄明白并告訴我們。


“提醒:云只是萊斯頓的一臺電源不好的計算機。”


記者無法聯系到AWS發言人置評。


“受損”


雖然AWS的狀態頁面上公布了一些停機時間的細節,但El Reg看到了一系列更詳細的通知,這些通知向客戶解釋了這個錯誤。


就在 11:00 PDT之前,AWS指出,“在US-East-1地區的六個可用區域之一的十個數據中心中,有一個出現了公用電力故障。備用發電機立即啟動,但由于我們仍在調查的原因,在 06:00 PDT左右開始迅速失靈。”


“這導致該可用性區域中7.5%的實例在 06:10 PDT之前失敗,”報告繼續說道。“在過去幾個小時內,我們已經恢復了大多數實例,但在可用性區域內仍有1.5%的實例有待恢復。EBS也存在類似的影響,我們將繼續恢復EBS中的卷。在該區域啟動新實例將繼續正常工作。”


大約幾小時后,在太平洋標準時間13:30分,AWS澄清并擴展了它的說明如下:


在 04:33 PDT,位于US-East-1地區六個可用區域之一的十個數據中心之一出現了公用電力故障。我們的備用發電機立即啟動,但在06:00 PDT左右開始失靈。這影響了可用性區域中7.5%的EC2實例和EBS卷。


在PDT為 07:45 時,受影響的數據中心已完全恢復供電。到 10:45 PDT時,除1%以外的所有實例都恢復了,到 12:30 PDT時,只有0.5%的實例仍然受損。自影響開始以來,我們一直在努力恢復剩余的實例和卷。少量剩余的實例和卷托管在硬件上,這些硬件受到斷電的不利影響。我們將繼續努力恢復所有受影響的實例和卷,并將通過個人健康儀表板與其余受影響的客戶進行通信。為了立即恢復,我們建議盡可能替換任何剩余的受影響的實例和卷。


因此,根據Amazon的說法,實際上,在美國西海岸時間周六凌晨,AWS數據中心斷電,一個半小時后,備份生成器發生故障,在可用性區域內,每10臺EC2虛擬機和EBS卷中只有1臺宕機。


幾個小時后,99.5%的受影響系統已經恢復,而在那些仍然“受損”的系統中,有些是不可恢復的,這迫使訂閱者取出備份——假設他們保留了備份。


標簽: aws
主站蜘蛛池模板: 石棉县| 册亨县| 襄汾县| 大理市| 山东| 贵港市| 怀来县| 商水县| 吐鲁番市| 祁门县| 简阳市| 昌黎县| 江源县| 磐安县| 辰溪县| 南岸区| 洪雅县| 汨罗市| 内乡县| 诸暨市| 宜兴市| 鄂托克旗| 临西县| 永平县| 连城县| 拜泉县| 额敏县| 措美县| 龙南县| 拉萨市| 灵宝市| 保亭| 武隆县| 彰化市| 金坛市| 古丈县| 龙陵县| 伊宁市| 卓资县| 满洲里市| 突泉县|