新聞動态
在這(zhè)裏與我們增加了(le)解
數(shù)據中心最不願意見(jiàn)到的事情莫過于斷電,這(zhè)将會給運維人(rén)員(yuán)帶來很(hěn)多的麻煩,所以很(hěn)多數(shù)據機房都(dōu)很(hěn)樂(yuè)意接受UPS電源,尤其是在線式UPS電源。近來,不少(shǎo)公司因為(wèi)數(shù)據中心的電力中斷而備受困擾,比如(rú)美國(guó)達美航空公司數(shù)據中心的電力中斷,造成高達1.5億美元的經濟損失。又比如(rú)美國(guó)“超級碗”賽場斷電,耽誤賽事日程。
在運維過程中,數(shù)據中心面臨着諸多的挑戰,比如(rú)數(shù)據中心的運營費(fèi)用,這(zhè)就要(yào)求建立數(shù)據中心之前,進行(xíng)預算和(hé)規劃,又比如(rú)能(néng)源成本上(shàng)升采用雲主機托管,能(néng)源成本上(shàng)漲可(kě)以通(tōng)過使用新技術(shù)緩解,例如(rú)虛拟化和(hé)雲主機托管,可(kě)以大大降低(dī)能(néng)源成本。再比如(rú)維護和(hé)冷(lěng)卻要(yào)求,數(shù)據中心設施和(hé)組件需要(yào)在适合的溫度下(xià)全天不間(jiān)斷的工(gōng)作(zuò),這(zhè)就需要(yào)完善的冷(lěng)卻系統,以保持所需的溫度。
其實,數(shù)據中心還面臨着溝通(tōng)融合、基礎設施要(yào)求、缺乏資源、服務器效率、數(shù)據中心安全、網絡阻塞等挑戰,在這(zhè)其中,數(shù)據中心挑戰也占據着重要(yào)的位置,那(nà)麽是什麽原因導緻斷電,操作(zuò)員(yuán)的誤操作(zuò)、停電,也有可(kě)能(néng)是服務器負載過重,導緻系統崩潰。雖然數(shù)據中心斷電是非常嚴重的問(wèn)題,但(dàn)是我們還是希望有相關的解決方案。
在這(zhè)裏,我們需要(yào)确定幾個問(wèn)題:
1、跟随數(shù)據中心的變化,電力系統進行(xíng)升級
可(kě)以說數(shù)據中心的不同階段,對電力需求也在不停的變化,比如(rú)增加服務器或者交換機都(dōu)有可(kě)能(néng)對電力産生巨大的需求,所以及時(shí)掌握數(shù)據中心在這(zhè)一(yī)時(shí)間(jiān)段對電力的需求,變得十分重要(yào)。此外(wài),還需要(yào)對數(shù)據中心的供電進行(xíng)合理的評估,以免數(shù)據中心超載,供電不足造成停電的狀況。
2、知道(dào)所有互連設備和(hé)系統的一(yī)切情況
對于數(shù)據中心運營至關重要(yào)的是,需要(yào)電力鏈記錄在一(yī)起,從(cóng)進入建築物(wù)的電力,再通(tōng)過UPS、PDU/提供給所有的機架設備。這(zhè)意味着數(shù)據中心運營需要(yào)知道(dào)哪些與電力相關的設備,以及設備各自(zì)的相互依賴關系。這(zhè)可(kě)以讓數(shù)據中心運營了(le)解某些設備故障或脫機維護時(shí)的潛在影響。此外(wài),還應該了(le)解每個電源鏈設備的狀态。
可(kě)以通(tōng)過采用數(shù)據中心基礎架構管理(DCIM)實現對電源管理。DCIM使數(shù)據中心運營能(néng)夠以最高的效率運行(xíng)數(shù)據中心,同時(shí)允許所有相關人(rén)員(yuán)改進整體運營情況,并識别漏洞,從(cóng)而保持電源鏈的安全。部署的DCIM還可(kě)以讓數(shù)據中心運營全面了(le)解自(zì)己的産品,通(tōng)過共享實時(shí)數(shù)據和(hé)易于理解的圖表,消除IT和(hé)設施之間(jiān)的通(tōng)信孤島。
3、确保電源系統沒有受到攻擊或威脅
數(shù)據中心是通(tōng)過網絡進行(xíng)連接,當然除了(le)基架中包含的終端和(hé)訪問(wèn)點之外(wài),很(hěn)多渠道(dào)可(kě)能(néng)會成為(wèi)破壞數(shù)據中心的途徑,所以保護這(zhè)些渠道(dào)免受破壞,成為(wèi)數(shù)據中心建設需要(yào)考慮的問(wèn)題。
在這(zhè)裏,網絡攻擊成為(wèi)一(yī)種可(kě)能(néng)性,很(hěn)多黑(hēi)客可(kě)能(néng)不直接破壞供電系統,而是通(tōng)過網絡進入到數(shù)據中心,以達到破壞數(shù)據中心供電的目的。此外(wài),我們不應該隻防止通(tōng)過網絡手段對數(shù)據中心進行(xíng)破壞的黑(hēi)客,還應該防止內(nèi)部人(rén)員(yuán)的破壞,有些工(gōng)作(zuò)人(rén)員(yuán)因為(wèi)自(zì)身經驗不足,一(yī)個小小的錯誤,有可(kě)能(néng)導緻數(shù)據中心供電的中斷。
所以,為(wèi)了(le)防止通(tōng)過以上(shàng)手段進行(xíng)破壞的行(xíng)為(wèi),建立運維文檔和(hé)流程控制變得十分重要(yào)。在這(zhè)裏,采用更多的硬件不是防止災難性停電的最佳選擇,不妨采用軟件層面的管理,來的更加穩妥一(yī)些。
不妨多模拟故障安全測試,做(zuò)好完整的災難恢複計劃
數(shù)據中心在運營過程中,難免會出一(yī)些故障,所謂有備而無患,在真正出bug的狀況下(xià),之前遇到過或者曾經模拟了(le)出錯的場景,才更有經驗去應對故障。在這(zhè)裏,我們建議(yì)在不影響業務環境的情況下(xià)對數(shù)據中心進行(xíng)斷電測試,使用虛拟的開(kāi)關設備,将允許數(shù)據中心運營商可(kě)以應對最壞的情況,并對其進行(xíng)恢複。
數(shù)據中心工(gōng)作(zuò)人(rén)員(yuán)總是假設他(tā)們的電源供應鏈和(hé)電源備份系統是萬無一(yī)失的,但(dàn)是如(rú)果沒有故障安全測試,會認為(wèi)面臨什麽樣的結果?電源故障模拟使數(shù)據中心運營商可(kě)能(néng)找到缺乏冗餘的設施,并發現單點故障。但(dàn)是,這(zhè)需要(yào)文檔進行(xíng)記錄。因此,數(shù)據中心運營商在災難性的電源故障之前,建立斷電測試機制并記錄其恢複過程。
4、數(shù)據中心建設應該實時(shí)監控操作(zuò)
對數(shù)據中心進行(xíng)實時(shí)監控操作(zuò),是以防萬一(yī)的做(zuò)法,所以數(shù)據中心運營商必須知道(dào)設備都(dōu)被放在哪裏,以及使用了(le)多少(shǎo)電能(néng)。雖然對于不斷增加基礎架構的數(shù)據中心來說,這(zhè)很(hěn)困難,也有可(kě)能(néng)對電池容量和(hé)電源分配産生巨大的影響,但(dàn)是注意所有移動部件的唯一(yī)方法就是單一(yī)視(shì)圖,這(zhè)種整體視(shì)圖具有實時(shí)監控和(hé)警報的功能(néng),使數(shù)據中心運營商能(néng)夠減輕風(fēng)險,并進行(xíng)更改以避免災難發生。
數(shù)據中心一(yī)旦斷電,造成的經濟損失不可(kě)估量,倒不如(rú)從(cóng)筆(bǐ)者上(shàng)述的方法做(zuò)起,對數(shù)據中心每個環節進行(xíng)防護,這(zhè)樣才能(néng)更好地(dì)對數(shù)據中心進行(xíng)運維。