面對副本強一致性帶來(lái)的故障處理性能挑戰,InCloud Rail V8.0在分布式存儲組件dSAN最新架構中引入“故障預診與實(shí)時(shí)感知”、“數據副本降級寫(xiě)入”、“動(dòng)態(tài)智能同步”組合方案,在充分保證數據安全性的前提下,實(shí)現副本故障I/O不中斷,故障中性能下降<20%,完美解決副本故障與慢盤(pán)故障難題。 在超融合實(shí)際應用場(chǎng)景中,數據庫、redis隊列、PaaS服務(wù)等高I/O敏感型業(yè)務(wù)對I/O質(zhì)量有較高需求,超融合分布式存儲的I/O質(zhì)量直接決定了業(yè)務(wù)連續性與可用性,真實(shí)場(chǎng)景下I/O質(zhì)量問(wèn)題帶來(lái)的業(yè)務(wù)連續性故障屢見(jiàn)不鮮。實(shí)際經(jīng)驗告訴我們,用戶(hù)注重I/O數量的同時(shí),需要高度關(guān)注I/O質(zhì)量,I/O質(zhì)量越來(lái)越成為不可忽視的問(wèn)題,是業(yè)務(wù)連續性的重要決定因素。 在故障場(chǎng)景下,InCloud Rail V8.0超融合分布式存儲設計以數據安全為根本出發(fā)點(diǎn),實(shí)現了多種數據安全策略和方法的創(chuàng )新應用。為了保障數據的安全性,InCloud Rail V8.0采取強一致性分布式存儲同步方案:即請求I/O的多個(gè)副本全部完成后請求才能完成,這種機制有效地保證了業(yè)務(wù)數據的安全、可靠、可用。 但是這種副本強一致性架構也面臨挑戰:一旦副本所在服務(wù)器或磁盤(pán)發(fā)生故障或出現慢盤(pán),造成某副本無(wú)法及時(shí)完成讀寫(xiě)操作,分布式存儲系統為了保證數據的一致性,I/O請求需等待數據同步后再進(jìn)行下一步操作,造成業(yè)務(wù)級I/O中斷,且分布式存儲系統受數據同步的影響導致大量I/O返回時(shí)延增加,呈現為分布式存儲之上虛擬機承載業(yè)務(wù)出現I/O中斷或應用訪(fǎng)問(wèn)延遲,故障后相當長(cháng)一段時(shí)間內業(yè)務(wù)持續受到影響無(wú)法恢復,最終使業(yè)務(wù)不可用。 InCloud Rail V8.0通過(guò)故障預診與實(shí)時(shí)感知,降低I/O中斷時(shí)間,并按照副本寫(xiě)降級和智能動(dòng)態(tài)恢復的方式,降低故障帶來(lái)的數據同步影響,保證強一致性模型的前提下,降低I/O下降時(shí)間和對整體集群性能的影響。 故障預診與實(shí)時(shí)感知:通過(guò)對集群異常的提前診斷與實(shí)時(shí)感知,做到故障時(shí)I/O不中斷,保障I/O的連續性以降低跌零可能性與時(shí)長(cháng)。 副本降級寫(xiě):通過(guò)寫(xiě)入健康副本和降級副本加降級圖譜,解除I/O與數據同步的強依賴(lài)關(guān)系,保障降級后數據副本容錯能力、I/O性能和數據一致性。 動(dòng)態(tài)智能同步:通過(guò)對數據同步策略的動(dòng)態(tài)精準調控,降低數據同步對性能的影響,做到數據同步與業(yè)務(wù)I/O性能的均衡,最大程度降低對應用性能的影響。 InCloud Rail V8.0通過(guò)多維度智能組合策略,最大限度保障故障場(chǎng)景下I/O連續性,多維度保證超融合系統I/O質(zhì)量,以實(shí)現超融合系統“持續可用”,InCloud Rail V8.0在追求更高I/O輸出能力的基礎上,更加注重I/O質(zhì)量的輸出,以更加穩健的產(chǎn)品定位,支撐更多客戶(hù)核心關(guān)鍵業(yè)務(wù)連續運行。 |