QSAN 部落格

重新定義高可用性(HA)儲存系統

blog-Redefine Storage for High Availability (HA)

內容大綱

為何高可用性對企業至關重要?

現今網路服務高度依賴於網際網路。即使短暫的停機也可能對企業造成巨大損失。停機不僅導致收入損失,更可能中斷業務營運、安全、增加詐騙風險,以及對資料的可訪問性嚴重受阻。在這些災難中,可能受損公司形象及客戶滿意度。因此,良好的設計並運行高可用性系統是避免停機的關鍵。

何謂高可用性?

可用性指的是電腦系統在正常工作期間可以被訪問的總時間百分比。您可能認為最佳可用性是 100%,但實際上卻難以達到。高可用性(HA)系統指的是在 99.9% 至 99.999% 的時間範圍內具有在線可用性的系統。理想的 HA 為 99.999%,一年只能容忍約五分鐘的停機時間。

可用性百分比每年停機時間每月停機時間每週停機時間
90% (一個9)36.5 天72 小時16.8 小時
99% (兩個9)3.65 天7.20 小時1.68 小時
99.9% (三個9)8.76 小時43.8 分鐘10.1 分鐘
99.99% (四個9)52.56 分鐘4.32 分鐘1.01 分鐘
99.999% (五個9)5.26 分鐘25.9 秒6.05 秒
99.9999% (六個9)31.5 秒2.59 秒0.605 秒

高可用性可以通過容錯來提升。基於複雜的硬體和軟體架構,系統的所有部分可以完全獨立運作。因此,任何一個組件的故障不會導致整個系統崩潰。

什麼是 RPO 和 RTO?

RTO(復原時間目標)和 RPO(復原點目標)是災難復原或資料保護計劃中最重要的兩個參數。這些目標可以指導企業選擇最適合的資料備份計劃。

RTO 是應用程式可以關閉的時間,而不會對業務造成重大損害。一些高優先級的應用程式可能只能關閉幾秒鐘,而不會引起客戶不滿和業務損失。事實上,在關鍵應用程式中,RTO 越短越好。

RPO 是允許的最大資料丟失量的衡量標準。它還幫助衡量最後一次資料備份和災難之間可以發生的時間,而不會導致嚴重的業務損失。事實上,在關鍵應用程式中,RPO 不允許任何資料丟失。

高可用性儲存的需求

我們列出了高可用性儲存的需求,這取決於三個參數:可用性百分比、RTO(復原時間目標)和 RPO(復原點目標)。

高可用性儲存類型NearNativeTrue
可用性百分比 (每年停機時間)99.9% (8.76 )99.999% (5.26 minutes)99.9999% (31.5 seconds)
RTO (Recovery Time Objective)< 5 分鐘< 30 seconds< 30 seconds
RPO (Recovery Point Objective)≠ 0= 0= 0

高可用性儲存是一種能夠持續運作或至少提供 99% 以上正常運行時間的儲存系統。冗餘性是高可用性儲存的重要特徵,因為它消除了單點故障(SPOF)。高可用性儲存陣列在一個控制器失效或遺失時需要至少兩個控制器。高可用性的其他基本要求包括具有容錯和冗餘模組化組件的電源供應單元(PSU)、風扇模組(FAN)和雙通道磁碟驅動器介面。透過零系統停機的韌體更新可保持儲存系統的運作。

在災害復原方面,高可用性儲存需要冗餘的儲存系統來接管企業需要的關鍵資料和應用程式,當其中一個系統離線時。這稱為故障切換(failover)。故障切換時,任務會在計畫或非計畫的中斷期間自動重定向到次要系統。

使用者可以根據應用程式建立高可用性服務。高可用性百分比較高的服務可以透過更完整的機制來實現。當然,這會造成相當高的成本,因為需要更多的考慮。

以定期資料備份為例,可能需要 99.9% 的正常運行時間。其復原時間目標(RTO)在 5 分鐘內即可。如果遇到資料丟失,也可以接受重新傳送。

在企業郵件服務或大規模監控等關鍵應用程式中,需要 99.999% 的正常運行時間,且不能容忍資料丟失。如果停機時間過長,主機可能失敗,並在重試過多時開始丟失 I/O 丟包。此時,重要的採購訂單電子郵件可能會丟失,或者關鍵時刻的影像可能不會被記錄。

在線不間斷的服務條件更嚴格。在這種情況下,可以使用具有 RAID EE 保護和 C2F 機制的全快閃陣列AFA 儲存解決方案),適用於高計算和不間斷服務。

高可用性儲存比較

基於高可用性儲存的三個指標,讓我們比較雙控制器儲存與 2 節點儲存叢集。

雙控制器儲存 vs. 2 節點儲存叢集

雙控制器儲存2 節點儲存叢集
可用性百分比 (每年停機時間)至少 99.999% (5.26 分鐘)99.9% (8.76 小時)
RTO (Recovery Time Objective)< 30 秒> 1 分鐘
RPO (Recovery Point Objective)= 0≠ 0

雙控制器 (雙主動式) 儲存的特點是至少 99.999% 的可用性,RTO < 30秒,並且RPO 無資料丟失。然而,具有雙主動式架構的 2 節點儲存叢集由於缺乏 C2F 而無法達到 0 RPO ,其 RTO 可能超過1分鐘。因此,總可用性百分比可能為 99.9% 的正常運行時間。

雙主動式控制器架構可以同時提供即時的儲存服務,使可用的主機頻寬和快取命中率翻倍,確保系統中沒有浪費的資源。此外,具有雙通道 SAS HDD 的一體化雙控制器比 2 節點儲存叢集更具成本效益且易於部署。

兩種架構都聲稱具有高可用性儲存,你會選擇哪一種?

我們的觀點

透過保持關鍵應用程式在線上運行,您將始終能夠維持業務運作而不會損失任何收入。優質的高可用性設計將透過始終在線供使用來建立客戶信任。對於真正的高可用性儲存,您可以檢查可用性百分比、RTO 和 RPO 等條件是否符合。

Official Blog

資料儲存管理的最新趨勢和觀點