Mengapa High Availability Penting bagi Bisnis
Saat ini, layanan jaringan sangat bergantung pada internet. Bahkan waktu henti (downtime) yang singkat dapat menyebabkan kerugian besar bagi bisnis. Gangguan dapat mengakibatkan hilangnya pendapatan, terganggunya operasional bisnis, meningkatnya risiko keamanan dan penipuan, serta sulitnya mengakses data. Dalam situasi seperti ini, citra perusahaan dapat tercoreng, dan kepuasan pelanggan bisa mengalami penurunan yang tidak dapat diperbaiki. Oleh karena itu, merancang dan menjalankan sistem dengan High Availability (HA) sangat penting untuk menghindari downtime.
Apa Itu High Availability?
Availability atau ketersediaan mengacu pada persentase total waktu di mana suatu sistem komputer dapat diakses dan beroperasi secara normal. Meskipun Anda mungkin menganggap bahwa ketersediaan optimal adalah 100%, angka tersebut sangat sulit dicapai. Sistem High Availability (HA) adalah sistem yang memiliki ketersediaan online dalam rentang 99,9% hingga 99,999% dari total waktu operasional. Idealnya, HA mencapai 99,999% (“lima sembilan”), yang berarti sistem hanya boleh mengalami downtime sekitar lima menit dalam setahun.
Availability % | Downtime per Year | Downtime per Month | Downtime per Week |
90% (“one nine”) | 36.5 days | 72 hours | 16.8 hours |
99% (“two nine”) | 3.65 days | 7.20 hours | 1.68 hours |
99.9% (“three nine”) | 8.76 hours | 43.8 minutes | 10.1 minutes |
99.99% (“four nine”) | 52.56 minutes | 4.32 minutes | 1.01 minutes |
99.999% (“five nine”) | 5.26 minutes | 25.9 seconds | 6.05 seconds |
99.9999% (“six nine”) | 31.5 seconds | 2.59 seconds | 0.605 seconds |
HA (High Availability) dapat ditingkatkan melalui fault tolerance. Dengan berdasarkan arsitektur perangkat keras dan perangkat lunak yang kompleks, setiap bagian dalam sistem bekerja secara independen satu sama lain. Oleh karena itu, kegagalan pada satu komponen pun tidak akan menyebabkan seluruh sistem mengalami “crash” atau gangguan total.
Memahami Konsep dari RPO dan RTO
RTO (Recovery Time Objective) dan RPO (Recovery Point Objective) adalah dua parameter yang paling penting dalam rencana pemulihan bencana atau perlindungan data. Tujuan ini dapat memandu perusahaan dalam memilih rencana cadangan data terbaik.
RTO adalah durasi waktu suatu aplikasi dapat dimatikan tanpa menyebabkan kerugian signifikan bagi bisnis. Beberapa aplikasi dengan prioritas tinggi hanya dapat dimatikan selama beberapa detik tanpa menyebabkan kemarahan pelanggan dan kehilangan bisnis. Faktanya, semakin pendek RTO pada aplikasi yang sangat penting, semakin baik.
RPO adalah ukuran jumlah maksimum data yang dapat hilang. Ini juga membantu mengukur waktu yang dapat terjadi antara cadangan data terakhir dan bencana tanpa menyebabkan kerugian bisnis yang serius. Sebenarnya, RPO tidak mengizinkan kehilangan data pada aplikasi yang sangat penting.
Persyaratan untuk Penyimpanan High Availability
Kami telah mencantumkan kriteria untuk penyimpanan High Availability berdasarkan tiga parameter utama, yaitu persentase ketersediaan, RTO (Recovery Time Objective), dan RPO (Recovery Point Objective).
HA Storage Type | Near HA | Native HA | True HA |
Availability % (Downtime per Year) | 99.9% (8.76 hours) | 99.999% (5.26 minutes) | 99.9999% (31.5 seconds) |
RTO (Recovery Time Objective) | < 5 minutes | < 30 seconds | < 30 seconds |
RPO (Recovery Point Objective) | ≠ 0 | = 0 | = 0 |
Penyimpanan High Availability adalah sistem penyimpanan yang dapat beroperasi secara terus-menerus atau setidaknya menyediakan waktu aktif (uptime) sebesar 99%. Redundansi adalah fitur utama dalam penyimpanan High Availability karena menghilangkan SPOF (Single Point of Failure).
Sebuah array penyimpanan High Availability memerlukan setidaknya dua pengontrol untuk memastikan kelangsungan operasi jika salah satu pengontrol mengalami kegagalan atau hilang. Persyaratan dasar lainnya untuk High Availability mencakup komponen modular yang tahan terhadap kegagalan (fault-tolerant) dan redundansi, seperti PSU (Power Supply Unit), modul kipas (FAN module), serta antarmuka drive disk dengan port ganda (dual-port disk drive interface). Selain itu, pembaruan firmware tanpa waktu henti (zero system downtime) memastikan sistem penyimpanan tetap aktif.
Untuk pemulihan bencana, penyimpanan High Availability memerlukan sistem penyimpanan redundan yang dapat mengambil alih data dan aplikasi penting yang dibutuhkan bisnis ketika salah satu sistem mengalami gangguan atau offline. Proses ini disebut sebagai failover. Dengan failover, tugas secara otomatis dialihkan ke sistem sekunder selama gangguan yang direncanakan maupun tidak terduga.
Pengguna dapat membangun layanan High Availability berdasarkan kebutuhan aplikasi mereka. Layanan dengan tingkat ketersediaan yang lebih tinggi dapat diterapkan melalui mekanisme yang lebih lengkap. Tentu saja, hal ini memerlukan biaya yang lebih besar karena membutuhkan lebih banyak pertimbangan.
Sebagai contoh, pencadangan data secara berkala mungkin memerlukan uptime sebesar 99.9%. RTO-nya masih dapat diterima dalam waktu 5 menit. Jika terjadi kehilangan data, pengiriman ulang data juga masih dapat diterima.
Namun, dalam layanan mission-critical seperti layanan email perusahaan atau sistem pengawasan skala besar, diperlukan uptime hingga 99.999% dan kehilangan data tidak dapat ditoleransi. Jika waktu henti terlalu lama, host dapat mengalami kegagalan dan mulai kehilangan paket I/O akibat terlalu banyak percobaan ulang (retry). Dalam kondisi ini, email pesanan pembelian yang penting bisa hilang atau rekaman gambar dari momen krusial mungkin tidak tersimpan.
Dalam layanan daring yang harus beroperasi tanpa henti, persyaratannya lebih ketat. Penggunaan AFA (All-Flash Array, lihat di sini) dengan perlindungan RAID EE (lihat di sini) serta mekanisme C2F (Cache-To-Flash, lihat di sini) sangat cocok untuk komputasi berkinerja tinggi dan layanan yang tidak boleh mengalami gangguan.
Perbandingan Penyimpanan High Availability (HA Storage)
Berdasarkan tiga indikator utama dalam penyimpanan High Availability (HA), mari kita bandingkan antara Dual Controller Storage dan 2-Node Storage Cluster.
Dual Controller Storage vs. 2-Node Storage Cluster
Dual Controller Storage | 2-Node Storage Cluster | |
Availability % (Downtime per Year) | At least 99.999% (5.26 minutes) | 99.9% (8.76 hours) |
RTO (Recovery Time Objective) | < 30 seconds | > 1 minutes |
RPO (Recovery Point Objective) | = 0 | ≠ 0 |
Penyimpanan dengan dual controller (active-active) menawarkan ketersediaan minimal 99.999%, dengan RTO < 30 detik dan RPO = 0, yang berarti tidak ada kehilangan data.
Sebaliknya, 2-node storage cluster dengan arsitektur active-passive tidak dapat mencapai RPO = 0 karena tidak memiliki mekanisme Cache-To-Flash (C2F). Selain itu, RTO-nya bisa lebih dari 1 menit, sehingga tingkat ketersediaannya hanya sekitar 99.9% uptime.
Keunggulan Arsitektur Active-Active
- Memungkinkan layanan penyimpanan real-time secara paralel.
- Menggandakan bandwidth host yang tersedia dan meningkatkan cache-hit rate, sehingga tidak ada sumber daya yang terbuang.
- Dual-controller all-in-one dengan dual-port SAS HDD lebih hemat biaya dan mudah diterapkan dibandingkan dengan 2-node storage cluster.
Meskipun keduanya diklaim sebagai solusi HA storage, pilihan terbaik tergantung pada kebutuhan bisnis dan anggaran Anda. Mana yang akan Anda pilih?
Kesimpulan
Dengan menjaga bisnis Anda tetap online dalam aplikasi yang kritis, Anda dapat terus beroperasi tanpa kehilangan pendapatan. Desain High Availability (HA) yang berkualitas akan membangun kepercayaan pelanggan dengan selalu tersedia dan dapat diandalkan.
Untuk memastikan penyimpanan benar-benar memenuhi standar High Availability, Anda dapat mengevaluasi apakah persyaratan seperti persentase ketersediaan, RTO, dan RPO telah terpenuhi.