데이터 감소 기술 적용 여부: 데이터 관리 전략 시리즈 – Part 2

Apply-Data-Reduction-or-Not-Data-Management-Strategy-Series---Part-2

목차

리소스가 제한적이기 때문에, 예산이나 물리적 자원에 상관없이 스토리지 솔루션 공급업체는 데이터 저장 효율성을 개선하기 위해 노력하고 있습니다. 이에 더해, 소프트웨어 정의 데이터 감소 정책은 이러한 딜레마를 해결하는 열쇠로 작용합니다.

데이터 감소는 원시 데이터의 실제 용량을 줄이기 위한 기술을 포괄적으로 지칭합니다. 데이터 중복 제거와 압축은 데이터 증가 문제를 해결하는 데 주로 사용되는 두 가지 대표적인 정책입니다. 본 문서에서는 이 두 가지 기능의 장점과 단점을 살펴보겠습니다

압축

데이터 압축은 파일이나 데이터 세트의 크기를 줄이기 위해 설계된 데이터 저장 기술입니다. 정보를 더 효율적으로 인코딩함으로써, 압축은 데이터를 저장하는 데 필요한 공간을 줄이면서 본질적인 내용을 유지합니다.

기업 환경에서는 압축이 다양한 애플리케이션에서 널리 사용되어 저장소를 최적화하고, 데이터 전송 속도를 높이며, 전반적인 저장 효율성을 향상시킵니다. 백업과 아카이브는 압축에 가장 적합한

애플리케이션입니다. 또한, 파일 공유나 로그 파일 관리와 같이 자주 액세스하지 않는 데이터 유형도 압축에 적합합니다.

압축은 기업에서 다양한 유형의 애플리케이션에 더 일반적으로 사용될 수 있습니다. 그럼에도 불구하고, 몇 가지 단점이 압축의 효율성을 제한합니다. 첫째, 압축 효율성은 스토리지 공급업체의 알고리즘과 메커니즘에 크게 의존합니다. 게다가, 일부 데이터 유형은 압축 성능을 제한하기도 합니다. 예를 들어, 암호화된 데이터는 너무 복잡해서 압축하기 어렵습니다. 자주 액세스되는 데이터 또한 압축 정책에 적합하지 않을 수 있습니다.

중복 제거

데이터 중복 제거는 데이터의 중복된 복사본을 줄이기 위해 설계된 데이터 압축 기술입니다. 동일한 데이터를 여러 번 저장하는 대신, 중복 제거는 중복된 데이터 블록을 식별하고 제거하여 단 하나의 복사본만 남깁니다. 이를 통해 데이터 무결성을 유지하면서도 상당한 저장 공간 절감 효과를 얻을 수 있습니다.

중복 제거는 데이터에 정기적으로 반복되는 대량의 중복 데이터가 포함될 때 주로 사용됩니다. 예를 들어, 가상화된 환경에서는 가상 머신을 반복적으로 생성합니다. 대부분의 경우, IT 팀은 동일한 가상 머신을 생성하며 데이터의 다양성은 사용자 정보에 한정됩니다. 이러한 상황에서는 중복 제거가 이상적인 솔루션이 될 수 있습니다.

중복 제거 기술의 이점에도 불구하고 몇 가지 제한 사항이 있습니다. 첫째, 중복 제거를 활성화하면 처리량이 감소할 수 있습니다. 클라이언트가 데이터를 액세스할 때, 중복 제거된 데이터를 검색해야 하기 때문에 강력한 스토리지 장치가 필요합니다. 둘째, 중복 제거는 전체 데이터가 대부분 동일할 때에만 효과적입니다. 중복 제거를 배포할 때 전통적인 하드 드라이브를 사용하는 경우 상대적으로 느린 읽기 및 쓰기 속도 때문에 인덱싱 오류가 발생할 수 있습니다. 중복 제거 과정은 데이터 청크의 집약적인 인덱싱과 비교를 포함하며, 전통적인 하드 드라이브는 이러한 성능 요구를 충족하는 데 어려움을 겪어 지연 및 인덱싱 단계에서의 잠재적 실패로 이어질 수 있습니다. 따라서 스토리지 공급업체는 성능 요구를 충족하기 위해 주로 올플래시 어레이(All-Flash Array) 전략을 사용하는 경향이 있습니다

감소 기술 적용 판단 가이드라인

데이터 감소 애플리케이션은 제한적이지만, 대부분의 경우 비용 효율성이 더 뛰어납니다. SNIA(Solid State Storage Initiative) 보고서에 따르면, “전통적인 HDD: NVMe SSD”의 TB당 총 소유 비용(TCO) 비율은 약 45.37%입니다. 애플리케이션의 데이터 감소율이 54.63% 이상에 도달하면, 새로운 스토리지 장치를 배치하는 것보다 중복 제거 전략을 사용하는 것이 더 나은 TCO를 달성할 수 있습니다. 이는 아래 그림에 나타난 바와 같습니다. 애플리케이션이 중복 제거 전략에 더 적합하기 때문에, 더 나은 TCO를 달성할 수 있습니다. 또한 데이터 감소 정책은 성능 저하를 초래할 수 있지만, 스토리지 환경에서 SSD를 배치하는

경험은 여전히 더 강력한 성능을 제공합니다

blog-table-tco-vs-data-reduction-rate

결론

데이터 압축은 데이터를 저장하는 데 필요한 공간을 줄이면서 본질적인 내용을 손상시키지 않는 다목적 스토리지 기술로 떠오르고 있습니다. 이는 저장소 최적화, 데이터 전송 속도 증가, 백업 및 아카이브 지원을 위해 다양한 기업 애플리케이션에서 널리 사용됩니다. 그러나 효율성은 스토리지 공급업체의 알고리즘에 따라 달라지며, 암호화된 데이터나 자주 액세스되는 데이터와 같은 특정 데이터 유형은 최적의 압축 성능에 도전 과제가 될 수 있습니다.

중복 제거는 데이터의 중복된 복사본을 제거하는 데 탁월한 기술로, 가상화된 환경과 같이 데이터 반복이 빈번한 상황에서 유용한 정책으로 돋보입니다.

이 기술은 저장 용량 절감과 비용 효율성을 크게 제공하지만, 성능 저하라는 트레이드오프도 존재합니다. 따라서 조직은 스토리지 환경을 설계할 때 비용 절감과 잠재적인 성능 부담 간의 균형을 신중히 고려해야 합니다.

공식 블로그

데이터 스토리지 관리의 최신 트렌드와 관점