SMB를 위한 AI에 가장 적합한 스토리지 기술은 무엇인가요?

blog-best storage for AI-bannerjpg

목차

SMB의 AI 애플리케이션

AI(인공지능)는 비즈니스 세계에서 큰 영향을 미치고 있습니다. 모든 규모의 기업이 AI의 혜택을 받을 수 있으며, 중소기업(SMB)도 자동화 시스템의 힘을 활용하는 방법을 배우면서 내부 데이터 웨어하우스나 지식 베이스를 구축할 수 있게 되었습니다.

AI는 기계가 인간의 인지 능력을 모방하는 능력입니다. 이를 통해 지각, 추론 및 학습과 유사한 작업을 수행하도록 프로그래밍할 수 있습니다. 예를 들어, 기존 자원(예: FAQ 및 스크립트 응답)을 사용하여 챗봇을 설정하고, 사용자 질문에 적절한 답변을 제공하여 고객 서비스를 향상시킬 수 있습니다. 또한, AI는 기업이 고객이 진정으로 원하는 것을 이해하여 더 나은 마케팅 캠페인 및 고객 관계를 구축하도록 도울 수 있습니다.

AI 전환 과정에서는 시간과 비용이 투자되지만, SMB도 AI 기술을 활용할 수 있는 가능성이 있습니다. 또한, SMB를 위한 스토리지 등을 포함한 현대적인 하드웨어 플랫폼은 저렴한 AI 솔루션에서 중요한 역할을 합니다.

AI를 위한 스토리지는 어떻게 작동하나요?

AI, 머신 러닝, 딥 러닝은 대량의 데이터를 저장하여 이후에 처리해야 합니다. 대량의 데이터는 시뮬레이션과 모델을 훈련시켜 의사 결정을 지원하고 인사이트의 정확성을 향상하는 데 도움을 줍니다. AI 워크로드의 데이터 저장 및 컴퓨팅 요구 사항은 일반적인 용도와 매우 다릅니다. 이러한 애플리케이션은 데이터에 의존하며, 고성능, 신뢰성, 확장 가능한 데이터 저장 솔루션이 필요합니다. AI 워크로드의 효과적인 스토리지는 다음과 같은 핵심 기능을 포함해야 합니다.

  1. 확장성: AI는 대량의 데이터를 처리해야 하므로 저장 공간은 페타바이트 이상으로 확장할 수 있어야 합니다. AI 워크로드를 위한 스토리지는 이러한 수요에 신속하게 대응해야 합니다.
  2. 빠른 접근성: AI는 복잡한 인프라를 기반으로 하므로, 스토리지, 애플리케이션 및 데이터 수집 장치가 여러 환경에 분산될 수 있습니다. 빠른 스토리지는 AI의 운영에 병목 현상을 일으키지 않아야 합니다.
  3. 지연 시간: I/O 지연 시간은 AI 모델을 구축하고 사용할 때 중요합니다. I/O 지연 시간을 줄이면 AI 훈련 시간을 며칠 또는 몇 달 단축할 수 있습니다.
  4. 처리량: 훈련 과정에서는 시간당 테라바이트 단위의 대량 데이터를 사용합니다. 이러한 무작위 접근 데이터를 제공하는 것은 많은 스토리지 시스템에 도전이 될 수 있습니다.
  5. 비용 효율성: AI 애플리케이션의 범위와 규모는 다양하고 동적입니다. AI를 위한 스토리지는 소규모로 시작해 수요에 따라 비용 효율적으로 확장할 수 있어야 하며, 유사한 가격 대비 성능 비율을 유지해야 합니다. 동시에, 적절한 스토리지 관리나 확장성을 통해 사용하지 않는 자원의 구매 및 유지 관리를 피해야 합니다.

결론적으로, 효율적인 스토리지, 확장성 및 비용 관리를 결합하는 것이 AI 애플리케이션을 위한 스토리지의 기초입니다.

AI를 위한 스토리지의 주요 사항

AI를 위한 스토리지는 특히 하드웨어와 데이터 전송 인프라를 최적화하기 위해 특정 시스템 구성이 필요합니다. 스토리지는 고성능 컴퓨팅 환경의 일부로 여러 주요 구성 요소로 구성됩니다.

  1. 고속 연결성: AI 및 머신 러닝 관련 무거운 워크로드를 지원하는 고대역폭 프런트엔드가 필요합니다. InfiniBand, Fibre Channel, 또는 iSCSI를 통해 데이터 전송을 최적화하여 AI 알고리즘을 준비하는 것이 중요합니다. InfiniBand는 최고의 네트워크 성능을 제공하지만, 비용이 높아 일반적으로 25 GbE / 10 GbE iSCSI 또는 32 Gb / 16 Gb Fibre Channel을 사용하는 것이 SMB에 추천됩니다.
  2. 플래시 스토리지: 대규모 워크로드를 처리하기 위해 하드웨어 레벨에서 빠른 데이터 액세스를 제공하는 것이 중요합니다. 강력한 서버 가까이의 스토리지가 AI 애플리케이션에 빠른 데이터 접근을 지원할 수 있습니다.
  3. 용량 스토리지: 대량의 데이터는 플래시를 넘어 장기 스토리지에 저장하여 비용을 절감할 수 있습니다. 플래시 스토리지는 빠른 컴퓨팅을 담당하고, 용량 스토리지는 장기 데이터를 보존합니다. 데이터의 급성장 속도를 감안할 때, SMB 분야에서는 향후 최대 10 PB까지의 용량이 충분합니다.
  4. 성능 임계값: AI 및 머신 러닝 알고리즘에 데이터를 빠르게 처리하기 위해서는 대규모 병렬 컴퓨팅 작업을 처리할 수 있는 하드웨어가 필요합니다. 랜덤 읽기 및 재읽기 성능이 높아야 하고, 지연 시간은 낮아야 합니다. 1ms 미만의 지연 시간에서 최소 500K IOPS의 랜덤 읽기를 지원하는 현대적인 SMB SAN 스토리지는 다양한 AI 애플리케이션을 수용할 수 있는 충분한 성능을 제공합니다.

AI 스토리지는 속도와 용량이 주요 고려 사항입니다.

비교 후 블록 스토리지가 가장 적합함

위 내용을 요약하면, 각 스토리지 제품에는 장단점이 있습니다.

  1. 블록 스토리지: 블록 기반 스토리지는 I/O에 대해 가장 낮은 지연 시간과 최대 처리량을 제공하지만 확장성에 한계가 있습니다. BeeGFS와 같은 3자 병렬 파일 시스템을 사용하면, 현대적인 SAN 스토리지를 통해 SMB에 비용 효율적이고 공간 효율적인 AI 솔루션을 제공할 수 있습니다.
  2. 파일 스토리지: 파일 기반 스토리지는 데이터를 폴더에 단일 정보로 저장하여 다른 데이터와 함께 정리합니다. 하지만 성능이 가장 뛰어난 제품은 아닙니다.
  3. 오브젝트 스토리지: 오브젝트 기반 스토리지는 각 데이터 항목을 객체로 할당하고 메타데이터와 결합하여 스토리지 풀을 형성합니다. 확장성은 뛰어나지만, 처리량이나 지연 시간 측면에서 최고 성능을 제공하지는 않습니다.
blog-table of latency in different storage types

이와 같은 다양한 트레이드오프를 감안할 때, SMB의 AI 목표는 최대 속도를 최소 비용으로 달성하는 것입니다. AFAs (All Flash Arrays) 는 이상적인 스토리지 솔루션입니다. 25 GbE / 10 GbE iSCSI 또는 32 Gb / 16 Gb Fibre Channel과 같은 일반적으로 사용되는 프로토콜과 결합하여 여러 서버에 직접 연결하면 비용을 절감할 수 있으며, 고가의 복잡한 네트워킹 장비를 배포할 필요가 없습니다. BeeGFS와 같은 오픈 소스 병렬 파일 시스템은 SMB가 AI를 쉽게 도입하는 데 많은 기여를 합니다.

구성 예시

SMB를 위한 구성 예시입니다. 현재 프로젝트의 경우, 활성 데이터 세트를 AFA에서 훈련 과정으로 사용합니다. 이후 결과 및 데이터 세트는 장기 보존을 위해 저비용 용량 스토리지로 이동합니다.

blog-Building Block Example1

또 다른 비용 최적화 예시는 하이브리드 스토리지를 사용하는 것입니다. AFA와 용량 스토리지 대신, 고성능 SSD와 가격 대비 용량 비율이 좋은 HDD의 조합은 SMB의 AI에 비용 효율적인 대안이 됩니다. 현재 데이터 세트를 플래시 풀에서 처리한 후, 프로젝트가 완료되면 용량 풀로 이동합니다. 플랫폼과 디스크 드라이브가 잘 맞으면 성능도 만족할 만합니다.

blog-Building Block Example2

결론

AI를 사용하거나 훈련하는 애플리케이션은 전통적인 스토리지로 제대로 작동할 수 없습니다. 이러한 애플리케이션은 학습과 성장을 촉진하기 위해 대량의 데이터를 지속적으로 수집할 수 있는 고성능, 고가용성 스토리지를 필요로 합니다. 위의 분석과 권장 사항에 따르면, SMB의 AI에는 AFA와 SAN 스토리지를 결합한 블록 스토리지나 두 가지를 혼합한 하이브리드 블록 스토리지가 적합합니다. BeeGFS와 함께라면 경쟁력 있는 AI 훈련 환경을 구축할 수 있습니다.

공식 블로그

데이터 스토리지 관리의 최신 트렌드와 관점