AI 하이퍼컴퓨터의 AI 및 ML 워크로드용 스토리지 서비스 개요

스토리지 서비스는 AI 하이퍼컴퓨터 생태계에서 고성능 모델 학습, 추론, 미세 조정을 지원하는 데 도움이 되는 필수 데이터 아키텍처를 제공합니다. 여러 스토리지 서비스를 사용할 수 있지만 가장 적합한 선택은 인공지능 (AI) 및 머신러닝 (ML) 수명 주기 내 사용 사례의 I/O, 처리량, 규모, 지연 시간 요구사항에 따라 다릅니다. Google Cloud

이 문서에서는 GPU 또는 TPU 성능을 최적화하는 데 가장 도움이 되는 스토리지 서비스를 소개하고 비교합니다. Google Cloud 또한 특정 AI 및 ML 사용 사례에 적합한 서비스에 대한 권장사항도 제공합니다.

스토리지 서비스 소개

Google Cloud AI 및 ML 사용 사례에 최적화된 여러 스토리지 솔루션을 제공합니다.

Cloud Storage는 학습 또는 대량 추론에 필요한 것과 같은 대규모 데이터 세트를 처리하고 저장하도록 설계된 객체 스토리지 시스템입니다. Cloud Storage는 AI 및 ML 작업을 위한 데이터 스토리지를 최적화하는 데 도움이 되는 여러 기능을 제공합니다.
Google Cloud Managed Lustre는 학습 및 추론 워크로드에 필요한 특수화된 짧은 지연 시간과 높은 동시 실행 메타데이터 성능을 위해 설계된 완전 관리형 POSIX 호환 병렬 파일 시스템입니다.

다음 섹션에서는 각 스토리지 서비스에 대한 자세한 정보를 제공합니다.

Cloud Storage

Cloud Storage는 전역 확장성, 내구성, 비용 효율성을 제공하도록 설계된 기본 객체 스토어 입니다. Cloud Storage를 사용하면 데이터를 버킷이라는 컨테이너에 객체로 저장합니다. Cloud Storage는 AI 및 ML 워크로드 성능을 최적화하는 데 도움이 되는 버킷을 위한 여러 기능을 제공합니다.

Cloud Storage Rapid 제품군은 컴퓨팅 리소스에 더 가까이 데이터를 배치하여 AI 및 ML 워크로드의 데이터 병목 현상을 해결하도록 설계되었습니다. 이러한 제품을 사용하면 컴퓨팅 워크로드와 동일한 영역에 데이터를 배치하고 GPU 또는 TPU 클러스터에 고성능 및 비용 효율적인 데이터 스토리지 확장을 사용 설정할 수 있습니다. Cloud Storage Rapid 제품에는 다음이 포함됩니다.
- Rapid Bucket은 영역별 버킷을 위한 Cloud Storage에서 가장 빠른 읽기 및 쓰기 성능을 제공합니다. 영역별 버킷의 객체는 I/O 집약적인 워크로드에 최적화된 고성능 스토리지 클래스인 Rapid Storage에 저장됩니다. Rapid Bucket은 짧은 지연 시간 외에도 Cloud Storage의 다른 제품 및 버킷 위치에 비해 훨씬 높은 처리량 (최대 15TBps)을 제공합니다.
- Rapid Cache는 코드를 변경하지 않고도 기존 버킷에 대한 데이터 읽기를 가속화합니다. Rapid Cache는 데이터 읽기 요청에 대한 데이터를 제공하는 데 사용되는 Cloud Storage 버킷의 SSD 지원 영역별 읽기 캐시입니다. 이 제품은 캐시가 없는 버킷보다 높은 처리량(최대 2.5TBps)과 짧은 지연 시간을 제공합니다.
  
  Rapid Cache는 가속기 용량이 여러 리전에 분산된 멀티 리전 버킷에 자주 설정됩니다. Google Cloud 캐시에서 읽은 데이터는 멀티 리전 버킷에서 직접 읽은 데이터보다 데이터 전송 수수료가 절감됩니다.
Cloud Storage FUSE는 버킷을 로컬 파일 시스템으로 마운트할 수 있는 오픈소스 FUSE 어댑터로, 애플리케이션이 표준 파일 시스템 시맨틱스를 사용하여 객체 스토리지와 상호작용할 수 있도록 지원합니다. 이 기능을 사용하면 로컬 파일 액세스를 통해 Cloud Storage의 전역 확장성, 내구성, 비용 효율성을 활용할 수 있습니다. Cloud Storage FUSE는 에서 적극적으로 유지관리하고 지원합니다 Google.

Cloud Storage FUSE는 병렬 다운로드와 같은 여러 클라이언트 측 캐싱 및 조정 매개변수를 제공합니다. 이러한 기능을 사용하면 개발 복잡성을 추상화하고 스트림을 샤딩하거나 병렬화하여 최고 성능을 달성할 수 있습니다.
계층적 네임스페이스는 버킷에 실제 파일 시스템 구조를 사용 설정하고 효율적인 데이터 관리 기능(원자적 폴더 이름 변경 및 더 빠른 파일 조회 포함) 을 제공합니다. 버킷이 Cloud Storage FUSE로 마운트될 때 계층적 네임스페이스는 계층적 네임스페이스가 없는 버킷보다 객체 읽기 및 쓰기에 대한 초당 쿼리 수 (QPS)가 8배 더 높습니다. 계층적 네임스페이스 사용의 이점에 대한 자세한 내용은 성능 및 관리 이점을 참조하세요.

처리량이 높은 데이터 로드와 빈번한 모델 체크포인트가 필요한 워크로드가 있는 경우 계층적 네임스페이스를 사용 설정하는 것이 좋습니다. Rapid Bucket으로 영역별 버킷을 만들 때는 계층적 네임스페이스를 사용 설정해야 합니다.

Managed Lustre

Google Cloud Managed Lustre는 AI 및 ML 애플리케이션에 최적화된 고성능 POSIX 호환 완전 관리형 병렬 파일 시스템입니다. Managed Lustre 아키텍처는 체크포인트, 강화 학습의 고속 가중치 전파, 키-값 (KV) 캐싱과 같은 처리량이 높고 지연 시간이 짧으며 메타데이터 동시 실행이 높은 AI/ML 워크로드에 적합합니다.

Managed Lustre의 일반적인 사용 사례에 대한 자세한 내용은 비즈니스 사례를 참조하세요.

스토리지 서비스 비교

다음 표에서는 주요 특성을 기준으로 Cloud Storage와 Managed Lustre를 대략적으로 비교합니다.

특성	Cloud Storage	Managed Lustre
아키텍처	객체 스토어 데이터는 기본적으로 플랫 버킷 에 저장됩니다. 모든 버킷 유형 (영역별, 리전, 이중 리전, 멀티 리전)은 Cloud Storage Rapid 기능으로 가속화할 수 있는 지리적 중복 옵션을 제공합니다. 원하는 경우 계층적 네임스페이스 를 사용 설정하여 파일 시스템 구조에 데이터 저장을 지원하는 버킷을 만들 수 있습니다. 원하는 경우 Cloud Storage FUSE 를 사용 설정하여 버킷을 로컬 파일 시스템으로 마운트할 수 있습니다.	병렬 파일 시스템 데이터는 Managed Lustre 인스턴스 에 파일로 저장되고 추가 조정 없이 가속기 클러스터 전체에 로컬 파일 시스템으로 마운트됩니다.
스토리지 용량	최대 EB 용량까지 확장됩니다.	인스턴스의 성능 등급에 따라 최대 80PB 용량까지 확장됩니다.
성능	다음과 같은 기능을 지원합니다. Rapid Bucket을 사용한 열린 파일의 밀리초 미만의 지연 시간 Rapid Bucket을 사용한 수천만 IOP/TiB Rapid Cache를 사용한 최대 2.5TBps의 대역폭 Rapid Bucket을 사용한 최대 15TBps의 대역폭 대역폭 증가 요청	다음과 같은 기능을 지원합니다. 밀리초 미만의 지연 시간 수천만 IOP/TiB 최대 10TBps의 대역폭
가격 책정	자세한 내용은 Cloud Storage 가격 책정을 참조하세요.	자세한 내용은 Managed Lustre 가격 책정을 참조하세요.
요구사항별 권장사항	확장 가능한 객체 스토어와 일반적인 비용 효율성이 필요한 애플리케이션에 권장됩니다. 학습 데이터 세트, 비동기식 다중 계층 체크포인트, 모델 가중치 스토리지 특히 Cloud Storage Rapid 는 고성능 및 비용 효율적인 데이터 확장에 권장됩니다.	완전한 POSIX 호환 병렬 파일 시스템 또는 홈 디렉터리가 필요한 애플리케이션에 권장됩니다. 또한 지연 시간에 민감하거나 메타데이터 동시 실행이 높은 워크로드(예: KV 캐싱 오프로드, 동기식 체크포인트, 강화 학습을 위한 고속 가중치 전파)에도 권장됩니다.

사용 사례별 스토리지 서비스 권장사항

사용 사례	스토리지 서비스 권장사항	권장 이유
데이터 세트 학습 및 준비	기본 권장사항: Cloud Storage Rapid Bucket	Cloud Storage 버킷은 대규모 학습 및 추론 데이터 세트에 필요한 용량, 처리량 규모, 비용 효율성, 내구성을 제공합니다. Rapid Bucket 을 사용하여 영역별 버킷을 만들면 영역별 버킷은 최적의 비용으로 매우 높은 처리량 (최대 15TB/s)과 열린 파일의 밀리초 미만의 지연 시간을 활용할 수 있습니다.
데이터 세트 학습 및 준비	보조 권장사항: Managed Lustre	Managed Lustre는 밀리초 미만의 지연 시간을 제공합니다. 짧은 지연 시간과 메타데이터 동시 실행 성능이 최우선인 가장 집약적인 학습 및 데이터 세트 준비 작업을 위한 전용 초고속 작업공간으로 유용합니다.
체크포인트 또는 가중치 전송을 위한 모델 가중치 이동 또는 저장	기본 권장사항: Managed Lustre	Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하므로 수천 명의 출시 작업자가 속도를 늦추지 않고 동시에 동일한 가중치 파일을 가져올 수 있습니다.
체크포인트 또는 가중치 전송을 위한 모델 가중치 이동 또는 저장	보조 권장사항: Cloud Storage Rapid Bucket	Rapid Bucket은 클라이언트 측 성능 조정이 포함된 Cloud Storage FUSE 또는 `fsspec`를 통해 GCSFS와 함께 사용될 때 비동기식 다중 계층 또는 분산 체크포인트에 적합합니다.
추론을 위한 모델 저장 및 다운로드	기본 권장사항: Cloud Storage Rapid Cache 또는 Rapid Bucket	Rapid Cache는 추론 콜드 스타트를 줄이는 데 도움이 되는 부스터 역할을 합니다. Rapid Cache를 사용하면 모델 가중치를 추론 노드와 동일한 영역에서 미리 워밍할 수 있으므로 새 추론 인스턴스가 모델 가중치를 빠르게 다운로드하고 첫 번째 요청을 처리할 수 있습니다. Rapid Bucket은 고성능 가속화된 영역별 스토리지 엔진 역할을 하므로 추론 Fleet과 동일한 영역에 모델 가중치를 배치할 수 있습니다. 모델 서빙의 경우 최고 다운로드 성능을 위해 vLLM용 Run:ai Model Streamer 를 사용하는 것이 좋습니다. 다른 추론 스택의 경우 Cloud Storage FUSE 병렬 다운로드 매개변수 를 최적화하면 모델 가중치 다운로드 중에 콜드 스타트 지연 시간을 크게 줄일 수 있습니다.
추론을 위한 모델 저장 및 다운로드	보조 권장사항: Managed Lustre	Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하므로 성능에 민감한 모델과 동일한 모델을 동시에 다운로드하는 동시 GPU의 확장에 도움이 됩니다.
KV 캐시 오프로드	기본 권장사항: Managed Lustre	Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하므로 여러 노드가 KV 캐시를 '가져오고' 채팅의 전체 기록을 다시 처리하지 않고도 채팅을 재개할 수 있습니다.

다음 단계

AI, ML, 데이터 집약적인 분석을 위해 설계된 Cloud Storage의 제품군인 Cloud Storage Rapid에 대해 자세히 알아보세요.
Cloud Storage FUSE 또는 Cloud Storage FUSE CSI 드라이버를 사용하여 데이터 세트를 다운로드할 때 성능을 최적화하는 방법을 알아보세요.
Google Kubernetes Engine에서 모델 로드를 가속화하는 방법을 알아보세요.

AI 하이퍼컴퓨터의 AI 및 ML 워크로드용 스토리지 서비스 개요 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.