스토리지 서비스는 AI 하이퍼컴퓨터 생태계에서 고성능 모델 학습, 추론, 미세 조정이 가능하도록 지원하는 필수 데이터 아키텍처를 제공합니다. Google Cloud에서 여러 스토리지 서비스를 사용할 수 있지만 가장 적합한 선택은 인공지능 (AI) 및 머신러닝 (ML) 수명 주기 내 사용 사례의 I/O, 처리량, 확장, 지연 시간 요구사항에 따라 달라집니다.
이 문서에서는 GPU 또는 TPU 성능을 최적화하는 데 가장 도움이 되는 Google Cloud 의 스토리지 서비스를 소개하고 비교합니다. 또한 특정 AI 및 ML 사용 사례에 적합한 서비스에 관한 추천도 제공합니다.
스토리지 서비스 소개
Google Cloud 는 AI 및 ML 사용 사례에 최적화된 여러 스토리지 솔루션을 제공합니다.
Cloud Storage는 학습 또는 대량 추론에 필요한 것과 같은 대규모 데이터 세트를 처리하고 저장하도록 설계된 객체 스토리지 시스템입니다. Cloud Storage는 AI 및 ML 작업을 위해 데이터 스토리지를 최적화하는 데 도움이 되는 여러 기능을 제공합니다.
Google Cloud Managed Lustre는 학습 및 추론 워크로드에 필요한 전문적이고 지연 시간이 짧으며 동시성이 높은 메타데이터 성능을 위해 설계된 완전 관리형 POSIX 규격 병렬 파일 시스템입니다.
다음 섹션에서는 각 스토리지 서비스에 대해 자세히 설명합니다.
Cloud Storage
Cloud Storage는 전역 확장성, 내구성, 비용 효율성을 제공하도록 설계된 기본 객체 스토어입니다. Cloud Storage를 사용하면 버킷이라는 컨테이너에 데이터를 객체로 저장합니다. Cloud Storage는 AI 및 ML 워크로드 성능을 최적화하는 데 도움이 되는 버킷을 위한 여러 기능을 제공합니다.
Cloud Storage Rapid 제품군의 제품은 컴퓨팅 리소스에 더 가까운 위치에 데이터를 배치하여 AI 및 ML 워크로드의 데이터 병목 현상을 해소하도록 설계되었습니다. 이러한 제품을 사용하면 컴퓨팅 워크로드와 동일한 영역에 데이터를 배치하고 GPU 또는 TPU 클러스터의 고성능 및 비용 효율적인 데이터 스토리지 확장을 지원할 수 있습니다. Cloud Storage Rapid 제품에는 다음이 포함됩니다.
Rapid Bucket은 영역별 버킷에 대해 Cloud Storage에서 가장 빠른 읽기 및 쓰기 성능을 제공합니다. 영역별 버킷의 객체는 I/O 집약적인 워크로드에 최적화된 고성능 스토리지 클래스인 Rapid 스토리지 클래스에 저장됩니다. Rapid Bucket은 지연 시간이 짧을 뿐만 아니라 Cloud Storage의 다른 제품 및 버킷 위치에 비해 처리량이 훨씬 높습니다 (최대 15TB/s).
Rapid Cache는 코드 변경 없이 기존 버킷의 데이터 읽기를 가속화합니다. Rapid Cache는 데이터 읽기 요청에 대한 데이터를 제공하는 데 사용되는 Cloud Storage 버킷용 SSD 지원 영역별 읽기 캐시입니다. 이 제품은 캐시가 없는 버킷보다 높은 처리량(최대 2.5TB/s)과 낮은 지연 시간을 제공합니다.
Rapid Cache는 가속기 용량이 Google Cloud 지역에 분산된 멀티 리전 버킷에 설정되는 경우가 많습니다. 캐시에서 읽은 데이터는 멀티 리전 버킷에서 직접 읽은 데이터에 비해 데이터 전송 수수료가 절감됩니다.
Cloud Storage FUSE는 버킷을 로컬 파일 시스템으로 마운트할 수 있는 오픈소스 FUSE 어댑터로, 애플리케이션이 표준 파일 시스템 시맨틱스를 사용하여 객체 스토리지와 상호작용할 수 있습니다. 이 기능을 사용하면 로컬 파일 액세스를 통해 Cloud Storage의 전역 확장성, 내구성, 비용 효율성을 활용할 수 있습니다. Cloud Storage FUSE는 Google에서 적극적으로 유지관리하고 지원합니다.
Cloud Storage FUSE는 병렬 다운로드와 같은 여러 클라이언트 측 캐싱 및 조정 매개변수를 제공합니다. 이러한 기능을 사용하면 개발 복잡성을 추상화하고 스트림을 샤딩하거나 병렬화하여 최고 성능을 달성할 수 있습니다.
계층적 네임스페이스를 사용하면 버킷에서 실제 파일 시스템 구조를 사용할 수 있으며, Cloud Storage FUSE로 버킷을 마운트할 때 원자적 폴더 이름 변경, 더 빠른 파일 조회 등 효율적인 데이터 관리 기능을 제공합니다. 계층적 네임스페이스는 계층적 네임스페이스가 없는 버킷보다 객체 읽기 및 쓰기에 대한 초당 쿼리 수 (QPS)가 8배 더 높습니다. 계층적 네임스페이스 사용의 이점에 관한 자세한 내용은 성능 및 관리 이점을 참고하세요.
높은 처리량의 데이터 로딩과 빈번한 모델 체크포인트가 필요한 워크로드가 있는 경우 계층적 네임스페이스를 사용 설정하는 것이 좋습니다. Rapid Bucket으로 영역 버킷을 만들 때는 계층적 네임스페이스가 사용 설정되어 있어야 합니다.
Managed Lustre
Google Cloud Managed Lustre는 AI 및 ML 애플리케이션에 최적화된 고성능의 POSIX 규격 완전 관리형 병렬 파일 시스템입니다. Managed Lustre 아키텍처는 체크포인트, 강화 학습의 고속 가중치 전파, 키-값 (KV) 캐싱과 같은 처리량이 높고 지연 시간이 짧으며 메타데이터 동시성이 높은 AI/ML 워크로드에 적합합니다.
Managed Lustre의 일반적인 사용 사례에 대한 자세한 내용은 비즈니스 사례를 참고하세요.
스토리지 서비스 비교
다음 표에서는 주요 특성을 기준으로 Cloud Storage와 관리형 Lustre를 대략적으로 비교합니다.
| 특성 | Cloud Storage | Managed Lustre |
|---|---|---|
| 아키텍처 | 객체 스토어
|
병렬 파일 시스템
|
| 스토리지 용량 | EB 단위로 확장 가능 |
인스턴스의 성능 등급에 따라 최대 80PB까지 확장됩니다. |
| 성능 | 다음을 지원합니다.
|
다음을 지원합니다.
|
| 가격 책정 |
자세한 내용은 Cloud Storage 가격 책정을 참조하세요. |
자세한 내용은 Managed Lustre 가격 책정을 참고하세요. |
| 요구사항별 추천 | 확장 가능한 객체 스토어와 학습 데이터 세트, 비동기 다중 계층 체크포인트, 모델 가중치 저장소에 대한 일반적인 비용 효율성이 필요한 애플리케이션에 권장됩니다. 특히 Cloud Storage Rapid는 고성능 및 비용 효율적인 데이터 확장에 권장됩니다. |
완전한 POSIX 호환 병렬 파일 시스템 또는 홈 디렉터리가 필요한 애플리케이션에 권장됩니다. 또한 KV 캐싱 오프로드, 동기식 체크포인트, 강화 학습을 위한 고속 가중치 전파와 같이 지연 시간에 민감하거나 메타데이터 동시성이 높은 워크로드에도 권장됩니다. |
사용 사례별 스토리지 서비스 권장사항
| 사용 사례 | 스토리지 서비스 추천 | 추천 이유 |
|---|---|---|
| 데이터 세트 학습 및 준비 | 기본 권장사항: Cloud Storage Rapid Bucket | Cloud Storage 버킷은 대량의 학습 및 추론 데이터 세트에 필요한 용량, 처리량 확장, 비용 효율성, 내구성을 제공합니다. Rapid Bucket을 사용하여 영역 버킷을 만들면 영역 버킷은 최적의 비용으로 열린 파일에 대해 매우 높은 처리량 (최대 15TB/s)과 밀리초 미만의 지연 시간을 활용할 수 있습니다. |
| 보조 추천: Managed Lustre | Managed Lustre는 밀리초 미만의 지연 시간을 제공합니다. 짧은 지연 시간과 메타데이터 동시 실행 성능이 최우선인 가장 집약적인 학습 및 데이터 세트 준비 작업을 위한 전용 초고속 작업공간으로 유용합니다. | |
| 체크포인트 또는 가중치 전송을 위해 모델 가중치를 이동하거나 저장 | 기본 권장사항: Managed Lustre | Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하므로 수천 명의 출시 작업자가 속도 저하 없이 동시에 동일한 가중치 파일을 가져올 수 있습니다. |
| 2차 권장사항: Cloud Storage Rapid Bucket | Rapid Bucket은 fsspec를 통해 GCSFS와 함께 사용하거나 클라이언트 측 성능 조정이 적용된 Cloud Storage FUSE와 함께 사용되는 경우 비동기 다중 계층 또는 분산 체크포인트에 적합합니다. |
|
| 추론을 위한 모델 저장 및 다운로드 | 기본 권장사항: Cloud Storage Rapid Cache 또는 Rapid Bucket | Rapid Cache는 추론 콜드 스타트를 줄이는 데 도움이 되는 부스터 역할을 합니다. Rapid Cache를 사용하면 추론 노드와 동일한 영역에서 모델 가중치를 사전 워밍할 수 있으므로 새 추론 인스턴스가 모델 가중치를 빠르게 다운로드하고 첫 번째 요청을 처리할 수 있습니다. Rapid Bucket은 고성능의 가속화된 영역 스토리지 엔진으로, 추론 플릿과 동일한 영역에 모델 가중치를 배치할 수 있습니다. 모델 서빙의 경우 vLLM용 Run:ai Model Streamer를 사용하여 다운로드 성능을 극대화하는 것이 좋습니다. 다른 추론 스택의 경우 Cloud Storage FUSE 병렬 다운로드 매개변수를 최적화하면 모델 가중치 다운로드 중 콜드 스타트 지연 시간을 크게 줄일 수 있습니다. |
| 보조 추천: Managed Lustre | Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하여 성능에 민감한 모델과 동일한 모델을 동시에 다운로드하는 동시 GPU의 확장성에 도움이 됩니다. | |
| KV 캐시 오프로드 | 기본 권장사항: Managed Lustre | Managed Lustre는 밀리초 미만의 지연 시간과 병렬 데이터 액세스를 제공하므로 다양한 노드가 KV 캐시를 '풀'하고 채팅의 전체 기록을 다시 처리하지 않고도 채팅을 재개할 수 있습니다. |
다음 단계
AI, ML, 데이터 집약적 분석을 위해 설계된 Cloud Storage의 제품군인 Cloud Storage Rapid에 대해 자세히 알아보세요.
Cloud Storage FUSE 또는 Cloud Storage FUSE CSI 드라이버를 사용하여 데이터 세트를 다운로드할 때 성능을 최적화하는 방법을 알아봅니다.
Google Kubernetes Engine에서 모델 로드를 가속화하는 방법을 알아보세요.