스토리지 서비스

이 문서에서는 인공지능 (AI) 및 머신러닝 (ML) 워크로드의 스토리지 서비스 사용 사례와 권장사항을 설명합니다.

스토리지 사용 사례

스토리지 서비스는 다음 AI 및 ML 워크로드에서 사용될 수 있습니다.

  • 학습용 데이터 준비 및 로드
  • 추론을 위해 모델 가중치 로드
  • 모델 체크포인트 저장 및 복원
  • VM 이미지 로드
  • 로깅 데이터
  • 홈 디렉터리
  • 애플리케이션 라이브러리, 패키지, 종속 항목 로드

스토리지 권장사항

AI 및 ML 시스템 성능을 최적화하려면 다음 스토리지 솔루션을 사용하는 것이 좋습니다.

스토리지 서비스 기능 사용 사례
Cloud Storage

개요: 확장성이 뛰어나고 내구성이 높으며 비용이 저렴한 객체 저장소입니다. 학습 및 모델 체크포인트에 필요한 방대한 데이터 세트를 저장하고 최종 학습된 모델을 호스팅하는 데 적합합니다. Cloud Storage FUSE를 사용하는 Cloud Storage는 파일 시스템 서비스보다 비용 효율적으로 데이터 스토리지를 확장할 수 있으므로 대부분의 AI 및 ML 사용 사례에 권장되는 스토리지 솔루션입니다.

  • GPU 및 TPU 클러스터의 대규모 (최대 EB) 학습 데이터를 지원합니다.
  • 높은 처리량 (최대 1.25TB/초 대역폭 이상)을 지원합니다. Cloud Storage에서 처리량을 최대화하려면 대역폭을 추가로 요청하세요.
  • Cloud Storage FUSE와의 통합을 통해 Cloud Storage 버킷을 로컬 파일 시스템으로 마운트할 수 있습니다. 또한 Cloud Storage FUSE CSI 드라이버를 사용하면 확장된 AI 및 ML 워크로드를 위해 Google Kubernetes Engine (GKE)에서 버킷을 로컬 파일 시스템으로 마운트할 수 있습니다.
  • Anywhere Cache를 사용하여 컴퓨팅 워크로드와 동일한 영역에 스토리지를 공동 배치하면 멀티 리전 버킷과 함께 사용할 때 처리량 (최대 2.5TB/s)이 높아지고 지연 시간이 짧아지며 위치 유연성이 향상됩니다.
  • AI 및 ML 워크로드에 Cloud Storage FUSE를 사용하는 방법에 대한 자세한 내용은 Cloud Storage FUSE로 AI 및 ML 워크로드 최적화를 참고하세요.

추천 대상:

  • 비용 효율성
  • 데이터 처리 및 준비
  • 모델 학습 및 추론
  • 모델 체크포인트 저장 및 복원

추천하지 않는 대상:

  • 완전한 POSIX 규정 준수가 필요한 애플리케이션
  • 홈 디렉터리
Google Cloud Managed Lustre

개요: AI 및 고성능 컴퓨팅 (HPC) 애플리케이션에 최적화된 고성능 완전 관리형 병렬 파일 시스템입니다. 시뮬레이션, 모델링, 분석을 위해 공유 데이터에 빠르고 일관되게 액세스해야 하는 여러 컴퓨팅 노드가 있는 환경에 적합합니다.

  • 8PB 용량과 최대 1TB/s의 처리량으로 확장됩니다.
  • IOPS/TiB를 수천 개 지원합니다.
  • 매우 짧은 ms 미만 지연 시간을 제공합니다.
  • 전체 POSIX 지원 기능이 있어 온프레미스 AI 워크로드를 즉시 Google Cloud로 마이그레이션할 수 있습니다.
  • AI 및 ML 워크로드에 Managed Lustre를 사용하는 방법에 대한 자세한 내용은 Google Cloud Managed Lustre로 AI 및 ML 워크로드 최적화를 참고하세요.

추천 대상:

  • AI 및 ML 워크로드를 클라우드로 마이그레이션
  • 모델 시뮬레이션
  • 모델 학습 및 추론
  • 모델 체크포인트 저장 및 복원
  • 빈번한 소량 읽기 및 쓰기가 있는 워크로드
  • 홈 디렉터리

추천하지 않는 대상:

  • 8PB 이상의 데이터가 필요한 워크로드

다음 단계