Cloud TPU 데이터의 스토리지 옵션
이 문서에서는 Cloud TPU에서 모델을 학습시킬 때 사용할 수 있는 데이터 스토리지 옵션을 설명합니다.
소개
Cloud TPU에는 다음을 위한 데이터 스토리지가 필요합니다.
- 데이터 세트 다운로드 및 전처리
- 호스트 입력 파이프라인 처리
- 모델 학습 입력
- 모델 학습 출력
TPU 애플리케이션 데이터 및 학습 데이터 세트의 스토리지 옵션은 다음과 같습니다.
- 부팅 디스크 및 연결된 스토리지 디스크를 포함하는 내구성 있는 블록 스토리지
- Cloud Storage 버킷
- Cloud Storage FUSE
- TPU VM의 Filestore 파일 공유
- Managed Lustre 파일 공유
스토리지 관리에 대한 자세한 내용은 다음 페이지를 참조하세요.
내구성 있는 블록 스토리지
내구성 있는 블록 스토리지는 디스크 또는 볼륨이라고도 하며 TPU VM을 중지, 일시 정지, 삭제한 후 보존하려는 데이터입니다. 내구성 있는 블록 스토리지는 TPU VM이 다운되거나 실패하더라도 계속 사용할 수 있습니다. TPU VM 부팅 디스크를 사용하거나 TPU에 블록 스토리지를 추가로 연결할 수 있습니다.
다음과 같은 경우에는 디스크를 추가로 연결하는 것이 좋습니다.
- 학습 데이터 세트가 TPU 부팅 디스크보다 큰 경우
- 읽기 전용 데이터를 더 빠르게 읽기 위해 Hyperdisk ML 볼륨을 사용하려는 경우
TPU 세대 및 지원되는 디스크 유형
다음 표에는 각 TPU 세대에서 지원하는 디스크 유형이 나와 있습니다.
| TPU 세대 | 지원되는 디스크 유형 |
|---|---|
| TPU7x | Hyperdisk Balanced, Hyperdisk ML |
| TPU v6e | Hyperdisk Balanced, Hyperdisk ML |
| TPU v5p | 균형 있는 영구 디스크, Hyperdisk ML |
| TPU v5e | 균형 있는 영구 디스크, Hyperdisk ML |
TPU VM 부팅 디스크
기본적으로 각 TPU VM에는 10GB의 단일 부팅 디스크가 있습니다. VM을 만들 때 더 큰 부팅 디스크를 구성할 수 있습니다. 자세한 내용은 맞춤 부팅 디스크 만들기를 참고하세요. 부팅 디스크에는 운영체제, TPU 드라이버, 라이브러리가 포함됩니다. 부팅 디스크는 전처리 및 모델 입력과 출력 데이터를 위해 다운로드한 데이터 세트를 임시로 저장할 수도 있지만, 데이터의 총 크기가 부팅 디스크의 사용 가능한 공간을 초과해서는 안 됩니다.
애플리케이션에 기본 부팅 디스크를 초과하는 추가 스토리지 공간이 필요한 경우, TPU VM 인스턴스에 하나 이상의 내구성 있는 디스크를 추가할 수 있습니다. 자세한 내용은 다음을 참조하세요.
연결된 스토리지
Hyperdisk 및 Persistent Disk는 데스크톱 또는 서버의 물리적 디스크와 같이 VM 인스턴스에서 액세스할 수 있는 내구성이 있는 네트워크 스토리지 기기입니다. 두 가지 디스크 유형 모두 VM 인스턴스와는 별개로 생성되므로 VM을 삭제한 후에도 데이터를 보존할 수 있습니다.
Persistent Disk 대신 Hyperdisk를 사용할 때의 이점에는 맞춤설정 가능한 성능, 더 높은 IOPS 및 처리량 한도가 있습니다. Hyperdisk 및 Persistent Disk에 대한 자세한 내용은 디스크 유형 선택을 참조하세요.
멀티 호스트 TPU VM 슬라이스가 있는 MIG에 디스크를 연결하면 시스템에서 해당 TPU 슬라이스의 각 VM에 디스크를 연결합니다. TPU VM 2개 이상이 동시에 디스크에 쓰지 못하게 하려면 멀티 호스트 TPU 슬라이스에 연결하는 모든 디스크를 읽기 전용으로 구성해야 합니다. 읽기 전용 디스크는 TPU 슬라이스에서 처리할 데이터 세트를 저장하는 데 유용합니다. Hyperdisk Balanced는 읽기 전용 모드를 지원하지 않으므로 Hyperdisk Balanced 볼륨을 단일 TPU VM 인스턴스에만 연결할 수 있습니다.
내구성 있는 블록 스토리지 사용에 대한 자세한 내용은 VM에 영구 디스크 추가 및 Hyperdisk 추가를 참고하세요.
디스크 백업
TPU VM이 '알 수 없음' 상태에 빠지거나 삭제한 데이터를 복구하는 경우 부팅 디스크에서 데이터를 가져오는 것이 어려울 수 있습니다. Cloud Storage 버킷과 같은 다른 스토리지 옵션을 사용해 데이터를 백업해 두는 것이 좋습니다.
연결된 디스크에 데이터를 저장하는 경우, 해당 디스크의 데이터를 증분 방식으로 백업하는 디스크 스냅샷을 사용할 수 있습니다. TPU VM 부팅 디스크는 디스크 스냅샷을 지원하지 않습니다. 자세한 내용은 디스크 스냅샷 정보를 참고하세요.
Cloud Storage 버킷
Cloud Storage 버킷은 VM 인스턴스에 적합한 유연성과 내구성을 갖춘 확장 가능한 스토리지 옵션입니다. 학습 작업에서 내구성 있는 블록 스토리지의 낮은 지연 시간이 꼭 필요하지 않다면, 데이터 세트를 Cloud Storage 버킷에 저장할 수 있습니다.
Cloud Storage 버킷의 성능은 선택한 스토리지 클래스 및 인스턴스와 관련된 버킷의 위치에 따라 달라집니다.
TPU VM과 동일한 영역에서 Cloud Storage 버킷을 만들면 내구성 있는 블록 스토리지와 비슷한 성능을 얻을 수 있지만, 지연 시간은 더 길고, 처리량이 덜 일관적일 수 있습니다.
모든 Cloud Storage 버킷에는 장비 고장 시 데이터를 보호하고, 데이터 센터 유지보수 이벤트를 통해 데이터 가용성을 보장하는 중복 기능이 내장되어 있습니다. Cloud Storage는 모든 작업에 대해 체크섬을 계산하여 읽은 데이터가 기록된 데이터와 일치하는지 확인합니다.
내구성 있는 블록 스토리지와 달리 Cloud Storage 버킷은 인스턴스가 위치한 영역에 제한되지 않습니다. 또한 여러 인스턴스에서 버킷으로 데이터를 동시에 읽고 쓸 수 있습니다. 예를 들어 여러 영역에 있는 인스턴스가 동일한 버킷에서 데이터를 읽고 쓰도록 구성할 수 있으며, 이 경우 각 영역에 내구성 있는 블록 스토리지를 별도로 복제할 필요가 없습니다.
자세한 내용은 Cloud Storage 버킷에 연결을 참고하세요.
Cloud Storage FUSE
Cloud Storage FUSE를 사용하면 Cloud Storage 버킷을 로컬 파일 시스템으로 마운트하고 액세스할 수 있습니다. 이렇게 하면 애플리케이션이 표준 파일 시스템 시맨틱스를 사용하여 버킷의 객체를 읽고 쓸 수 있습니다.
Cloud Storage FUSE 작동 방식에 대한 자세한 내용과 Cloud Storage FUSE 작업이 Cloud Storage 작업에 매핑되는 방식에 대한 설명은 Cloud Storage FUSE 문서를 참조하세요. Cloud Storage FUSE CLI를 설치하고 GitHub에서 버킷을 마운트하는 방법 등 Cloud Storage FUSE 사용 방법에 대한 추가 정보를 확인할 수 있습니다.
Filestore 파일 공유
Filestore 파일 공유는 Compute Engine용 완전 관리형 네트워크 연결 스토리지(NAS)입니다. Filestore는 기존 기업 애플리케이션과 호환되며 NFSv3 호환 클라이언트를 지원합니다.
Filestore를 사용하면 파일 작업의 지연 시간이 짧아집니다. 지연 시간에 민감한 워크로드에서 Filestore는 성능 변동을 최소화하면서 최대 100TiB의 용량과 25GiB/초 및 720K IOPS의 처리량을 지원합니다.
Filestore를 사용하면 TPU VM에 파일 공유를 마운트할 수 있습니다.
Managed Lustre 파일 공유
Managed Lustre는 데이터 집약적인 AI 및 HPC 워크로드를 위한 완전 관리형 병렬 파일 시스템입니다. 높은 성능, 멀티 페타바이트 규모의 용량, POSIX 규정 준수를 제공합니다.
Managed Lustre를 사용하면 TPU VM에 파일 공유를 마운트할 수 있습니다. 특히 머신러닝 워크로드의 대규모 데이터 세트와 높은 처리량 요구사항을 처리하는 데 유용하며 효율적인 학습과 추론을 지원합니다.
자세한 내용은 Managed Lustre 문서를 참고하세요.
다음 단계
- VM에 영구 디스크를 추가하는 방법을 알아보세요.
- VM에 Google Cloud Hyperdisk를 추가하는 방법을 알아보세요.
- 인스턴스를 Cloud Storage 버킷에 연결하는 방법 알아보기
- Filestore 파일 공유를 마운트하는 방법을 알아봅니다.