Cloud TPU 리소스 계획
이 페이지에서는 Tensor Processing Unit (TPU) 사용량을 계획하는 방법을 설명합니다.
소비 옵션 선택
소비 옵션은 컴퓨팅 리소스를 가져오고 사용하는 방법을 나타냅니다. 속도, 기간, 비용, 선점 허용 범위에 대한 요구사항에 따라 Cloud TPU VM 용량을 요청할 수 있습니다. ML Ops 옵션은 다음과 같습니다.
- 주문형: 표준 사용한 만큼만 지불 인스턴스입니다.
- 스팟 VM: 저렴한 선점형 인스턴스입니다. 선점형 할당량을 사용합니다.
- Flex-start VM: 장기 예약이나 복잡한 할당량 관리 없이 필요에 따라 최대 7일 동안 용량을 예약합니다.
- 예약: 특정 기간 (최대 90일 또는 1년 이상) 동안 용량을 예약하여 가용성을 보장합니다. 주문형 할당량을 사용합니다.
TPU v6e 및 이후 세대의 경우 TPU Cluster Director와 함께 GKE를 사용할 수도 있습니다. 이 기능은 모든 용량 모드 예약을 통해 사용할 수 있습니다. 예약된 용량에 대한 전체 액세스 권한과 TPU의 하드웨어 레이아웃, 사용량, 상태에 대한 완전한 가시성을 제공합니다. 자세한 내용은 모든 용량 모드 개요를 참고하세요.
다음 표에서는 작동 방식, 이상적인 사용 사례, 지원되는 TPU 버전 및 영역, 필요한 할당량 유형을 기준으로 TPU 소비 옵션을 비교합니다.
| 소비 옵션 | 작동 방식 | 최적의 용도 | 지원되는 TPU 버전 및 영역 | Cloud TPU API의 할당량 유형 |
|---|---|---|---|---|
| 1년 이상의 미래용 예약 |
사전에 1년 이상 사용할 TPU 리소스를 요청합니다. 이러한 리소스는 해당 기간 동안 독점적으로 사용되도록 예약됩니다. 예약은 용량을 정확하게 보장하고 주문형 리소스보다 가격이 저렴합니다. 미래 TPU 예약에는 약정 사용 할인 (CUD)이 포함됩니다. CUD는 약정 사용 계약을 구매할 때 할인된 가격을 제공합니다. 자세한 내용은 1년 이상의 미래용 예약을 참고하세요. |
1년 이상의 미래용 예약은 장기 실행 학습 작업과 추론 워크로드에 적합합니다. | 모든 TPU 버전: TPU 리전 및 영역 참고 | 주문형 할당량 |
| 최대 90일까지의 미래형 예약 (캘린더 모드) (미리보기) |
시작 시간과 기간(1~90일)을 지정하여 TPU 리소스를 요청합니다. 이러한 리소스는 해당 기간 동안 독점적으로 사용되도록 예약됩니다. 자세한 내용은 최대 90일까지의 미래형 예약 (캘린더 모드)을 참고하세요. 예약은 용량을 정확하게 보장하고 주문형 리소스보다 가격이 저렴합니다. |
캘린더 모드의 미래용 예약은 정확한 시작 시간이 필요하고 기간이 정의된 학습 및 실험 워크로드에 적합합니다. |
학습 및 서빙용 TPU7x(Ironwood)(프리뷰): us-central1-c 학습 및 서빙용 v6e(Trillium): asia-northeast1-b, us-east5-a 학습 및 서빙용 v5p: us-east5-a 학습용 v5e: us-west4-a 서빙용 v5e: us-central1-a |
할당량 필요 없음 |
| 주문형 |
필요한 기간 동안 즉시 사용할 수 있는 TPU 리소스를 요청합니다. 주문형은 유연성이 뛰어납니다. 주문형 리소스는 선점되지 않지만 요청을 만족시킬 수 있을 만큼 충분한 TPU 리소스 가용성을 보장하지 않습니다. 주문형은 TPU 리소스를 만들 때의 기본 옵션입니다. 주문형 TPU를 만들고 사용하는 방법에 대한 자세한 내용은 TPU VM 만들기를 참고하세요. |
주문형은 유연한 종료 시간이 필요한 긴급 작업과 워크로드에 적합합니다. | 모든 TPU 버전: TPU 리전 및 영역 참고 | 주문형 할당량 |
| flex-start(프리뷰) |
용량을 미리 예약하지 않고 특정 기간(최대 7일)의 TPU 리소스를 요청합니다. TPU Flex-start VM은 전용 용량 풀에서 제공되므로 리소스 가용성이 주문형보다 높습니다. 자세한 내용은 TPU Flex-start VM 요청을 참고하세요. Google Kubernetes Engine (GKE)에서 TPU Flex-start VM을 사용하는 방법에 대한 자세한 내용은 Flex-start 프로비저닝 모드에서 GPU 및 TPU 프로비저닝 정보를 참고하세요. |
flex-start는 실험, 소규모 테스트, 추론 워크로드를 위한 TPU 동적 프로비저닝, 모델 미세 조정, 7일 이내의 워크로드 실행에 적합합니다. |
TPU7x(Ironwood)(프리뷰): us-central1-c(GKE만 사용) v6e(Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a |
선점형 할당량 |
| 스팟 |
선점될 수 있는 TPU 리소스를 요청합니다. 스팟 VM은 주문형 리소스보다 훨씬 저렴합니다. 스팟 VM은 주문형 리소스보다 쉽게 획득할 수 있지만 언제든지 선점 (중단)될 수 있습니다. 런타임 기간에는 제한이 없습니다. TPU 스팟 VM에 대한 자세한 내용은 TPU 스팟 VM 관리를 참고하세요. |
스팟은 가용성 중단에 민감하지 않은 모델 사전 학습, 모델 미세 조정, 시뮬레이션 작업과 같은 우선순위가 낮은 워크로드를 예약하는 데 적합합니다. | 모든 TPU 버전: TPU 리전 및 영역 참고 | 선점형 할당량 |
TPU 할당량 요청
소비 옵션과 관계없이 TPU VM을 사용하려면 Cloud TPU 코어 또는 칩에 대한 주문형 또는 선점형 할당량이 필요합니다. 선택한 옵션, TPU 버전, 크기, 영역에 충분한 할당량이 있는지 확인합니다. 할당량은 각 TPU 버전에 따라 다르며 주문형 사용과 선점형 사용에 따라 다릅니다. 일부 TPU 버전에는 기본 할당량이 있지만 다른 버전의 경우 할당량을 요청해야 합니다. 자세한 내용은 Cloud TPU 할당량을 참고하세요.
Google Kubernetes Engine (GKE)에서 TPU를 사용하는 경우 표준 TPU API 할당량 대신 Compute Engine API 할당량이 필요합니다. GKE의 TPU 할당량에 대한 자세한 내용은 TPU 할당량 확보를 참고하세요.
TPU 버전 선택
모델의 학습 또는 추론 요구사항에 따라 TPU 버전(예: v5e, v5p, v6e 또는 TPU7x(Ironwood))을 선택합니다. 자세한 내용은 TPU 버전을 참조하세요.
다음 단계
- TPU VM을 만드는 방법 알아보기
- TPU 관리 방법 알아보기