GKE의 AI/ML 워크로드용 액셀러레이터 소비 옵션 정보

이 페이지에서는 AI/ML 워크로드의 요구사항에 따라 GPU 또는 TPU와 같은 컴퓨팅 가속기를 확보하는 데 사용할 수 있는 기법을 설명합니다. 이러한 기법을 GKE에서는 가속기 사용 옵션이라고 합니다. 다양한 소비 옵션을 이해하면 리소스 활용을 최적화하여 리소스 부족을 방지하고, 리소스를 획득할 가능성을 높이고, 비용과 성능의 균형을 맞출 수 있습니다.

이 페이지는 머신러닝 (ML) 엔지니어와 협력하여 AI/ML 워크로드를 성공적으로 배포하는 데 필요한 리소스를 확보하는 플랫폼 관리자 및 운영자를 대상으로 합니다.

Google Cloud 콘텐츠에서 참조하는 일반적인 역할 및 예시 태스크에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참조하세요.

소비 옵션 이해

GKE에서 가속기를 사용하려면 다음 옵션 중에서 선택하면 됩니다.

  • 주문형: 사전에 용량을 준비하지 않고 GKE에서 TPU 또는 GPU를 사용합니다. 리소스를 요청하기 전에 특정 유형 및 수량의 가속기에 대한 주문형 할당량이 충분해야 합니다. 주문형은 가장 유연한 소비 옵션이지만 요청을 만족시킬 수 있을 만큼 충분한 주문형 리소스가 제공된다고 보장할 수는 없습니다.
  • 예약: 설정된 기간 동안 리소스를 예약합니다. 예약은 다음 중 하나일 수 있습니다.
    • 미래용 예약: 일반적으로 더 긴 기간 동안 미래의 특정 시간에 리소스를 예약합니다. 해당 기간 동안 예약된 리소스에 독점적으로 액세스할 수 있습니다. 미래용 예약에는 기술계정 관리자 (TAM)와의 협의가 필요합니다. 자세한 내용은 TPUGPU 안내를 참고하세요.
    • 최대 90일간의 미래용 예약 (캘린더 모드): 캘린더 어드바이저가 사용 가능한 날짜를 제안하는 방식으로 지정된 기간 동안 용량을 요청합니다. 최대 90일간의 미래용 예약 (캘린더 모드)은 단기 기간에 더 유연하며 셀프 서비스 용량 검색을 제공합니다. 자세한 내용은 캘린더 모드의 미래용 예약 요청을 참고하세요.
    • 온디맨드 예약: 온디맨드 옵션과 마찬가지로 용량을 사용할 수 있게 되는 즉시 프로비저닝되도록 온디맨드 예약을 요청할 수 있습니다. 예약이 활성 상태인 동안 리소스 사용 여부와 관계없이 비용을 지불합니다.
  • Flex-start: 예약 없이 단기 워크로드에 집중적으로 할당된 리소스를 확보합니다. 특정 수의 GPU 또는 TPU를 요청하면 용량을 사용할 수 있게 될 때 Compute Engine에서 이를 프로비저닝합니다. GPU 또는 TPU는 최대 7일 동안 중단 없이 실행됩니다. 자세한 내용은 flex-start 프로비저닝을 참고하세요.
  • 스팟: 스팟 VM을 프로비저닝하면 상당한 할인을 받을 수 있지만 스팟 VM은 언제든지 30초 경고와 함께 선점될 수 있습니다. 자세한 내용은 스팟 VM을 참조하세요.

GKE의 액셀러레이터 할당량 이해

할당량과 시스템 한도는 모든 Google Cloud 사용자가 리소스를 사용할 수 있도록 Google Cloud 리소스 사용량을 제한합니다. 할당량에는 기본값이 있지만 일반적으로 조정을 요청할 수 있습니다. 시스템 한도는 변경할 수 없는 고정 값입니다. 기본적으로 프로젝트에는 일반적으로 상당한 가속기 할당량이 제공되지 않습니다. 특정 가속기 유형 및 리전의 할당량을 요청하고 승인을 받아야 합니다.

워크로드에 필요한 할당량을 관리할 때는 다음 특성을 고려하세요.

  • 각 소비 옵션에 필요한 할당량을 요청해야 합니다. 각 소비 옵션에 필요한 할당량을 확인하려면 소비 옵션 선택 표에 나열된 해당 '할당량' 매개변수를 참고하세요. 할당량이 충분하지 않으면 클러스터, 노드 풀을 만들거나 가속기가 필요한 워크로드를 배포하려고 하면 Quota exceeded 오류가 발생합니다.

  • Autopilot에서 커스텀 컴퓨팅 클래스를 사용하는 경우 할당량을 요청해야 합니다. 컴퓨팅 클래스 요구사항을 충족하기 위해 프로비저닝된 노드는 지정된 액셀러레이터에 대한 프로젝트의 할당량을 계속 사용합니다.

  • Google Cloud 무료 체험 계정은 GPU, TPU와 같은 고가치 리소스의 할당량 증가를 요청하는 데 제한이 있습니다. 액셀러레이터 할당량에 액세스하려면 유료 계정으로 업그레이드하세요.

할당량을 확인하고 요청하려면 Google Cloud 콘솔의 할당량 페이지로 이동하세요. 액셀러레이터 할당량을 필터링하고 상향 조정을 요청할 수 있습니다.

소비 옵션 선택

다음 고려사항을 사용하여 AI/ML 워크로드에 가장 적합한 소비 옵션을 선택하세요.

  • 워크로드 유형: 구현하려는 워크로드 유형을 고려합니다. 학습 또는 추론 워크로드를 실행하는 경우 GKE 요구사항이 달라집니다.
    • 학습: 상당한 메모리가 있는 고성능 리소스가 필요합니다. 학습 워크로드는 일반적으로 수명이 잘 정의되어 있습니다. 이러한 워크로드는 리소스 소비가 갑자기 급증할 가능성이 적기 때문에 계획하기가 더 쉬운 경우가 많습니다.
    • 추론: 일반적으로 확장성과 낮은 비용에 최적화된 액셀러레이터가 필요합니다. 추론 워크로드는 리소스 소비가 갑자기 급증하는 동안 상당한 가속기 메모리가 필요할 수 있습니다.
  • 구현 단계에 따른 수명: 개념 증명 (POC), 플랫폼 평가, 애플리케이션 개발 또는 테스트, 프로덕션화 또는 최적화를 실행하는 경우 비즈니스 목표를 고려하세요.
  • 프로비저닝 시간: 워크로드에 즉시 실행이 필요한지 아니면 나중에 실행해도 되는지 결정합니다. 향후 실행이 가능한 경우 시작 시간이 얼마나 유연할 수 있는지 확인합니다.
  • 비용과 성능 간 균형: 워크로드 성능 요구사항과 예산 제약 조건을 평가하여 가장 비용 효율적인 액셀러레이터를 선택합니다. 액셀러레이터의 비용과 성능 특성 간의 균형을 고려하세요. 새로운 가속기를 사용하면 비용 대비 성능 비율이 개선될 수 있습니다.

다음 표를 사용하여 소비 옵션을 선택합니다.

워크로드 유형 프로비저닝 시간 수명 권장 소비 옵션
  • 파운데이션 모델 사전 학습 또는 멀티 호스트 추론과 같은 장기 실행 대규모 워크로드
  • 프로덕션 워크로드.
즉시 (승인된 예약 포함) 장기 (예약당)

A4X, A4 또는 A3 Ultra를 제외한 GPU 또는 TPU를 사용하려면 온디맨드 예약을 사용하세요.

  • 비용: 전체 예약 기간에 대한 요금이 청구됩니다.
  • 할당량: 용량이 제공되기 전에 할당량이 자동으로 증가합니다.

G2, A2, A3 High 또는 A3 Mega 가속기를 사용하려면 미래용 예약을 사용하세요.

  • 비용: 전체 예약 기간에 대한 요금이 청구됩니다.
  • 할당량: 용량이 제공되기 전에 할당량이 자동으로 증가합니다.
  • 정확한 시작 시간이 필요한 모델 미세 조정, 시뮬레이션 또는 배치 추론과 같은 단기 분산 워크로드
  • 플랫폼 평가, 벤치마킹 또는 최적화 테스트를 위한 워크로드
즉시 (승인된 예약 포함) 최대 90일

최대 90일간의 미래용 예약 (캘린더 모드):

  • 비용: 할인 (최대 53%) 예약 기간에 대한 요금이 청구됩니다.
  • 할당량: 할당량이 청구되지 않습니다.
  • 지원되는 가속기: A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium, Ironwood (TPU7x) (미리보기)
  • 시작 시간이 유연한 소규모 모델 학습, 미세 조정 또는 확장 가능한 추론과 같은 배치 워크로드
  • POC 또는 통합 테스트용 워크로드
주문형 (제공 가능 여부에 따라 다름) 할당당 최대 7일

flex-start 프로비저닝 모드:

  • 비용: 할인 (최대 53%) 사용한 만큼만 지불합니다.
  • 할당량: GPU 선점형 할당량 또는 TPU 선점형 할당량이 청구됩니다.
  • 지원되는 가속기: A4X를 제외한 모든 GPU 제품군 모든 TPU 버전
  • CI/CD, 데이터 분석, 고성능 컴퓨팅 (HPC)과 같은 우선순위가 낮고 내결함성이 있는 워크로드
  • 중단 가능성이 높은 워크로드
주문형 (제공 가능 여부에 따라 다름) 가변적이며 30초 경고와 함께 선점될 수 있음

스팟 VM:

  • 비용: 최대 91% 할인 사용한 만큼만 지불합니다.
  • 할당량: GPU 선점형 할당량 또는 TPU 선점형 할당량이 청구됩니다.
  • 지원되는 가속기: A4X를 제외한 모든 GPU 제품군 모든 TPU 버전
  • 즉시 실행해야 하는 범용 워크로드
즉시 (제공 가능 여부에 따라 다름) 제한 없음

주문형 (GPU 또는 TPU):

  • 비용: 사용한 만큼만 지불합니다.
  • 할당량: GPU 또는 TPU 주문형 할당량에 요금이 청구됩니다.
  • 지원되는 가속기: A4X, A4, A3 Ultra를 제외한 모든 GPU 제품군 모든 TPU 버전

다음 단계