Vertex AI 학습 클러스터는 다양한 워크로드를 수용하기 위해 다양한 머신 유형을 지원합니다. 클러스터 노드 풀을 구성할 때 다음 옵션 중에서 선택할 수 있습니다.
- a4-highgpu-8g
- a3-ultragpu-8g
- a3-megagpu-8g
- n2 CPU 제품군
용량 프로비저닝
적절한 프로비저닝 모델을 선택하는 것은 비용, 속도, 리소스 가용성의 균형을 맞추는 데 매우 중요합니다. 다음 프로비저닝 옵션을 참조하세요.
RESERVATION: 미리 생성한 특정 Compute Engine 예약에서 노드를 할당합니다. 이 모델은 용량을 보장하며 수요가 많은 리소스에 권장됩니다.FLEX_START: 동적 워크로드 스케줄러를 사용하여 작업을 대기열에 추가합니다. 요청된 컴퓨팅 리소스를 사용할 수 있게 되면 작업이 자동으로 시작되므로 예약 없이 유연한 시작 시간을 제공합니다.SPOT: 스팟 VM을 사용하여 노드 풀을 프로비저닝합니다. 이 옵션은 비용 효율성이 가장 높지만 VM이 언제든지 선점될 수 있으므로 내결함성을 갖추고 있고 중단을 처리할 수 있는 워크로드에만 사용해야 합니다.ON_DEMAND: CPU 전용 노드 풀의 기본 옵션이며 부족하지 않은 머신 유형에 가장 적합합니다. 예측 가능한 사용한 만큼만 지불하는 가격 책정으로 표준 VM 인스턴스를 제공합니다.
다음 안내에 따라 선택하세요.
수요가 많은 GPU 리소스(예: A3 및 A4)의 경우
RESERVATION모델을 적극 권장합니다. 이를 통해 중요한 학습 작업에 필요한 용량에 전용으로 액세스할 수 있습니다.버스트형 또는 유연한 워크로드:
FLEX_START또는SPOT을 고려하세요.FLEX_START는 리소스를 사용할 수 있을 때까지 작업을 대기열에 추가하는 반면SPOT은 선점을 처리할 수 있는 내결함성 작업에 상당한 비용 절감 효과를 제공합니다.머신 유형이 많은 경우:
ON_DEMAND모델이 적합합니다. 부족하지 않고 즉시 사용 가능 여부가 문제가 되지 않는 머신 유형에 사용합니다.
공유 예약 사용(선택사항)
로컬 예약이 아닌 공유 예약을 사용하려면 클러스터를 만들기 전에 추가 단계를 수행해야 합니다.
Vertex AI 학습 클러스터에서 공유 예약을 사용하기 전에 공유 예약을 사용하는 VM을 수동으로 만들어 공유 예약이 작동하는지 확인하세요.
이 VM 생성이 작동하면 다음 단계로 이동합니다.
클러스터 생성 구성에서 다음 형식으로 예약 이름을 사용합니다.
projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME
다음 단계
학습 클러스터의 컴퓨팅 및 프로비저닝 옵션을 선택한 후 클러스터를 만들고 클러스터에서 워크로드를 실행할 수 있습니다.
- Compute Engine 예약 만들기:
RESERVATION모델은 GPU와 같이 수요가 많은 리소스를 할당하는 데 사용됩니다. Compute Engine에서 새 예약을 만들어 필요한 리소스에 전용으로 액세스하는 방법을 알아봅니다. - 학습 클러스터 만들기: 단계별 가이드에 따라 Vertex AI API 또는
gcloud를 사용하여 첫 번째 영구 학습 클러스터를 만들어 학습한 구성을 적용합니다. - 클러스터에 학습 작업 제출: 클러스터가 활성화되면 다음 단계는 워크로드를 실행하는 것입니다. 실행을 위해 영구 클러스터를 타겟팅하는
CustomJob를 제출합니다. - 분산 학습을 위해 코드 조정: 다중 노드 클러스터를 최대한 활용하려면 분산 환경에 맞게 학습 코드를 조정하세요.