멀티 호스트 Cloud TPU 슬라이스로 MIG 만들기
이 문서에서는 멀티 호스트 TPU 슬라이스로 관리형 인스턴스 그룹 (MIG)을 만드는 방법을 설명합니다.
기본 요건
다음 기본 요건을 완료합니다.
- TPU용 프로젝트 설정에 설명된 대로 TPU용 프로젝트를 만듭니다.
- 리소스 계획에 설명된 대로 TPU 요구사항을 결정합니다.
멀티 호스트 TPU 슬라이스로 MIG 만들기
- 인스턴스 템플릿을 만듭니다.
- 워크로드 정책을 만듭니다.
- MIG를 만듭니다.
인스턴스 템플릿 만들기
인스턴스 템플릿을 만드는 명령어는 사용한 소비 옵션(온디맨드, 스팟, 예약에 따름, flex-start)에 따라 다릅니다. 소비 옵션에 대한 자세한 내용은 TPU 리소스 계획을 참고하세요.
주문형 TPU VM의 인스턴스 템플릿 만들기
다음 명령어는 주문형 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
다음 자리표시자를 바꿉니다.
INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.MACHINE_TYPE: TPU VM의 머신 유형입니다(예:ct6e-standard-8t).IMAGE_FAMILY: TPU VM의 OS 이미지 계열입니다. 특정 OS 버전을 설치하려면--image플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참고하세요.IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우ubuntu-os-accelerator-images입니다.
TPU 스팟 VM의 인스턴스 템플릿 만들기
다음 명령어는 스팟 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=STOP \
--provisioning-model=SPOT \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
다음 자리표시자를 바꿉니다.
INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.MACHINE_TYPE: TPU VM의 머신 유형입니다(예:ct6e-standard-8t).IMAGE_FAMILY: TPU VM의 OS 이미지 계열입니다. 특정 OS 버전을 설치하려면--image플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참고하세요.IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우ubuntu-os-accelerator-images입니다.
TPU 예약에 따름 VM의 인스턴스 템플릿 만들기
다음 명령어는 예약에 따름 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=DELETE \
--reservation-affinity=specific \
--provisioning-model=reservation-bound \
--reservation=RESERVATION_NAME \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
다음 자리표시자를 바꿉니다.
INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.MACHINE_TYPE: TPU VM의 머신 유형입니다(예:ct6e-standard-8t).RESERVATION_NAME: 사용할 특정 예약의 이름입니다.IMAGE_FAMILY: TPU VM의 OS 이미지 계열입니다. 특정 OS 버전을 설치하려면--image플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참고하세요.IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우ubuntu-os-accelerator-images입니다.
TPU flex-start VM의 인스턴스 템플릿 만들기
다음 명령어는 flex-start 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.
gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
--machine-type=MACHINE_TYPE \
--maintenance-policy=TERMINATE \
--instance-termination-action=DELETE \
--provisioning-model=FLEX_START \
--max-run-duration=DURATION \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT
다음 자리표시자를 바꿉니다.
INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.MACHINE_TYPE: TPU VM의 머신 유형입니다(예:ct6e-standard-8t).DURATION: TPU VM이 실행될 수 있는 최대 기간입니다.IMAGE_FAMILY: TPU VM의 OS 이미지 계열입니다. 특정 OS 버전을 설치하려면--image플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참고하세요.IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우ubuntu-os-accelerator-images입니다.
워크로드 정책 만들기
accelerator-topology 매개변수 (예: 4x4, 8x8 또는 4x4x4)를 사용하여 워크로드 정책을 만들어야 합니다. 가속기 토폴로지는 인스턴스를 상호 연결된 단일 슬라이스로 취급하도록 MIG를 구성합니다.
다음 명령어는 워크로드 정책을 만듭니다.
gcloud compute resource-policies create workload-policy WORKLOAD_POLICY_NAME \
--type=high-throughput \
--accelerator-topology=TOPOLOGY \
--region=REGION
다음 자리표시자를 바꿉니다.
WORKLOAD_POLICY_NAME: 워크로드 정책의 이름입니다.TOPOLOGY: TPU VM의 토폴로지입니다(예:4x4x8). 각 TPU 버전의 토폴로지에 대한 자세한 내용은 시스템 아키텍처를 참고하세요.REGION: 워크로드 정책의 리전입니다.
MIG 만들기
다음과 같이 gcloud compute instance-groups managed create 명령어를 사용하여 영역 또는 리전 MIG를 만듭니다.
멀티 호스트 TPU 슬라이스가 포함된 영역 MIG를 만들려면 다음 명령어를 사용하세요.
gcloud compute instance-groups managed create MIG_NAME \ --size=MIG_SIZE \ --target-size-policy-mode=bulk \ --template=INSTANCE_TEMPLATE_URL \ --zone=ZONE \ --default-action-on-vm-failure=do-nothing \ --workload-policy=WORKLOAD_POLICY_URL멀티 호스트 TPU 슬라이스가 포함된 리전 MIG를 만들려면 다음 명령어를 사용하세요.
gcloud compute instance-groups managed create MIG_NAME \ --size=MIG_SIZE \ --target-size-policy-mode=bulk \ --template=INSTANCE_TEMPLATE_URL \ --region=REGION \ --default-action-on-vm-failure=do-nothing \ --workload-policy=WORKLOAD_POLICY_URL \ --target-distribution-shape=any-single-zone \ --instance-redistribution-type=none
다음 자리표시자를 바꿉니다.
MIG_NAME: MIG 이름입니다.MIG_SIZE: MIG의 VM 수입니다.INSTANCE_TEMPLATE_URL: MIG에서 인스턴스를 만드는 데 사용할 인스턴스 템플릿의 URL. URL에는 인스턴스 템플릿의 ID 또는 이름이 포함될 수 있습니다. 다음 값 중 하나를 지정합니다.- 리전 인스턴스 템플릿의 경우:
projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID - 전역 인스턴스 템플릿의 경우:
INSTANCE_TEMPLATE_ID
- 리전 인스턴스 템플릿의 경우:
ZONE: MIG의 영역입니다.REGION: MIG의 리전입니다.WORKLOAD_POLICY_URL: MIG에서 인스턴스를 만드는 데 사용할 워크로드 정책의 URL입니다. 예를 들면projects/PROJECT_ID/regions/WORKLOAD_POLICY_REGION/resourcePolicies/WORKLOAD_POLICY_NAME입니다.
MIG에서 커스텀 이름으로 VM 만들기
각 VM에 맞게 맞춤 이름을 지정하여 MIG에서 VM을 만들 수 있습니다. 이는 디버깅하고 인스턴스가 특정 순서로 생성되도록 하는 데 유용합니다.
멀티 호스트 TPU 슬라이스가 포함된 MIG는 대상 크기 정책의 일괄 모드를 사용합니다. 이러한 MIG에서 커스텀 이름으로 VM을 만들 때는 다음이 적용됩니다.
먼저 MIG에 VM이 없는지 확인해야 합니다. MIG에 VM이 있는 경우 MIG 크기를 대상 크기
0로 조정하거나 대상 크기0로 다른 MIG를 만들어야 합니다.REST API를 사용해서만 커스텀 이름으로 VM을 만들 수 있습니다.
다음 REST API 메서드 중 하나를 사용하여 맞춤 이름으로 VM을 만듭니다.
영역 MIG의 경우
instanceGroupManagers.createInstances를 사용합니다.POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers/MIG_NAME/createInstances { "instances": [ { "name": "INSTANCE_NAME_1" }, { "name": "INSTANCE_NAME_2" }, ... ] }리전 MIG의 경우
regionInstanceGroupManagers.createInstances를 사용합니다.POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceGroupManagers/MIG_NAME/createInstances { "instances": [ { "name": "INSTANCE_NAME_1" }, { "name": "INSTANCE_NAME_2" }, ... ] }
다음 자리표시자를 바꿉니다.
PROJECT_ID: MIG가 있는 프로젝트의 ID입니다.ZONE: MIG의 영역입니다.REGION: MIG의 리전입니다.INSTANCE_NAME_1,2,..: 지정된 MIG에 추가할 VM의 이름입니다.
다음 단계
- TPU VM 및 MIG에 대해 알아봅니다.
- 단일 호스트 Cloud TPU 슬라이스로 MIG를 만드는 방법을 알아보세요.
- TPU VM을 관리하는 방법 알아보기
- GKE의 TPU에 대해 알아봅니다.
- TPU에서 vLLM으로 Qwen2-72B-Instruct 서빙과 같이 TPU에서 ML 워크로드를 실행하는 방법을 알아봅니다.