관리형 인스턴스 그룹 (MIG)은 VM 모음의 생성, 구성, 수명 주기 관리를 자동화합니다. MIG는 자동 복구 및 리전 (멀티 영역) 배포를 통한 높은 가용성, 가변 부하를 처리하기 위한 자동 확장, 애플리케이션의 순차적 업데이트 간소화와 같은 이점을 제공합니다. 자세한 내용은 관리형 인스턴스 그룹을 참고하세요.
MIG를 사용하여 TPU 버전 v5p 이상의 TPU VM을 만들고 관리할 수 있습니다. 단일 TPU VM, 독립 TPU VM (단일 호스트 슬라이스라고도 함), 상호 연결된 TPU VM이 있는 MIG (멀티 호스트 슬라이스라고도 함)를 사용하여 MIG를 만들 수 있습니다.
단일 호스트 MIG의 각 슬라이스에는 최대 하나의 TPU VM이 있습니다. MIG 내의 TPU VM은 칩 간 상호 연결 (ICI) 링크로 연결되지 않습니다.
멀티 호스트 슬라이스에는 ICI 링크로 상호 연결된 여러 TPU VM이 포함되어 있습니다.
단일 TPU VM 인스턴스가 있는 MIG
MIG의 대상 크기를 1로 설정하여 MIG를 사용하여 개별 TPU VM을 만들고 관리할 수 있습니다. 이 접근 방식은 단일 인스턴스에 자동 복구와 같은 MIG 기능을 사용하려는 경우에 유용합니다. 자세한 내용은 단일 호스트 TPU 슬라이스로 MIG 만들기를 참고하세요.
단일 호스트 TPU 슬라이스가 있는 MIG
여러 독립적인 TPU 인스턴스로 관리형 인스턴스 그룹 (MIG)을 만드는 것은 여러 개별 TPU VM이 필요하지만 분산 워크로드를 위해 ICI 링크로 상호 연결할 필요는 없는 워크로드에 유용합니다. 예를 들면 다음과 같습니다.
- 추론 제공: MIG의 각 VM은 추론 요청을 독립적으로 처리할 수 있습니다. MIG를 사용하면 수요에 따라 서비스 인스턴스 수를 확장하고 그룹으로 관리할 수 있습니다.
- 병렬 독립 작업: MIG는 단일 TPU VM에서 병렬로 실행할 수 있는 여러 개의 작고 독립적인 학습 작업 또는 기타 계산을 관리하는 방법을 제공합니다.
- 관리: MIG는 다음 기능을 제공합니다.
- 배포: 인스턴스 템플릿을 한 번 정의하고 MIG를 사용하여 동일한 TPU VM을 여러 개 만듭니다.
- 확장성: MIG의 크기를 조절하여 TPU VM 수를 조정합니다.
- 순차적 업데이트: 모든 VM에서 소프트웨어 또는 머신 유형을 제어된 방식으로 업데이트합니다.
- 비용 효율성: 대규모 TPU 슬라이스의 전체 성능이나 상호 연결이 필요하지 않은 작업의 경우 더 작고 독립적인 TPU 슬라이스를 여러 개 사용하는 것이 비용 효율적일 수 있습니다.
자세한 내용은 단일 호스트 TPU 슬라이스로 MIG 만들기를 참고하세요.
멀티 호스트 슬라이스가 있는 MIG
독립 TPU 슬라이스 그룹과 달리 멀티 호스트 슬라이스용으로 구성된 MIG는 ICI 링크를 통해 긴밀하게 결합된 TPU VM 집합을 관리합니다. 이렇게 하면 단일 논리 TPU 슬라이스가 생성됩니다.
혜택 및 실적
멀티 호스트 TPU 슬라이스의 MIG는 집약적인 머신러닝 워크로드에 필요한 확장성과 성능을 제공합니다.
- 분산 학습: 머신러닝 모델을 학습시키려면 단일 TPU VM에서 제공할 수 있는 것보다 더 많은 TPU 성능이 필요한 경우가 많습니다. 더 큰 TPU 슬라이스는 여러 TPU 칩과 VM에 걸쳐 컴퓨팅을 분산하며, ICI 링크를 통해 이들 간에 빠른 통신이 가능합니다. 이는 학습 성능에 매우 중요합니다.
- 높은 상호 연결 대역폭: ICI 네트워크는 표준 데이터 센터 네트워크 (DCN)보다 슬라이스의 TPU 칩 간에 더 높은 대역폭과 낮은 지연 시간을 제공합니다. 이는 대규모 모델 학습에서 흔히 사용되는 동기 작업에 필수적입니다.
원자적 수명 주기 작업
상호 연결된 토폴로지의 무결성을 보장하기 위해 MIG는 수명 주기 전반에 걸쳐 전체 슬라이스를 나눌 수 없는 단일 단위로 관리합니다.
- 생성: 슬라이스의 모든 VM이 함께 프로비저닝됩니다. 요청된 전체 토폴로지에 사용할 수 있는 정상적인 상호 연결된 용량이 충분하지 않으면 슬라이스가 생성되지 않습니다.
- 삭제: MIG는 전체 슬라이스를 하나의 단위로 삭제합니다.
- 크기 조절: 크기 조절은 0에서 전체 슬라이스 크기로 또는 전체 슬라이스 크기에서 다시 0으로 조정하는 것으로 제한됩니다. 다중 VM 슬라이스의 크기를 부분적으로 조정할 수는 없습니다.
구성 요구사항
멀티 호스트 MIG를 구성하려면 물리적 상호 연결 토폴로지와 개별 인스턴스 속성을 모두 정의해야 합니다.
- 워크로드 정책:
accelerator-topology매개변수 (예: 4x4, 8x8, 4x4x4)를 사용하여 워크로드 정책을 지정해야 합니다. 이렇게 하면 인스턴스를 상호 연결된 단일 슬라이스로 취급하도록 MIG가 구성됩니다. 토폴로지에 대한 자세한 내용은 TPU 토폴로지를 참고하세요. - 인스턴스 템플릿: 슬라이스 내 각 VM의 머신 유형, 디스크 이미지, 기타 설정과 같은 속성을 정의합니다.
슬라이스 가용성 및 장애 복구
MIG를 사용하여 멀티 호스트 TPU 슬라이스를 만들면 MIG가 슬라이스 복구 프로세스를 자동으로 관리합니다. 호스트 또는 ICI 오류가 발생하면 슬라이스가 REACTIVATING 상태로 전환됩니다. 슬라이스의 모든 VM이 REPAIRING 상태로 전환되지만 반드시 동시에 전환되지는 않습니다. 그러면 MIG가 정상 용량에서 VM을 함께 자동으로 다시 시작하여 슬라이스를 복원합니다.
하지만 스팟 VM을 사용하는 경우 선점으로 인해 인스턴스가 종료됩니다. MIG는 슬라이스를 자동으로 다시 활성화하지 않습니다.
인스턴스 중단으로부터의 오류 복구
TPU 인스턴스를 삭제하거나 중지하거나 운영체제 내에서 인스턴스를 중지하면 슬라이스가 FAILED 상태로 전환됩니다. 이 시나리오에서는 슬라이스를 다시 만들 때까지 슬라이스가 FAILED 상태로 유지됩니다.
슬라이스를 다시 만들려면 MIG를 삭제하고 다시 만들거나 MIG 크기를 0으로 조정한 다음 크기를 늘려야 합니다.
슬라이스 상태에 대한 자세한 내용은 TPU 슬라이스 상태 보기를 참고하세요.
제한사항
다음 섹션에서는 TPU VM으로 MIG를 만들 때 적용되는 제한사항을 설명합니다.
인스턴스 템플릿 제한사항
TPU 머신 유형을 지정하는 인스턴스 템플릿에는 다음과 같은 제한사항이 있습니다.
예약에 따름 프로비저닝 모델을 사용하는 경우 인스턴스 종료 작업을 삭제로 설정해야 합니다.
TPU는 특별히 타겟팅된 예약만 사용할 수 있습니다.
배치 정책을 지정할 수 없습니다.
인스턴스 템플릿을 사용하여 멀티 호스트 TPU 슬라이스의 MIG를 만드는 경우
scheduling.automaticRestart필드를false로 설정하여 자동 재시작을 사용 중지할 수 없습니다. 이 제한사항은 표준, flex-start, 예약에 따름 프로비저닝 모델에 적용됩니다.
MIG 제한사항
TPU가 있는 MIG에는 다음과 같은 제한사항이 있습니다.
수명 주기 작업: TPU 인스턴스를 중지, 시작, 재개 또는 일시중지할 수 없습니다. 다시 시작해야 하는 구성을 변경하거나 요금이 청구되지 않도록 하려면 인스턴스를 삭제해야 합니다.
리전 MIG 영역 분산: 대상 분산 형태를
ANY_SINGLE_ZONE로 설정해야 합니다.MIG의 구성 업데이트:
- 정의된 가속기 토폴로지로 인해 멀티 호스트 TPU 슬라이스를 형성하는 MIG는 업데이트할 수 없습니다.
- 자동 또는 선택적 방법을 사용하여 단일 호스트 TPU 슬라이스를 형성하는 MIG를 업데이트할 수 있습니다.
하지만 단일 호스트 TPU 슬라이스의 업데이트는 다시 시작(
RESTART) 작업을 지원하지 않습니다. 다시 시작이 필요하고 허용되는 가장 중단을 많이 유발하는 작업이 교체 (REPLACE)인 경우 업데이터가 인스턴스를 교체합니다. 그렇지 않으면 업데이트 시도가 오류와 함께 실패합니다.
멀티 호스트 TPU 슬라이스를 형성하는 MIG에는 다음 제한사항도 적용됩니다.
대상 크기 정책: 대상 크기 정책 모드를
BULK로 설정해야 합니다. 이 모드를 설정한 후에는 변경할 수 없습니다.타겟 크기: 일괄 모드에서는 타겟 크기를
0또는 가속기 토폴로지를 구성하는 데 필요한 인스턴스 수로 설정할 수 있습니다.워크로드 정책: 가속기 토폴로지가 정의된 워크로드 정책을 지정해야 합니다. 워크로드 정책을 설정한 후에는 MIG에서 정책을 변경하거나 삭제할 수 없습니다.
지원되지 않는 기능: TPU가 있는 MIG는 다음 기능을 지원하지 않습니다.
다음 단계
- 단일 호스트 TPU 슬라이스로 MIG를 만드는 방법 알아보기
- 멀티 호스트 TPU 슬라이스로 MIG 만들기 방법 알아보기