TPU Cluster Director 개요

TPU Cluster Director는 Google Cloud AI 가속기를 예약 기반으로 직접 제어할 수 있도록 설계되었습니다. Cloud TPU에서 Cluster Director 기본 기능은 물리적으로 격리된 TPU 용량을 제공하는 멀티 테넌트 제품 이상의 새로운 서비스 등급을 제공합니다.

  • 전용, 물리적으로 공동 배치된 용량: 이제 밀도 높은 공동 배치 TPU 예약을 제공하므로 최적의 네트워크 성능과 워크로드 예약을 위해 하드웨어를 완전히 제어할 수 있습니다.
  • 고급 유지보수 및 제어: 특정 VM, 큐브, 포드 또는 전체 예약을 타겟팅하고 이러한 이벤트의 순서와 속도를 관리하여 비즈니스 영향을 최소화할 수 있는 기능으로 유지보수 이벤트를 정밀하게 제어할 수 있습니다.
  • 토폴로지 인식 예약: 하드웨어의 물리적 토폴로지, 상태, 사용률을 전체적으로 파악하여 워크로드를 더 스마트하게 성능 중심으로 배치할 수 있습니다.

Cluster Director 기초는 Google Kubernetes Engine과 완전 통합됩니다. 이 통합은 대규모 AI 워크로드를 향상하기 위한 여러 가지 기능을 제공합니다.

  • 효율성, 내결함성, 복원력 향상 - 까다로운 AI 작업을 위한 강력한 환경을 제공합니다.
  • 토폴로지 인식 노드 풀 및 워크로드 배치 - 공동 배치된 밀도 높은 예약을 사용하면 특정 포드나 큐브를 타겟팅할 수 있습니다. 이를 통해 워크로드 예약을 더 세밀하게 조정할 수 있습니다.

GKE의 Cluster Director 기초를 사용하면 워크로드의 고활용도, 고성능, 확장성의 이점을 활용하고 처리량과 안정성이 향상되며 호스트부터 GKE 클러스터까지 물리적 용량을 포괄적으로 모니터링할 수 있습니다.

GKE의 TPU Cluster Director 기초는 새로운 모든 용량 모드 예약을 통해 사용 가능합니다.

모든 용량 모드

이전에는 Google에서 결함 있는 TPU 머신을 자동으로 교체하지만 TPU 슬라이스에 다시 시작하는 데 필요한 리소스가 있도록 예약된 용량 일부를 유지하는 '관리형' 모드를 통해 TPU 용량이 제공되었습니다. 이제 Google에서는 '모든 용량' 모드라는 새로운 TPU 용량 모드를 도입합니다. 이 용량 모드에서는 TPU 하드웨어 토폴로지, 사용률 상태, 예약된 용량 상태를 완전히 파악할 수 있습니다. 또한 전체 예약 용량에 액세스할 수 있지만 장애 및 계획된 유지보수를 관리해야 합니다.

모든 용량 모드의 주요 기능은 다음과 같습니다.

  • 완전한 제어 및 가시성: 예약된 용량을 완전히 제어하고 하드웨어 상태와 토폴로지를 완전히 파악할 수 있습니다. 즉, 홀드백을 포함한 모든 사용 가능한 용량을 확인하고 머신 장애를 직접 관리할 수 있습니다.
  • 전용 용량: AI 워크로드에 항상 사용할 수 있는 전용 용량에 액세스할 수 있습니다. 전체 용량이 제공되고 홀드백이 없으므로 예측 가능성이 높아지고 할당이 증가하여 예약된 TPU 용량을 모두 활용할 수 있습니다. 이제 우선순위가 낮은 워크로드를 실행하기 위해 홀드백 용량에 액세스할 수도 있습니다.
  • 최적화된 성능: TPU 모든 용량 모드는 대규모의 긴밀하게 결합된 ML 및 HPC 워크로드에 중요한 매우 짧은 지연 시간 네트워킹을 통해 대규모 가속기 리소스를 밀도 높게 공동 배치합니다. 이 아키텍처는 학습 및 추론 워크로드 모두에서 최대 성능을 발휘할 수 있도록 최적화되어 있습니다.

지원되는 TPU 세대

TPU 모든 용량 모드와 기능은 Trillium(tpu v6e), TPU Ironwood(tpu7x), 향후 TPU 세대에서 사용 가능합니다. 이전 TPU 세대는 지원되지 않습니다.

TPU Cluster Director 용어

Cluster Director 토폴로지 개념은 클러스터, 블록, 하위 블록, 호스트 등 네 가지 수준으로 구성됩니다. 클러스터는 물리적 TPU 용량의 Google 배포 단위로, 포드 승수입니다. 클러스터의 모든 TPU 용량은 영역 하나에 있습니다. 모든 용량 모드의 TPU 예약은 항상 클러스터 하나에 있습니다. TPU의 경우 나머지 토폴로지 개념은 다음 표에 표시된 대로 물리적 구성요소에 매핑됩니다.

Trillium

토폴로지 개념 Trillium 코어 호스트
--- 1 1 해당 사항 없음
호스트 호스트 8 8 1
하위 블록 Trillium 포드 256 256 32
차단 예약의 여러 Trillium 포드(최대 16개)

최대 4,096개

최대 4,096개

최대 512개

--- 하위 블록에서 허용된 슬라이스 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16, 16x16
--- 예약 하나에 블록이 여러 개 있을 수 있으며 각 블록에는 Trillium 포드 1~16개가 있을 수 있음

Trillium 슬라이스 크기에 대한 자세한 내용은 Trillium 지원 구성을 참조하세요.

Ironwood

토폴로지 개념 Ironwood 코어 호스트
--- 2 1 ---
호스트 호스트 8 4 1
하위 블록 큐브 128 64 16
차단 Ironwood 큐브 여러 개(최대 전체 포드) 최대 9,216개(큐브 144개) 최대 2,304개
--- 블록에서 허용되는 슬라이스: 예시 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8, 12x24x24(다수)
--- 예약에는 Ironwood 큐브가 하나 이상 있을 수 있으며 최대 전체 Ironwood 포드까지 있을 수 있습니다.

Ironwood 슬라이스 크기에 대한 자세한 내용은 TPUv7x 지원 구성을 참조하세요.