TPU 클러스터 디렉터 개요

TPU 클러스터 디렉터는 Google Cloud AI 가속기를 예약 기반으로 직접 제어할 수 있도록 설계되었습니다. Cloud TPU의 경우 클러스터 디렉터 기본 기능은 멀티 테넌트 제품을 넘어 물리적으로 격리된 TPU 용량을 제공하는 새로운 서비스 등급을 제공합니다.

  • 전용, 물리적으로 공동 배치된 용량: 이제 밀도 높은 공동 배치 TPU 예약을 제공하여 최적의 네트워크 성능과 워크로드 일정을 위해 하드웨어를 완전히 제어할 수 있습니다.
  • 고급 유지보수 및 제어: 특정 VM, 큐브, 포드 또는 전체 예약에 타겟팅하고 이러한 이벤트의 순서와 속도를 관리하여 비즈니스 영향을 최소화할 수 있는 기능을 통해 유지보수 이벤트를 정밀하게 제어할 수 있습니다.
  • 토폴로지 인식 스케줄링: 하드웨어의 물리적 토폴로지, 상태, 사용률을 전체적으로 파악하여 더 스마트하고 성능 중심적인 워크로드 배치를 지원합니다.

Cluster Director 기초는 Google Kubernetes Engine과 완전히 통합됩니다. 이 통합은 대규모 AI 워크로드를 개선하기 위한 여러 기능을 제공합니다.

  • 효율성, 내결함성, 복원력 향상 - 까다로운 AI 작업을 위한 강력한 환경을 제공합니다.
  • 토폴로지 인식 노드 풀 및 워크로드 배치 - 동일한 위치에 있는 밀도 높은 예약을 사용하면 특정 포드나 큐브를 타겟팅할 수 있습니다. 이를 통해 워크로드 일정을 더 세밀하게 조정할 수 있습니다.

GKE의 Cluster Director 기반을 사용하면 워크로드의 활용도, 성능, 확장성이 향상되고, 처리량과 안정성이 개선되며, 호스트부터 GKE 클러스터까지 물리적 용량을 포괄적으로 관찰할 수 있습니다.

GKE의 TPU Cluster Director 기반은 새로운 모든 용량 모드 예약을 통해 사용할 수 있습니다.

All Capacity 모드

이전에는 Google에서 결함이 있는 TPU 머신을 자동으로 교체하지만 TPU 슬라이스가 다시 시작하는 데 필요한 리소스를 확보할 수 있도록 예약된 용량의 일부를 보류하는 '관리형' 모드를 통해 TPU 용량이 제공되었습니다. 이제 Google에서는 '전체 용량' 모드라는 새로운 TPU 용량 모드를 도입합니다. 이 용량 모드에서는 TPU 하드웨어 토폴로지, 사용률 상태, 예약된 용량의 상태를 완전히 파악할 수 있습니다. 또한 전체 예약 용량에 액세스할 수 있지만 장애 및 계획된 유지보수를 관리해야 합니다.

전체 용량 모드의 주요 기능은 다음과 같습니다.

  • 완전한 제어 및 가시성: 예약된 용량을 완전히 제어하고 하드웨어 상태와 토폴로지를 완전히 파악할 수 있습니다. 따라서 홀드백을 포함한 모든 사용 가능한 용량을 확인하고 머신 장애를 직접 관리할 수 있습니다.
  • 전용 용량: AI 워크로드에 항상 사용할 수 있는 전용 용량에 액세스할 수 있습니다. 전체 용량과 제한이 없으면 예측 가능성이 높아지고 할당이 늘어나 예약된 TPU 용량을 모두 활용할 수 있습니다. 이제 낮은 우선순위 워크로드를 실행하기 위해 홀드백 용량에도 액세스할 수 있습니다.
  • 최적화된 성능: TPU 전체 용량 모드는 대규모의 긴밀하게 결합된 ML 및 HPC 워크로드에 중요한 초저 지연 시간 네트워킹을 통해 대규모 가속기 리소스를 밀도 높게 공동 배치합니다. 이 아키텍처는 학습 및 추론 워크로드 모두에서 최대 성능을 발휘하도록 최적화되어 있습니다.

지원되는 TPU 세대

TPU 전체 용량 모드 및 기능은 Trillium (TPU v6e), TPU Ironwood (TPU7x), 향후 TPU 세대에서 사용할 수 있습니다. 이전 TPU 세대는 지원할 계획이 없습니다.

TPU Cluster Director 용어

Cluster Director 토폴로지 개념은 클러스터, 블록, 하위 블록, 호스트의 네 가지 수준으로 구성됩니다. 클러스터는 포드 배수의 물리적 TPU 용량의 Google 배포 단위입니다. 클러스터의 모든 TPU 용량은 한 영역 내에 있습니다. '모든 용량' 모드의 TPU 예약은 항상 하나의 클러스터 내에 있습니다. TPU의 경우 나머지 토폴로지 개념은 다음 표에 표시된 대로 실제 구성요소에 매핑됩니다.

Trillium

토폴로지 개념 Trillium 코어 호스트
--- 1 1 해당 사항 없음
호스트 호스트 8 8 1
하위 블록 Trillium Pod 256 256 32
차단 예약에 여러 개의 Trillium Pod (최대 16개)

최대 4096

최대 4096

최대 512

--- 하위 블록에서 허용된 슬라이스 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16, 16x16
--- 하나의 예약에 여러 블록이 있을 수 있으며 각 블록에는 1~16개의 Trillium Pod가 있을 수 있습니다.

Trillium 슬라이스 크기에 관한 자세한 내용은 Trillium 지원 구성을 참고하세요.

Ironwood

토폴로지 개념 Ironwood 코어 호스트
--- 2 1 ---
호스트 호스트 8 4 1
SubBlock 큐브 128 64 16
차단 최대 전체 포드까지 여러 개의 Ironwood 큐브 최대 9216 (144개 큐브) 최대 2304
--- 블록에서 허용되는 슬라이스: 예 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8, 12x24x24 (기타 다수)
--- 예약에는 하나 이상의 Ironwood 큐브가 있을 수 있으며 최대 전체 Ironwood 포드까지 가능합니다.

Ironwood 슬라이스 크기에 대한 자세한 내용은 TPUv7x 지원 구성을 참고하세요.