TPU7x (Ironwood)

이 페이지에서는 Google Cloud에서 사용할 수 있는 최신 TPU인 TPU7x의 아키텍처와 사용 가능한 구성을 설명합니다. TPU7x는 Ironwood 제품군,즉 Google Cloud의 7세대 TPU 내에서 첫 번째로 출시되는 제품입니다. Ironwood 세대는 대규모 AI 학습 및 추론을 위해 설계되었습니다.

포드당 9,216개의 칩 공간이 있는 TPU7x는 TPU v5p와 상당히 유사합니다. TPU7x는 대규모 밀도 및 MoE 모델, 사전 학습, 샘플링, 디코딩 중심 추론에 고성능을 제공합니다.

TPU7x를 사용하려면 Google Kubernetes Engine (GKE)을 사용해야 합니다. 자세한 내용은 GKE의 TPU 정보를 참조하세요.

TPU7x 및 GKE를 TPU 클러스터 디렉터와 함께 사용할 수도 있습니다. TPU 클러스터 디렉터는 모든 용량 모드 예약을 통해 사용할 수 있으며, 이를 통해 예약된 모든 용량에 대한 전체 액세스 권한(보류 없음)과 TPU 하드웨어 토폴로지, 사용률 상태, 상태에 대한 전체 가시성을 확보할 수 있습니다. 자세한 내용은 모든 용량 모드 개요를 참고하세요.

TPU7x에 액세스하려면 계정팀에 문의하세요.

시스템 아키텍처

각 TPU7x 칩에는 2개의 TensorCore와 4개의 SparseCore가 포함됩니다. 다음 표에는 이전 세대와 비교한 TPU7x의 주요 사양과 값이 나와 있습니다.

사양 v5p v6e (Trillium) TPU7x (Ironwood)
포드당 칩 수 8960 256 9216
칩당 최고 컴퓨팅 (BF16) (TFLOP) 459 918 2307
칩당 최고 컴퓨팅 (FP8) (TFLOP) 459 918 4614
칩당 HBM 용량 (GiB) 95 32 192
칩당 HBM 대역폭 (GB/초) 2765 1638 7380
vCPU 수 (4칩 VM) 208 180 224
RAM (GB) (4칩 VM) 448 720 960
칩당 TensorCore 수 2 1 2
칩당 SparseCore 수 4 2 4
칩당 양방향 칩 간 상호 연결 (ICI) 대역폭 (GB/s) 1200 800 1200
칩당 데이터 센터 네트워크 (DCN) 대역폭 (Gb/s) 50 100 100

다음 다이어그램은 Ironwood의 아키텍처를 보여줍니다.

Ironwood 아키텍처 다이어그램

이중 칩렛 아키텍처

Ironwood 프로그래밍 모델을 사용하면 이전 세대 (TPU v4 및 v5p)에서 사용된 단일 논리 코어 (MegaCore라고도 함) 아키텍처 대신 두 개의 TPU 기기에 액세스할 수 있습니다. 이러한 변경으로 칩 제조의 비용 효율성과 효율성이 향상됩니다. 이는 아키텍처의 변화를 나타내지만, 새로운 디자인을 통해 기존 소프트웨어 모델을 최소한의 변경으로 재사용할 수 있습니다.

Ironwood TPU는 두 개의 고유한 칩렛으로 구성됩니다. 이는 MegaCore 아키텍처의 통합 메모리 공간과는 다릅니다.

  • 칩렛 구성: 각 칩렛은 하나의 TensorCore, 두 개의 SparseCore, 96GB의 고대역폭 메모리 (HBM)가 있는 자체 포함 단위입니다.

  • 고속 상호 연결: 두 칩렛은 1D 칩 간 상호 연결(ICI) 링크보다 6배 빠른 다이-다이(D2D) 인터페이스로 연결됩니다. 칩렛 간 통신은 집단 연산을 사용하여 관리됩니다.

프로그래밍 모델 및 프레임워크 노출

Ironwood의 프로그래밍 모델은 TPU v3과 같이 v4 이전의 TPU 세대와 유사합니다. 새 아키텍처는 다음과 같은 방식으로 노출됩니다.

  • 칩당 기기 2개: JAX와 같은 프레임워크는 각 Ironwood 칩을 칩렛당 하나씩 두 개의 별도 '기기'로 노출합니다.

  • 4D 토폴로지: JAX는 사용할 온칩 기기 두 개 중 하나를 지정하기 위해 토폴로지에 네 번째 차원을 추가합니다. 이렇게 하면 최소한의 수정으로 기존 소프트웨어 모델을 사용할 수 있습니다.

듀얼 칩렛 아키텍처로 최적의 성능을 달성하는 방법에 관한 자세한 내용은 Ironwood의 듀얼 칩렛 아키텍처 성능 권장사항을 참고하세요.

지원되는 구성

TPU7x 칩은 가장 가까이 인접한 칩에 3차원으로 직접 연결하여 네트워킹 연결의 3D 메시를 형성합니다. 64개 이상의 칩으로 구성된 슬라이스는 하나 이상의 4x4x4 '큐브'의 칩으로 구성됩니다.

다음 표에는 TPU7x에 지원되는 일반적인 3D 슬라이스 형태가 나와 있습니다.

토폴로지 TPU 칩 호스트 VM 큐브 범위
2x2x1 4 1 1 1/16 단일 호스트
2x2x2 8 2 2 1/8 멀티 호스트
2x2x4 16 4 4 1/4 멀티 호스트
2x4x4 32 8 8 1/2 멀티 호스트
4x4x4 64 16 16 1 멀티 호스트
4x4x8 128 32 32 2 멀티 호스트
4x8x8 256 64 64 4 멀티 호스트
8x8x8 512 128 128 8 멀티 호스트
8x8x16 1024 256 256 16 멀티 호스트
8x16x16 2048 512 512 32 멀티 호스트

TPU7x VM

각 TPU7x 가상 머신 (VM)에는 4개의 칩이 포함되어 있습니다. 각 VM은 두 개의 NUMA 노드에 액세스할 수 있습니다. NUMA 노드에 대한 자세한 내용은 Wikipedia에서 비균일 메모리 액세스를 참고하세요.

모든 TPU7x 슬라이스는 전체 호스트, 4칩 VM을 사용합니다. TPU7x VM의 기술 사양은 다음과 같습니다.

  • VM당 vCPU 수: 224
  • VM당 RAM: 960GB
  • VM당 NUMA 노드 수: 2

Hyperdisk

기본적으로 TPU7x의 VM 부팅 디스크는 Hyperdisk Balanced입니다. 추가 스토리지를 위해 TPU VM에 Hyperdisk Balanced 디스크를 추가로 연결할 수 있습니다.

Hyperdisk에 대한 자세한 내용은 Hyperdisk 개요를 참고하세요. Cloud TPU의 스토리지 옵션에 대한 자세한 내용은 Cloud TPU 데이터를 위한 스토리지 옵션을 참고하세요.

다음 단계