TPU7x (Ironwood)
이 페이지에서는 Google Cloud에서 사용할 수 있는 최신 TPU인 TPU7x의 아키텍처와 사용 가능한 구성을 설명합니다. TPU7x는 Ironwood 제품군,즉 Google Cloud의 7세대 TPU 내에서 첫 번째로 출시되는 제품입니다. Ironwood 세대는 대규모 AI 학습 및 추론을 위해 설계되었습니다.
포드당 9,216개의 칩 공간이 있는 TPU7x는 TPU v5p와 상당히 유사합니다. TPU7x는 대규모 밀도 및 MoE 모델, 사전 학습, 샘플링, 디코딩 중심 추론에 고성능을 제공합니다.
TPU7x를 사용하려면 Google Kubernetes Engine (GKE)을 사용해야 합니다. 자세한 내용은 GKE의 TPU 정보를 참조하세요.
TPU7x 및 GKE를 TPU 클러스터 디렉터와 함께 사용할 수도 있습니다. TPU 클러스터 디렉터는 모든 용량 모드 예약을 통해 사용할 수 있으며, 이를 통해 예약된 모든 용량에 대한 전체 액세스 권한(보류 없음)과 TPU 하드웨어 토폴로지, 사용률 상태, 상태에 대한 전체 가시성을 확보할 수 있습니다. 자세한 내용은 모든 용량 모드 개요를 참고하세요.
TPU7x에 액세스하려면 계정팀에 문의하세요.
시스템 아키텍처
각 TPU7x 칩에는 2개의 TensorCore와 4개의 SparseCore가 포함됩니다. 다음 표에는 이전 세대와 비교한 TPU7x의 주요 사양과 값이 나와 있습니다.
| 사양 | v5p | v6e (Trillium) | TPU7x (Ironwood) |
|---|---|---|---|
| 포드당 칩 수 | 8960 | 256 | 9216 |
| 칩당 최고 컴퓨팅 (BF16) (TFLOP) | 459 | 918 | 2307 |
| 칩당 최고 컴퓨팅 (FP8) (TFLOP) | 459 | 918 | 4614 |
| 칩당 HBM 용량 (GiB) | 95 | 32 | 192 |
| 칩당 HBM 대역폭 (GB/초) | 2765 | 1638 | 7380 |
| vCPU 수 (4칩 VM) | 208 | 180 | 224 |
| RAM (GB) (4칩 VM) | 448 | 720 | 960 |
| 칩당 TensorCore 수 | 2 | 1 | 2 |
| 칩당 SparseCore 수 | 4 | 2 | 4 |
| 칩당 양방향 칩 간 상호 연결 (ICI) 대역폭 (GB/s) | 1200 | 800 | 1200 |
| 칩당 데이터 센터 네트워크 (DCN) 대역폭 (Gb/s) | 50 | 100 | 100 |
다음 다이어그램은 Ironwood의 아키텍처를 보여줍니다.

이중 칩렛 아키텍처
Ironwood 프로그래밍 모델을 사용하면 이전 세대 (TPU v4 및 v5p)에서 사용된 단일 논리 코어 (MegaCore라고도 함) 아키텍처 대신 두 개의 TPU 기기에 액세스할 수 있습니다. 이러한 변경으로 칩 제조의 비용 효율성과 효율성이 향상됩니다. 이는 아키텍처의 변화를 나타내지만, 새로운 디자인을 통해 기존 소프트웨어 모델을 최소한의 변경으로 재사용할 수 있습니다.
Ironwood TPU는 두 개의 고유한 칩렛으로 구성됩니다. 이는 MegaCore 아키텍처의 통합 메모리 공간과는 다릅니다.
칩렛 구성: 각 칩렛은 하나의 TensorCore, 두 개의 SparseCore, 96GB의 고대역폭 메모리 (HBM)가 있는 자체 포함 단위입니다.
고속 상호 연결: 두 칩렛은 1D 칩 간 상호 연결(ICI) 링크보다 6배 빠른 다이-다이(D2D) 인터페이스로 연결됩니다. 칩렛 간 통신은 집단 연산을 사용하여 관리됩니다.
프로그래밍 모델 및 프레임워크 노출
Ironwood의 프로그래밍 모델은 TPU v3과 같이 v4 이전의 TPU 세대와 유사합니다. 새 아키텍처는 다음과 같은 방식으로 노출됩니다.
칩당 기기 2개: JAX와 같은 프레임워크는 각 Ironwood 칩을 칩렛당 하나씩 두 개의 별도 '기기'로 노출합니다.
4D 토폴로지: JAX는 사용할 온칩 기기 두 개 중 하나를 지정하기 위해 토폴로지에 네 번째 차원을 추가합니다. 이렇게 하면 최소한의 수정으로 기존 소프트웨어 모델을 사용할 수 있습니다.
듀얼 칩렛 아키텍처로 최적의 성능을 달성하는 방법에 관한 자세한 내용은 Ironwood의 듀얼 칩렛 아키텍처 성능 권장사항을 참고하세요.
지원되는 구성
TPU7x 칩은 가장 가까이 인접한 칩에 3차원으로 직접 연결하여 네트워킹 연결의 3D 메시를 형성합니다. 64개 이상의 칩으로 구성된 슬라이스는 하나 이상의 4x4x4 '큐브'의 칩으로 구성됩니다.
다음 표에는 TPU7x에 지원되는 일반적인 3D 슬라이스 형태가 나와 있습니다.
| 토폴로지 | TPU 칩 | 호스트 | VM | 큐브 | 범위 |
|---|---|---|---|---|---|
| 2x2x1 | 4 | 1 | 1 | 1/16 | 단일 호스트 |
| 2x2x2 | 8 | 2 | 2 | 1/8 | 멀티 호스트 |
| 2x2x4 | 16 | 4 | 4 | 1/4 | 멀티 호스트 |
| 2x4x4 | 32 | 8 | 8 | 1/2 | 멀티 호스트 |
| 4x4x4 | 64 | 16 | 16 | 1 | 멀티 호스트 |
| 4x4x8 | 128 | 32 | 32 | 2 | 멀티 호스트 |
| 4x8x8 | 256 | 64 | 64 | 4 | 멀티 호스트 |
| 8x8x8 | 512 | 128 | 128 | 8 | 멀티 호스트 |
| 8x8x16 | 1024 | 256 | 256 | 16 | 멀티 호스트 |
| 8x16x16 | 2048 | 512 | 512 | 32 | 멀티 호스트 |
TPU7x VM
각 TPU7x 가상 머신 (VM)에는 4개의 칩이 포함되어 있습니다. 각 VM은 두 개의 NUMA 노드에 액세스할 수 있습니다. NUMA 노드에 대한 자세한 내용은 Wikipedia에서 비균일 메모리 액세스를 참고하세요.
모든 TPU7x 슬라이스는 전체 호스트, 4칩 VM을 사용합니다. TPU7x VM의 기술 사양은 다음과 같습니다.
- VM당 vCPU 수: 224
- VM당 RAM: 960GB
- VM당 NUMA 노드 수: 2
Hyperdisk
기본적으로 TPU7x의 VM 부팅 디스크는 Hyperdisk Balanced입니다. 추가 스토리지를 위해 TPU VM에 Hyperdisk Balanced 디스크를 추가로 연결할 수 있습니다.
Hyperdisk에 대한 자세한 내용은 Hyperdisk 개요를 참고하세요. Cloud TPU의 스토리지 옵션에 대한 자세한 내용은 Cloud TPU 데이터를 위한 스토리지 옵션을 참고하세요.
다음 단계
- GKE에서 TPU7x 사용
- TPU 클러스터 디렉터와 함께 TPU7x 사용
- Google Cloud ML 진단 플랫폼을 사용하여 워크로드 최적화 및 진단
- TPU7x에 최적화된 레시피를 사용하여 학습 워크로드 실행
- TPU7x microbenchmark 실행