TPU7x(Ironwood)

이 페이지에서는 Google Cloud에서 사용할 수 있는 최신 TPU인 TPU7x의 아키텍처와 사용 가능한 구성을 설명합니다. TPU7x는 Ironwood 제품군으로서 Google Cloud의 7세대 TPU의 첫 번째 버전입니다. Ironwood 세대는 대규모 AI 학습 및 추론을 위해 설계되었습니다.

포드당 칩 공간이 9,216개인 TPU7x는 TPU v5p와 상당히 유사합니다. TPU7x는 대규모 밀집형 및 MoE 모델, 사전 학습, 샘플링, 디코딩 집약적 추론을 위한 고성능을 제공합니다.

TPU7x를 사용하려면 Google Kubernetes Engine(GKE)을 사용해야 합니다. 자세한 내용은 GKE의 TPU 정보를 참조하세요.

TPU7x 및 GKE를 TPU Cluster Director와 함께 사용할 수도 있습니다. TPU Cluster Director는 모든 용량 모드 예약을 통해 사용할 수 있으며, 이를 통해 예약된 모든 용량에 제한 없이 전부 액세스하고 TPU 하드웨어 토폴로지, 사용률 상태, 상태를 완전히 파악할 수 있습니다. 자세한 내용은 모든 용량 모드 개요를 참조하세요.

TPU7x에 액세스하려면 계정팀에 문의하세요.

시스템 아키텍처

각 TPU7x 칩에는 2개의 TensorCore와 4개의 SparseCore가 포함됩니다. 다음 표에는 이전 세대와 비교한 TPU7x의 주요 사양과 값이 나와 있습니다.

사양	v5p	v6e(Trillium)	TPU7x(Ironwood)
포드당 칩 수	8960	256	9,216
칩당 최고 컴퓨팅(BF16)(TFLOPS)	459	918	2,307
칩당 최고 컴퓨팅(FP8)(TFLOPS)	459	918	4,614
칩당 HBM 용량(GiB)	95	32	192
칩당 HBM 대역폭(GBps)	2,765	1,638	7,380
vCPU 수(4칩 VM)	208	180	224
RAM(GB)(4칩 VM)	448	720	960
칩당 TensorCore 수	2	1	2
칩당 SparseCore 수	4	2	4
칩당 양방향 칩 간 상호 연결(ICI) 대역폭(GBps)	1200	800	1200
칩당 데이터 센터 네트워크(DCN) 대역폭(Gbps)	50	100	100

다음 다이어그램은 Ironwood의 아키텍처를 보여줍니다.

Ironwood 아키텍처 다이어그램

듀얼 칩렛 아키텍처

Ironwood 프로그래밍 모델을 사용하면 이전 세대(TPU v4 및 v5p)에서 사용된 단일 논리 코어(MegaCore라고도 함) 아키텍처 대신 TPU 기기 2개에 액세스할 수 있습니다. 이러한 변경으로 칩 제조의 비용 효율성과 효율성이 향상됩니다. 이는 아키텍처 변화를 의미하지만 새로운 설계에서는 기존 소프트웨어 모델을 최소한으로 변경하여 재사용할 수 있습니다.

Ironwood TPU는 두 개의 고유한 칩렛으로 구성됩니다. 이는 MegaCore 아키텍처의 통합 메모리 공간과는 다릅니다.

칩렛 구성: 각 칩렛은 TensorCore 1개, SparseCore 2개, 96GB의 고대역폭 메모리(HBM)가 있는 독립적인 단위입니다.
고속 상호 연결: 두 칩렛은 1D 칩 간 상호 연결(ICI) 링크보다 6배 빠른 다이-다이(D2D) 인터페이스로 연결됩니다. 칩렛 간 통신은 집합 작업을 사용하여 관리됩니다.

프로그래밍 모델 및 프레임워크 노출

Ironwood의 프로그래밍 모델은 TPU v3와 같은 v4 이전의 TPU 세대와 유사합니다. 새 아키텍처는 다음과 같은 방식으로 노출됩니다.

칩당 기기 2개: JAX와 같은 프레임워크는 각 Ironwood 칩을 칩렛당 하나씩 두 개의 별도 '기기'로 노출합니다.
4D 토폴로지: JAX는 온칩 기기 두 개 중 사용할 기기를 지정하기 위해 토폴로지에 4차원을 추가합니다. 이렇게 하면 최소한의 수정으로 기존 소프트웨어 모델을 사용할 수 있습니다.

듀얼 칩렛 아키텍처로 최적의 성능을 달성하는 방법에 관한 자세한 내용은 Ironwood의 듀얼 칩렛 아키텍처 성능 추천을 참조하세요.

지원되는 구성

TPU7x 칩은 가장 가까이 인접한 칩에 3차원으로 직접 연결하여 네트워킹 연결의 3D 메시를 형성합니다. 64개 이상의 칩으로 구성된 슬라이스는 하나 이상의 4x4x4 '큐브'의 칩으로 구성됩니다.

다음 표에는 TPU7x에 지원되는 일반적인 3D 슬라이스 형태가 나와 있습니다.

토폴로지	TPU 칩	호스트	VM	큐브	범위
2x2x1	4	1	1	1/16	단일 호스트
2x2x2	8	2	2	1/8	멀티 호스트
2x2x4	16	4	4	1/4	멀티 호스트
2x4x4	32	8	8	1/2	멀티 호스트
4x4x4	64	16	16	1	멀티 호스트
4x4x8	128	32	32	2	멀티 호스트
4x8x8	256	64	64	4	멀티 호스트
8x8x8	512	128	128	8	멀티 호스트
8x8x16	1024	256	256	16	멀티 호스트
8x16x16	2048	512	512	32	멀티 호스트

TPU7x VM

각 TPU7x 가상 머신(VM)에는 4개의 칩이 포함되어 있습니다. 각 VM은 두 개의 NUMA 노드에 액세스할 수 있습니다. NUMA 노드에 대한 자세한 내용은 Wikipedia에서 비균일 메모리 액세스를 참조하세요.

모든 TPU7x 슬라이스는 전체 호스트, 4칩 VM을 사용합니다. TPU7x VM의 기술 사양은 다음과 같습니다.

VM당 vCPU 수: 224
VM당 RAM: 960GB
VM당 NUMA 노드 수: 2

Hyperdisk

기본적으로 TPU7x의 VM 부팅 디스크는 Hyperdisk Balanced입니다. 추가 스토리지를 위해 TPU VM에 Hyperdisk Balanced 디스크를 추가로 연결할 수 있습니다.

Hyperdisk에 대한 자세한 내용은 Hyperdisk 개요를 참조하세요. Cloud TPU의 스토리지 옵션에 대한 자세한 내용은 Cloud TPU 데이터를 위한 스토리지 옵션을 참조하세요.