TPU v6e
이 문서에서는 Cloud TPU v6e(Trillium)의 아키텍처와 지원되는 구성을 설명합니다. API 및 로그와 같은 모든 기술적 측면과 이 문서 전체에서 Trillium은 v6e로 지칭됩니다.
포드당 칩 공간이 256개인 v6e는 v5e와 상당히 유사합니다. 이 시스템은 변환기, 텍스트 이미지 변환, 컨볼루셔널 신경망(CNN) 학습, 미세 조정, 서빙에 높은 효용성을 제공하는 제품이 되도록 최적화되어 있습니다.
시스템 아키텍처
각 v6e 칩에는 TensorCore 하나가 포함됩니다. 각 TensorCore에는 행렬 곱셈 단위(MXU) 2개, 벡터 단위 1개, 스칼라 단위 1개가 있습니다. 다음 표에는 TPU v5e와 비교한 TPU v6e의 주요 사양과 값이 나와 있습니다.
| 사양 | v5e | v6e |
|---|---|---|
| 성능/총소유비용(TCO)(예상) | 0.65x | 1 |
| 칩당 최고 컴퓨팅(bf16) | 197TFLOPs | 918TFLOPs |
| 칩당 최고 컴퓨팅(Int8) | 393TOPs | 1836TOPs |
| 칩당 HBM 용량 | 16GB | 32GB |
| 칩당 HBM 대역폭 | 800GBps | 1600GBps |
| 칩 간 상호 연결(ICI) 대역폭 | 1600Gbps | 3200Gbps |
| 칩당 ICI 포트 수 | 4 | 4 |
| 호스트당 DRAM | 512GiB | 1536GiB |
| 호스트당 칩 수 | 8 | 8 |
| TPU Pod 크기 | 칩 256개 | 칩 256개 |
| 상호 연결 토폴로지 | 2D 토러스 | 2D 토러스 |
| 포드당 BF16 최고 컴퓨팅 | 50.63PFLOPs | 234.9PFLOPs |
| 포드당 올리듀스 대역폭 | 51.2TB/s | 102.4TB/s |
| 포드당 바이섹션 대역폭 | 1.6TB/s | 3.2TB/s |
| 호스트별 NIC 구성 | 100Gbps NIC 2개 | 200Gbps NIC 4개 |
| 포드당 데이터 센터 네트워크 대역폭 | 6.4Tbps | 25.6Tbps |
| 특징 | - | SparseCore |
지원되는 구성
다음 표에는 v6e에 지원되는 2D 슬라이스 형태가 나와 있습니다.
| 토폴로지 | TPU 칩 | 호스트 | VM | 머신 유형(GKE API) | 범위 |
|---|---|---|---|---|---|
| 1x1 | 1 | 1/8 | 1 | ct6e-standard-1t |
하위 호스트 |
| 2x2 | 4 | 1/2 | 1 | ct6e-standard-4t |
하위 호스트 |
| 2x4 | 8 | 1 | 1 | ct6e-standard-8t |
단일 호스트 |
| 2x4 | 8 | 1 | 2 | ct6e-standard-4t |
단일 호스트 |
| 4x4 | 16 | 2 | 4 | ct6e-standard-4t |
멀티 호스트 |
| 4x8 | 32 | 4 | 8 | ct6e-standard-4t |
멀티 호스트 |
| 8x8 | 64 | 8 | 16 | ct6e-standard-4t |
멀티 호스트 |
| 8x16 | 128 | 16 | 32 | ct6e-standard-4t |
멀티 호스트 |
| 16x16 | 256 | 32 | 64 | ct6e-standard-4t |
멀티 호스트 |
단일 VM에 연결된 칩이 8개(v6e-8) 있는 슬라이스는 추론에 최적화되어 단일 서빙 워크로드에서 칩 8개를 모두 사용할 수 있습니다. Cloud에서 Pathways를 사용하여 멀티 호스트 추론을 수행할 수 있습니다. 자세한 내용은 Pathways를 사용하여 멀티 호스트 추론 수행을 참조하세요.
각 토폴로지의 VM 수에 대한 자세한 내용은 VM 유형을 참조하세요.
VM 유형
각 TPU v6e VM에는 칩 1개, 4개 또는 8개가 포함될 수 있습니다. 칩이 4개인 작은 슬라이스에는 동일한 비균일 메모리 액세스(NUMA) 노드가 있습니다. NUMA 노드에 대한 자세한 내용은 Wikipedia에서 비균일 메모리 액세스를 참조하세요.

v6e 슬라이스는 각각 TPU 칩이 4개 있는 절반 호스트 VM을 통해 생성됩니다. 이 규칙에는 두 가지 예외가 있습니다.
v6e-1: 칩이 하나만 있는 VM으로, 주로 테스트용입니다.v6e-8: 단일 VM에 칩 8개가 모두 연결되어 추론 사용 사례에 최적화된 전체 호스트 VM입니다.
다음은 TPU v6e VM 유형을 비교한 표입니다.
| VM 유형 | VM당 vCPU 수 | VM당 RAM(GB) | VM당 NUMA 노드 수 |
|---|---|---|---|
| 칩이 1개 있는 VM | 44 | 176 | 1 |
| 칩이 4개 있는 VM | 180 | 720 | 1 |
| 칩이 8개 있는 VM | 180 | 1440 | 2 |