이 문서에서는 Google Kubernetes Engine (GKE)의 Ironwood (TPU7x)에 대해 간략하게 설명합니다. Ironwood (TPU7x)는 대규모 AI 워크로드를 위해 맞춤 설계된 Google의 7세대 Tensor Processing Unit (TPU)입니다. 이전 TPU 세대보다 성능이 크게 향상되어 더 크고 복잡한 모델을 학습하고 제공할 수 있습니다.
Ironwood (TPU7x)의 특징
Ironwood (TPU7x)에는 다른 TPU 버전과 차별화되는 고유한 기능이 도입되었습니다. 이러한 기능은 가용성, 노드 풀 구성, 워크로드 성능에 영향을 미칩니다.
기본 하드웨어에 대한 자세한 내용은 Ironwood (TPU7x) 아키텍처를 참고하세요.
가용성
Ironwood (TPU7x)는 버전 1.34.0-gke.2201000 이상을 실행하는 GKE Standard 클러스터와 버전 1.34.1-gke.3084001 이상을 실행하는 Autopilot 클러스터에서 사용할 수 있습니다.
멀티 호스트 노드 풀의 워크로드 정책
Ironwood (TPU7x)는 워크로드 정책을 사용하여 멀티 호스트 TPU 슬라이스 노드 풀을 만들 때 기본 인프라의 물리적 배치를 구성합니다. 워크로드 정책을 만든 다음 --placement-policy 플래그를 사용하여 적용합니다. 이 정책은 다른 TPU 버전에서 사용되는 --tpu-topology 플래그를 대체합니다.
워크로드 정책은 인프라의 실제 배치를 구성할 수 있는 리소스 정책의 한 유형입니다. Ironwood (TPU7x)은 높은 처리량 워크로드 정책을 지원합니다. 이 정책은 TPU VM을 공동 배치하여 네트워크 지연 시간을 줄이고 워크로드 중단을 최소화하는 유지보수 전략을 정의할 수 있도록 합니다.
NUMA 바인딩
Ironwood (TPU7x) 아키텍처에는 다음 요소가 포함됩니다.
- 각 Ironwood (TPU7x) 가상 머신 (VM)에는 4개의 칩과 2개의 NIC가 포함되어 있습니다.
- 각 VM에는 두 개의 비균일 메모리 액세스 (NUMA) 노드가 포함되어 있습니다.
- CPU, 메모리, NIC 리소스는 두 NUMA 노드 간에 균등하게 분할됩니다.
여러 NUMA 노드에서 리소스에 액세스 (크로스 NUMA 액세스)하면 워크로드에 성능 병목 현상이 발생할 수 있습니다. 따라서 워크로드 성능을 최적화하기 위해 GKE를 사용하면 다중 컨테이너 설정에서 워크로드를 배포할 수 있습니다. 이렇게 하면 각 컨테이너가 지정된 NUMA 노드 내의 CPU, 메모리, TPU 리소스에 바인딩됩니다.
LLM 참조 구현
Ironwood (TPU7x)에 대규모 언어 모델 (LLM)을 배포하는 방법을 알아보려면 다음 참조 구현을 참고하세요. 클러스터 생성에 다음 옵션 중 하나를 사용할 수 있습니다.
- GKE XPK: 가속 처리 키트 (XPK)를 사용하여 개념 증명 및 테스트를 위한 GKE 클러스터를 빠르게 만들고 워크로드를 실행합니다. 자세한 내용은 XPK 문서를 참고하세요.
- Google Cloud 기반 GKE CLI: Google Cloud CLI를 사용하여 GKE 클러스터 인스턴스를 수동으로 만들어 기존 프로덕션 GKE 환경을 정확하게 맞춤설정하거나 확장합니다.
| LLM | GKE XPK | Google Cloud 기반 GKE CLI |
|---|---|---|
BF16 및 4x4x4 토폴로지를 사용하는 Llama 70b |
XPK를 사용하여 Ironwood GKE 클러스터에서 llama3.1-70b 워크로드 사전 학습 | Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 llama3.1-70b 워크로드 사전 학습 |
BF16 및 4x4x8 토폴로지가 적용된 DeepSeek |
XPK를 사용하여 Ironwood GKE 클러스터에서 deepseek3-671b 워크로드 사전 학습 | Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 deepseek3-671b 워크로드 사전 학습 |
BF16 및 4x4x4 토폴로지를 사용하는 GPT-oss-120b |
XPK를 사용하여 Ironwood GKE 클러스터에서 gpt-oss-120b 워크로드 사전 학습 | Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 gpt-oss-120b 워크로드 사전 학습 |
BF16 및 4x8x8 토폴로지를 사용하는 Qwen3-235b-a22b |
XPK를 사용하여 Ironwood GKE 클러스터에서 qwen3-235b-a22b 워크로드 사전 학습 | 사용 불가 |
다음 단계
- GKE에서 TPU를 계획하는 방법을 알아보세요.
- GKE에 TPU를 배포하는 방법 알아보기
- Ironwood (TPU7x)의 엔드 투 엔드 튜토리얼을 사용해 보세요.