GKE의 Ironwood (TPU7x) 정보

이 문서에서는 Google Kubernetes Engine (GKE)의 Ironwood (TPU7x)에 대해 간략하게 설명합니다. Ironwood (TPU7x)는 대규모 AI 워크로드를 위해 맞춤 설계된 Google의 7세대 Tensor Processing Unit (TPU)입니다. 이전 TPU 세대보다 성능이 크게 향상되어 더 크고 복잡한 모델을 학습하고 제공할 수 있습니다.

Ironwood (TPU7x)의 특징

Ironwood (TPU7x)에는 다른 TPU 버전과 차별화되는 고유한 기능이 도입되었습니다. 이러한 기능은 가용성, 노드 풀 구성, 워크로드 성능에 영향을 미칩니다.

기본 하드웨어에 대한 자세한 내용은 Ironwood (TPU7x) 아키텍처를 참고하세요.

가용성

Ironwood (TPU7x)는 버전 1.34.0-gke.2201000 이상을 실행하는 GKE Standard 클러스터와 버전 1.34.1-gke.3084001 이상을 실행하는 Autopilot 클러스터에서 사용할 수 있습니다.

멀티 호스트 노드 풀의 워크로드 정책

Ironwood (TPU7x)는 워크로드 정책을 사용하여 멀티 호스트 TPU 슬라이스 노드 풀을 만들 때 기본 인프라의 물리적 배치를 구성합니다. 워크로드 정책을 만든 다음 --placement-policy 플래그를 사용하여 적용합니다. 이 정책은 다른 TPU 버전에서 사용되는 --tpu-topology 플래그를 대체합니다.

워크로드 정책은 인프라의 실제 배치를 구성할 수 있는 리소스 정책의 한 유형입니다. Ironwood (TPU7x)은 높은 처리량 워크로드 정책을 지원합니다. 이 정책은 TPU VM을 공동 배치하여 네트워크 지연 시간을 줄이고 워크로드 중단을 최소화하는 유지보수 전략을 정의할 수 있도록 합니다.

NUMA 바인딩

Ironwood (TPU7x) 아키텍처에는 다음 요소가 포함됩니다.

  • 각 Ironwood (TPU7x) 가상 머신 (VM)에는 4개의 칩과 2개의 NIC가 포함되어 있습니다.
  • 각 VM에는 두 개의 비균일 메모리 액세스 (NUMA) 노드가 포함되어 있습니다.
  • CPU, 메모리, NIC 리소스는 두 NUMA 노드 간에 균등하게 분할됩니다.

여러 NUMA 노드에서 리소스에 액세스 (크로스 NUMA 액세스)하면 워크로드에 성능 병목 현상이 발생할 수 있습니다. 따라서 워크로드 성능을 최적화하기 위해 GKE를 사용하면 다중 컨테이너 설정에서 워크로드를 배포할 수 있습니다. 이렇게 하면 각 컨테이너가 지정된 NUMA 노드 내의 CPU, 메모리, TPU 리소스에 바인딩됩니다.

LLM 참조 구현

Ironwood (TPU7x)에 대규모 언어 모델 (LLM)을 배포하는 방법을 알아보려면 다음 참조 구현을 참고하세요. 클러스터 생성에 다음 옵션 중 하나를 사용할 수 있습니다.

  • GKE XPK: 가속 처리 키트 (XPK)를 사용하여 개념 증명 및 테스트를 위한 GKE 클러스터를 빠르게 만들고 워크로드를 실행합니다. 자세한 내용은 XPK 문서를 참고하세요.
  • Google Cloud 기반 GKE CLI: Google Cloud CLI를 사용하여 GKE 클러스터 인스턴스를 수동으로 만들어 기존 프로덕션 GKE 환경을 정확하게 맞춤설정하거나 확장합니다.
LLM GKE XPK Google Cloud 기반 GKE CLI
BF16 및 4x4x4 토폴로지를 사용하는 Llama 70b XPK를 사용하여 Ironwood GKE 클러스터에서 llama3.1-70b 워크로드 사전 학습 Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 llama3.1-70b 워크로드 사전 학습
BF16 및 4x4x8 토폴로지가 적용된 DeepSeek XPK를 사용하여 Ironwood GKE 클러스터에서 deepseek3-671b 워크로드 사전 학습 Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 deepseek3-671b 워크로드 사전 학습
BF16 및 4x4x4 토폴로지를 사용하는 GPT-oss-120b XPK를 사용하여 Ironwood GKE 클러스터에서 gpt-oss-120b 워크로드 사전 학습 Kubernetes JobSet을 사용하여 Ironwood GKE 클러스터에서 gpt-oss-120b 워크로드 사전 학습
BF16 및 4x8x8 토폴로지를 사용하는 Qwen3-235b-a22b XPK를 사용하여 Ironwood GKE 클러스터에서 qwen3-235b-a22b 워크로드 사전 학습 사용 불가

다음 단계