Compute Engine의 Cloud TPU 리소스

Compute Engine 리소스를 사용하여 TPU를 만들고 관리할 수 있습니다. 이 페이지에서는 Compute Engine에서 TPU를 사용하는 개념을 간략히 설명합니다. Cloud TPU 개념을 Compute Engine 리소스에 매핑하고 Compute Engine으로 이전하는 프로세스를 설명합니다.

기본 Cloud TPU 개념

Compute Engine 내에서 TPU 리소스를 관리하려면 다음 기본 TPU 개념을 이해하는 것이 좋습니다.

  • TPU VM: TPU 하드웨어에 직접 연결되는 가상 머신입니다. 단일 TPU VM은 단일 호스트 슬라이스와 동일합니다.
  • TPU 슬라이스: 하나 이상의 TPU VM을 통해 액세스되는 상호 연결된 TPU 칩의 논리적 그룹입니다. TPU API에서 단일 TPU 슬라이스는 Node 또는 QueuedResource REST 객체로 표현됩니다. 슬라이스에는 다음 범위 중 하나가 있습니다.
    • 단일 호스트 슬라이스: 호스트 머신 하나로 구성된 슬라이스입니다. 단일 호스트 슬라이스는 단일 TPU VM을 지칭하는 또 다른 방법입니다.
    • 멀티 호스트 슬라이스: 고속 칩 간 상호 연결 (ICI)을 사용하여 상호 연결된 여러 TPU VM으로 구성된 슬라이스입니다.
Compute Engine에서 TPU 리소스를 관리할 때는 다음 Cloud TPU API 객체를 사용하지 않지만 기존 Cloud TPU API에 익숙한 경우 유용한 컨텍스트를 제공합니다.

  • Node: 단일 TPU 슬라이스를 나타내는 기존 Cloud TPU API의 REST 객체입니다. Compute Engine에서 이는 VM 인스턴스 또는 관리형 인스턴스 그룹 (MIG)에 매핑됩니다.
  • QueuedResource: 하나 이상의 TPU 슬라이스를 나타내는 기존 Cloud TPU API의 REST 객체입니다. 큐에 추가된 리소스는 큐를 통해 TPU 용량을 요청하고 관리하는 데 사용됩니다. Compute Engine에서 Flex-start VM은 유사한 기능을 제공합니다.

TPU 및 Compute Engine 개념 지도

다음 표에서는 TPU 개념이 Compute Engine 리소스에 매핑되는 방식을 설명합니다.

Cloud TPU 개념 Compute Engine 리소스 리소스 세부정보 사용 사례
TPU VM VM 인스턴스 TPU 하드웨어에 직접 액세스할 수 있는 Compute Engine VM입니다. 개별 VM 작업, SSH 명령어 실행 또는 디버깅
TPU 단일 호스트 또는 하위 호스트 슬라이스 단일 VM이 있는 VM 인스턴스 또는 MIG 하나의 물리적 호스트 머신으로 구성된 구성입니다. 자동 확장을 사용한 추론
TPU 멀티 호스트 슬라이스 워크로드 정책에 가속기 토폴로지가 지정된 MIG ICI를 사용하여 상호 연결되고 단일 논리 단위로 관리되는 TPU VM 그룹입니다. 원자적 프로비저닝이 필요한 대규모 분산 학습

Cloud TPU API에서 이전

Cloud TPU API는 더 이상 활발하게 개발되지 않습니다. 여기에는 Cloud TPU API용 Google Cloud CLI와 Cloud TPU API용 Cloud 클라이언트 라이브러리가 포함됩니다. Cloud TPU API는 버그 수정 및 보안 업데이트만 받습니다. TPU7x (Ironwood)부터 시작하는 새로운 하드웨어 세대는 Compute Engine 또는 Google Kubernetes Engine (GKE)을 통해서만 지원됩니다. 최신 기능과 최신 TPU 버전 지원을 위해 기존 Cloud TPU API 호출을 Compute Engine 또는 GKE의 해당 호출로 대체하여 이전하세요.

오케스트레이션 및 워크로드 요구사항에 따라 다음 경로 중 하나를 선택하세요.

  • Compute Engine: 직접 VM 수준 제어 또는 맞춤 OS 이미지가 필요한 사용자에게 권장됩니다. Compute Engine에서 TPU 프로비저닝을 시작하려면 빠른 시작: TPU VM 만들기를 참고하세요.
  • GKE: 컨테이너화된 워크로드, 자동 확장, 대규모 조정에 권장됩니다. GKE에서 TPU 사용에 대한 자세한 내용은 GKE의 TPU 정보를 참고하세요.

기존 TPU 리소스

Cloud TPU API (Node 또는 QueuedResource REST 객체)를 사용하여 생성된 TPU 리소스는 Compute Engine 및 GKE와 호환되지 않습니다. Compute Engine 또는 GKE를 사용하려면 다음 단계를 따르세요.

  • Cloud TPU API를 사용하는 스크립트를 Compute Engine 또는 GKE API를 사용하도록 다시 작성합니다.
  • Cloud TPU API를 사용하여 리소스를 삭제하고 Compute Engine 또는 GKE API를 사용하여 리소스를 다시 만듭니다.

제한사항

Compute Engine의 TPU에는 다음과 같은 제한사항이 있습니다.

  • TPU 버전: Compute Engine은 v5p, v6e, TPU7x를 지원합니다.
  • 용량 모드: TPU의 모든 용량 모드는 Compute Engine에서 사용할 수 없습니다.
  • 멀티슬라이스: 상호 연결된 멀티 호스트 TPU 슬라이스 그룹을 만드는 것은 Compute Engine에서 사용할 수 없습니다. Multislice를 사용하려면 Google Kubernetes Engine (GKE)을 사용해야 합니다. 자세한 내용은 GKE에서 TPU 멀티슬라이스 배포를 참고하세요.
  • 수집: Compute Engine에서는 수집 일정을 사용할 수 없습니다. 컬렉션 예약을 사용하려면 GKE를 사용해야 합니다. 자세한 내용은 GKE 문서의 수집 예약을 참고하세요.

다음 단계