Ray 대시보드에서 TPU 측정항목 보기

Autopilot Standard

이 문서에서는 Google Kubernetes Engine(GKE)에서 KubeRay를 사용하여 Ray 대시보드에서 TPU 측정항목을 보는 방법을 보여줍니다. Ray GKE 부가기능이 있는 GKE 클러스터에서는 Cloud Monitoring에서 TPU 측정항목을 사용할 수 있습니다.

시작하기 전에

시작하기 전에 다음 태스크를 수행했는지 확인합니다.

Google Kubernetes Engine API를 사용 설정합니다.

Google Kubernetes Engine API 사용 설정

이 태스크에 Google Cloud CLI를 사용하려면 gcloud CLI를 설치한 후 초기화합니다. 이전에 gcloud CLI를 설치한 경우 gcloud components update 명령어를 실행하여 최신 버전을 가져옵니다. 이전 gcloud CLI 버전에서는 이 문서의 명령어를 실행하지 못할 수 있습니다.
참고: 기존 gcloud CLI 설치의 경우 compute/region 속성을 설정해야 합니다. 주로 영역 클러스터를 사용하는 경우에는 대신 compute/zone을 설정합니다. 기본 위치를 설정하면 gcloud CLI에서 One of [--zone, --region] must be supplied: Please specify location과 같은 오류를 방지할 수 있습니다. 클러스터의 위치가 설정한 기본값과 다른 경우 특정 명령어에서 위치를 지정해야 할 수 있습니다.

다음 조건을 충족하는 GKE 클러스터가 있습니다.
- TPU를 사용하도록 구성된 노드 풀
- 이 클러스터에서 GKE의 Ray 부가기능이 반드시 사용 설정되어 있지 않음
- Ray 및 TPU를 사용하는 GKE의 제공 또는 학습 워크로드
이러한 조건으로 클러스터를 만들어야 하는 경우 GKE에서 JAX, Ray Train, TPU Trillium을 사용하여 LLM 학습 또는 KubeRay를 사용하여 GKE에서 TPU로 LLM 제공과 같은 예시 TPU 워크로드를 선택하고 설정 단계에 따라 클러스터를 구성하세요.

개발 환경 준비

이 튜토리얼에서는Google Cloud에서 호스팅되는 리소스를 관리하기 위한 셸 환경인 Cloud Shell을 사용합니다.

Cloud Shell에는 Google Cloud CLI 및 kubectl 명령줄 도구가 사전 설치되어 있습니다. gcloud CLI는 Google Cloud의 기본 명령줄 인터페이스를 제공하며 kubectl은 Kubernetes 클러스터를 대상으로 명령어를 실행할 수 있는 기본 명령줄 인터페이스를 제공합니다.

Cloud Shell 시작:

Google Cloud 콘솔로 이동합니다.

Google Cloud 콘솔
콘솔의 오른쪽 상단에서 Cloud Shell 활성화 버튼 을 클릭합니다.

콘솔 하단의 프레임에서 Cloud Shell 세션이 열립니다. 이 셸을 사용하여 gcloud 및 kubectl 명령어를 실행합니다. 명령어를 실행하기 전에 다음 명령어를 사용하여 Google Cloud CLI에서 기본 프로젝트를 설정합니다.

gcloud config set project PROJECT_ID

PROJECT_ID를 프로젝트 ID로 바꿉니다.