Ray ダッシュボードで TPU 指標を表示する

Autopilot Standard

このドキュメントでは、Google Kubernetes Engine（GKE）で KubeRay を使用して Ray ダッシュボードで TPU 指標を表示する方法について説明します。Ray GKE アドオンを使用する GKE クラスタでは、TPU 指標が Cloud Monitoring で使用可能です。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。gcloud CLI をインストール済みの場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

次の条件を満たす GKE クラスタがあります。
- TPU を使用するように構成されたノードプール。
- このクラスタで Ray on GKE アドオンを有効にしないでください。
- Ray と TPU を使用する GKE のサービングワークロードまたはトレーニングワークロード。
これらの条件でクラスタを作成する必要がある場合は、GKE で JAX、Ray Train、TPU Trillium を使用して LLM をトレーニングするや KubeRay を使用して、GKE 上で TPU を使用する LLM をサービングするなどの TPU ワークロードの例を選択し、設定手順に沿ってクラスタを構成します。

環境を準備する

このチュートリアルでは、Google Cloudでホストされているリソースを管理するためのシェル環境である Cloud Shell を使用します。

Cloud Shell には、Google Cloud CLI と kubectl コマンドラインツールがプリインストールされています。gcloud CLI は Google Cloudへの主要なコマンドラインインターフェースを提供し、kubectl は Kubernetes クラスタにコマンドを実行するためのコマンドラインインターフェースを提供します。

Cloud Shell を起動します。

Google Cloud コンソールに移動します。

Google Cloud コンソール
コンソールの右上隅にある [Cloud Shell をアクティブにする] ボタンをクリックします。

コンソールの下部にあるフレーム内で Cloud Shell セッションが開きます。このシェルで gcloud コマンドと kubectl コマンドを実行します。コマンドを実行する前に、Google Cloud CLI で次のコマンドを使用してデフォルトプロジェクトを設定します。

gcloud config set project PROJECT_ID

PROJECT_ID は、実際のプロジェクト ID に置き換えます。