Cloud TPU VM を作成する
TPU VM は、Create Node API、キューに入れられたリソース API、または Google Kubernetes Engine(GKE)を使用して作成します。
Create Node API は、Google Cloud CLI を使用して gcloud compute tpus tpu-vm create コマンドを実行する場合と、Google Cloud コンソールを使用して TPU VM を作成する場合に呼び出されます。Create Node API を使用すると、リクエストは直ちに処理されます。リクエストを処理するのに十分な容量がない場合、リクエストは失敗します。
Queued Resources API を使用して TPU VM を作成することをおすすめします。キューに格納されたリソース API を使用して TPU VM を作成すると、Cloud TPU サービスは、サービスが管理するキューにキューに格納されたリソース リクエストを追加します。リクエストされたリソースが使用可能になると、サービスはすぐに独占的に使用できるように、 Google Cloud プロジェクトに割り当てます。詳細については、キューに入れられたリソースを管理するをご覧ください。
Google Kubernetes Engine(GKE)を使用して TPU リソースを管理する場合は、まず GKE クラスタを作成します。次に、TPU スライスを含むノードプールをクラスタに追加します。詳細については、GKE での TPU についてをご覧ください。
前提条件
次の前提条件を満たします。
TPU 用の Google Cloud プロジェクトを設定するの説明に沿って、TPU 用の Google Cloud プロジェクトを作成します。
Cloud TPU リソースを計画するの説明に従って、TPU の要件を決定します。
Cloud クライアント ライブラリのいずれかを使用している場合は、使用している言語の設定手順に沿って操作します。
8 個のチップを含む v5e TPU を作成するための環境変数を設定します。次の例では、8 個のチップを含む v5e TPU を使用します。別のアクセラレータ タイプとバージョンを指定できます。詳細については、TPU のバージョンをご覧ください。
export TPU_NAME=your-tpu-name export PROJECT_ID=your-project export ZONE=us-central1-a export ACCELERATOR_TYPE=v5litepod-8 export VERSION=v2-alpha-tpuv5-lite
Create Node API を使用して Cloud TPU を作成する
Cloud TPU は、gcloud、 Google Cloud コンソール、または Cloud TPU API を使用して作成します。
Cloud TPU を作成するときに、TPU ソフトウェア バージョン(ランタイム バージョンとも呼ばれます)を指定します。使用するソフトウェア バージョンを決定するには、TPU ソフトウェア バージョンをご覧ください。
また、使用している TPU 構成の TensorCore 数または TPU チップ数を指定します。詳細については、システム アーキテクチャで、使用している TPU バージョンのセクションをご覧ください。
gcloud
Create Node API を使用して TPU を作成するには、gcloud compute tpus tpu-vm create コマンドを使用します。特定の内部 IP アドレスまたは外部 IP アドレスを構成するには、外部 IP アドレスと内部 IP アドレスをご覧ください。
次のコマンドは、8 個の TPU チップを備えた v5e TPU VM を作成します。
gcloud compute tpus tpu-vm create $TPU_NAME \ --project=$PROJECT_ID --zone=$ZONE \ --accelerator-type=$ACCELERATOR_TYPE \ --version=$VERSION
コマンドフラグの説明
zone- Cloud TPU を作成するゾーン。
accelerator-type- アクセラレータ タイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU の各バージョンでサポートされているアクセラレータ タイプの詳細については、TPU のバージョンをご覧ください。
version- TPU ソフトウェアのバージョン。
コンソール
次の手順では、8 個の TPU チップを備えた v5e TPU VM を作成します。
Google Cloud コンソールで、[TPU] ページに移動します。
[TPU を作成] をクリックします。
[名前] フィールドに、TPU の名前を入力します。
[ゾーン] フィールドで、TPU を作成するゾーンを選択します。
[TPU タイプ] フィールドで、アクセラレータ タイプを選択します。アクセラレータ タイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU の各バージョンでサポートされているアクセラレータ タイプの詳細については、TPU のバージョンをご覧ください。
[TPU ソフトウェア バージョン] フィールドで、ソフトウェア バージョンを選択します。Cloud TPU VM の作成時には、この TPU ソフトウェア バージョンによって、インストールされる TPU ランタイム バージョンが指定されます。詳細については、TPU ソフトウェア バージョンをご覧ください。
[作成] をクリックしてリソースを作成します。
curl
次のコマンドでは、curl を使用して 8 個の TPU チップを備えた v5e TPU VM を作成します。
curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: $ACCELERATOR_TYPE, \ runtime_version:'$VERSION', \ network_config: {enable_external_ips: true}, \ shielded_instance_config: { enable_secure_boot: true }}" \ https://tpu.googleapis.com/v2/projects/$PROJECT_ID/locations/$ZONE/nodes?node_id=$TPU_NAME
必須項目
runtime_version- 使用する Cloud TPU ランタイム バージョン。
project-id- 登録済みの Google Cloud プロジェクトの名前。
zone- Cloud TPU を作成するゾーン。
node_name- 作成する TPU VM の名前。
Java
このコード例では、Java の Cloud TPU API を使用して、8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
このコード例では、Node.js の Cloud TPU API を使用して、8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
このコード例では、Python の Cloud TPU API を使用して、8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
起動スクリプトを実行する
TPU VM の作成時に --metadata startup-script フラグを指定すると、TPU VM で起動スクリプトを実行できます。
gcloud
このコマンドは、TPU VM を作成し、起動スクリプトを指定します。
gcloud compute tpus tpu-vm create $TPU_NAME \ --zone=$ZONE \ --accelerator-type=$ACCELERATOR_TYPE \ --version=$VERSION \ --metadata startup-script='#! /bin/bash pip3 install numpy EOF'
Java
このコード例では、TPU VM を作成し、Java で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
このコード例では、TPU VM を作成し、Node.js で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
このコード例では、TPU VM を作成し、Python で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
次のステップ
- キューに格納されたリソースについて学習する。
- TPU VM を管理する方法を学習する。
- GKE の TPU について学習する。
- TPU VM で JAX コードを実行する方法を確認する。
- TPU VM で PyTorch コードを実行する方法を学習する。
- TPU で vLLM を使用して Qwen2-72B-Instruct をサービングするなど、TPU で ML ワークロードを実行する方法を学習する。