Cloud TPU リソースを計画する

このページでは、Tensor Processing Unit(TPU)の使用量を計画する方法について説明します。

使用オプションを選択する

使用オプションとは、コンピューティング リソースを取得して使用する方法を指します。速度、期間、費用、プリエンプション許容度に応じて、Cloud TPU VM の容量をリクエストできます。選択肢は、

  • オンデマンド: 標準の従量課金制インスタンス。
  • Spot VM: 低コストのプリエンプティブル インスタンス。プリエンプティブル割り当てを使用します。
  • Flex Start VM: 長期的な予約や複雑な割り当て管理を行うことなく、必要に応じて最大 7 日間容量を予約します。
  • 予約: 特定の期間(最大 90 日間または 1 年以上)の容量を予約して、可用性を保証します。オンデマンド割り当てを使用します。

TPU v6e 以降の世代では、TPU Cluster Director で GKE を使用することもできます。この機能は、All Capacity モードの予約で使用できます。予約済み容量に完全にアクセスでき、TPU のハードウェア レイアウト、使用状況、健全性を完全に把握できます。詳細については、All Capacity モードの概要をご覧ください。

次の表に、TPU の使用オプションを、仕組み、最適なユースケース、サポートされている TPU のバージョンとゾーン、必要な割り当てタイプに基づいて比較します。

使用オプション 機能 最適な用途 サポートされている TPU のバージョンとゾーン Cloud TPU API の割り当てタイプ
1 年以上の将来の予約

1 年以上前に TPU リソースをリクエストします。これらの リソースは、その期間にお客様が排他的に使用するために予約されます。

予約を使用すると、容量を確実に確保できます。また、 オンデマンド リソースよりも低価格で利用できます。

TPU の将来の予約には、確約利用割引(CUD)が適用されます。 CUD では、確約利用契約を購入することを条件として、割引料金が適用されます。 詳細については、 1 年以上の将来の予約をご覧ください。

1 年以上の将来の予約は、長時間実行 トレーニング ジョブと推論ワークロードに最適です。 すべての TPU バージョン: TPU のリージョンとゾーンをご覧ください。 オンデマンド割り当て
最大 90 日間の将来の予約(カレンダー モード)

特定の開始時間と期間(1 ~ 90 日)の TPU リソースをリクエストします。 これらのリソースは、その期間にお客様が排他的に 使用するために予約されます。詳細については、最大 90 日間の将来の予約(カレンダー モード)をご覧ください。

予約を使用すると、容量を確実に確保できます。また、オンデマンド リソースよりも低価格で利用できます。

カレンダー モードの将来の予約は、正確な開始時間と定義された期間を必要とするトレーニングと テストのワークロードに適しています。

トレーニングとサービング用の TPU7x(Ironwood): us-central1-c

トレーニングとサービング用の v6e(Trillium): asia-northeast1-b、us-east5-a

トレーニングとサービング用の v5p: us-east5-a

トレーニング用の v5e: us-west4-a

サービング用の v5e: us-central1-a

割り当て不要
オンデマンド

必要な期間、すぐに使用できる TPU リソースをリクエストします。

オンデマンドは非常に柔軟性の高い方法です。オンデマンド リソース はプリエンプトされませんが、リクエストを満たすのに十分な TPU リソースがあることを保証するものではありません。TPU リソースを作成する際のデフォルト オプションはオンデマンドです。オンデマンド TPU の作成と使用の詳細については、TPU VM を作成するをご覧ください。

オンデマンドは、緊急のジョブや、終了時間を柔軟に設定する必要があるワークロードに適しています。 すべての TPU バージョン: TPU のリージョンとゾーンをご覧ください。 オンデマンド割り当て
Flex Start(プレビュー

容量を事前に予約することなく、最大 7 日間の TPU リソースをリクエストします。

TPU Flex Start VM は専用の容量プールから提供されるため、これらのリソースの可用性はオンデマンドよりも高くなります。詳細については、TPU Flex Start VM をリクエストするをご覧ください。

Google Kubernetes Engine(GKE)で TPU Flex Start VM を使用する方法については、 Flex Start プロビジョニング モードでの GPU と TPU のプロビジョニングについてをご覧ください。

Flex Start は、迅速なテスト、小規模なテスト、 推論ワークロード用の TPU の動的プロビジョニング、モデルのファインチューニング、 7 日未満のワークロード実行に適しています。

TPU7x(Ironwood): us-central1-c(GKE のみを使用)

v6e(Trillium): asia-northeast1-b、us-east5-a

v5p: us-east5-a

v5e: us-west4-a

プリエンプティブル割り当て
スポット

プリエンプトされる可能性がある TPU リソースをリクエストします。

Spot VM は、オンデマンド リソースよりもはるかに低価格で利用できます。Spot VM は オンデマンド リソースよりも簡単に取得できますが、いつでもプリエンプト(シャットダウン)される可能性があります。実行時間に制限はありません。TPU Spot VM の詳細については、 TPU Spot VM を管理するをご覧ください。

Spot は、モデル 事前トレーニング、モデルのファインチューニング、可用性の中断に耐性のあるシミュレーション ジョブなど、優先度の低いワークロードのスケジューリングに適しています。 すべての TPU バージョン: TPU のリージョンとゾーンをご覧ください。 プリエンプティブル割り当て

TPU の割り当てをリクエストする

使用オプションに関係なく TPU VM を使用するには、Cloud TPU コアまたはチップのオンデマンド割り当てまたはプリエンプティブル割り当てが必要です。選択したオプション、TPU のバージョン、サイズ、ゾーンに十分な割り当てがあることを確認してください。割り当ては TPU のバージョンごとに異なり、オンデマンド使用とプリエンプティブル使用で異なります。一部の TPU バージョンにはデフォルトの割り当てがありますが、割り当てをリクエストする必要があるものもあります。詳細については、Cloud TPU の割り当てをご覧ください。

Google Kubernetes Engine(GKE)で TPU を使用する場合は、 標準の TPU API 割り当てではなく、Compute Engine API の割り当てが必要です。GKE での TPU 割り当ての詳細については、 TPU 割り当てがあることを確認するをご覧ください。

TPU のバージョンを選択する

モデルのトレーニングまたは推論のニーズに基づいて、TPU のバージョン(v5e、v5p、v6e、TPU7x(Ironwood)など)を選択します。詳細については、TPU のバージョンをご覧ください。

次のステップ