Compute Engine の Cloud TPU リソース

Compute Engine リソースを使用して TPU を作成、管理できます。このページでは、Compute Engine で TPU を使用するコンセプトの概要について説明します。Cloud TPU のコンセプトを Compute Engine リソースにマッピングし、Compute Engine に移行するプロセスの概要を示します。

Cloud TPU の主なコンセプト

Compute Engine 内で TPU リソースを管理するには、次の TPU の主なコンセプトを理解しておくと便利です。

  • TPU VM: TPU ハードウェアに直接接続する仮想マシン。単一の TPU VM は、単一ホスト スライスと同じです。
  • TPU スライス: 相互接続された TPU チップの論理グループ。 1 つ以上の TPU VM を介してアクセスします。 TPU API では、単一の TPU スライスは Node または QueuedResource REST オブジェクトで表されます。 スライスには、次のいずれかのスコープがあります。
    • 単一ホスト スライス: 1 つのホストマシンで構成されるスライス。 単一ホスト スライスは、単一の TPU VM を指す別の方法です。
    • マルチホスト スライス: 高速チップ間相互接続(ICI)を使用して相互接続された複数の TPU VM で構成されるスライス。
Compute Engine で TPU リソースを管理する場合、次の Cloud TPU API オブジェクトは使用しませんが、以前の Cloud TPU API に慣れている場合は、コンテキストの理解に役立ちます。

  • Node: 単一の TPU スライスを表す、以前の Cloud TPU API の REST オブジェクト。Compute Engine では、これは VM インスタンスまたはマネージド インスタンス グループ(MIG)にマッピングされます。
  • QueuedResource: 1 つ以上の TPU スライスを表す、以前の Cloud TPU API の REST オブジェクト。キューに格納されたリソースは、キューを介して TPU 容量をリクエストして管理するために使用されます。Compute Engine では、フレキシブル スタート VM が同様の機能を提供します。

TPU と Compute Engine のコンセプト マップ

次の表に、TPU のコンセプトが Compute Engine リソースにどのようにマッピングされるかを示します。

Cloud TPU のコンセプト Compute Engine リソース リソースの詳細 ユースケース
TPU VM VM インスタンス TPU ハードウェアに直接アクセスできる Compute Engine VM。 個々の VM タスク、SSH コマンドの実行、デバッグ
TPU 単一ホストまたはサブホスト スライス 単一の VM を含む VM インスタンスまたは MIG 1 つの物理ホストマシンで構成される構成。 自動スケーリングによる推論
TPU マルチホスト スライス ワークロード ポリシーでアクセラレータ トポロジが指定された MIG ICI を使用して相互接続された TPU VM のグループ。単一の論理ユニットとして管理されます。 アトミック プロビジョニングを必要とする大規模な分散トレーニング

Cloud TPU API から移行する

Cloud TPU API の開発は終了しました。これには、Cloud TPU API 用の Google Cloud CLI と Cloud TPU API 用の Cloud クライアント ライブラリが含まれます。Cloud TPU API には、バグ修正とセキュリティ アップデートのみが適用されます。TPU7x(Ironwood)以降の新しいハードウェア世代は、Compute Engine または Google Kubernetes Engine(GKE)でのみサポートされます。最新の機能と最新の TPU バージョンのサポートについては、以前の Cloud TPU API 呼び出しを Compute Engine または GKE の同等の呼び出しに置き換えて移行してください。

オーケストレーションとワークロードの要件に応じて、次のいずれかのパスを選択します。

既存の TPU リソース

Cloud TPU API(Node または QueuedResource REST オブジェクト)を使用して作成された TPU リソースは、Compute Engine および GKE と互換性がありません。Compute Engine または GKE の使用を開始するには:

  • Cloud TPU API を使用するスクリプトを、Compute Engine または GKE API を使用するように書き換えます。
  • Cloud TPU API を使用してリソースを削除し、Compute Engine または GKE API を使用してリソースを再作成します。

制限事項

Compute Engine の TPU には次の制限があります。

  • TPU バージョン: Compute Engine は v5p、v6e、TPU7x をサポートしています。
  • 容量モード: TPU の [すべての容量] モード は、Compute Engine では使用できません。
  • マルチスライス: 相互接続されたマルチホスト TPU スライスのグループの作成は、Compute Engine では使用できません。マルチスライスを使用するには、Google Kubernetes Engine(GKE)を使用する必要があります。詳細については、 GKE に TPU マルチスライスをデプロイするをご覧ください。
  • コレクション: コレクション スケジューリングは、 Compute Engine では使用できません。コレクション スケジューリングを使用するには、GKE を使用する必要があります。詳細については、GKE ドキュメントの コレクション スケジューリング をご覧ください。

次のステップ