Compute Engine の Cloud TPU リソース
Compute Engine リソースを使用して TPU を作成、管理できます。このページでは、Compute Engine で TPU を使用するコンセプトの概要について説明します。Cloud TPU のコンセプトを Compute Engine リソースにマッピングし、Compute Engine に移行するプロセスの概要を示します。
Cloud TPU の主なコンセプト
Compute Engine 内で TPU リソースを管理するには、次の TPU の主なコンセプトを理解しておくと便利です。
- TPU VM: TPU ハードウェアに直接接続する仮想マシン。単一の TPU VM は、単一ホスト スライスと同じです。
- TPU スライス: 相互接続された TPU チップの論理グループ。
1 つ以上の TPU VM を介してアクセスします。
TPU API では、単一の TPU スライスは
NodeまたはQueuedResourceREST オブジェクトで表されます。 スライスには、次のいずれかのスコープがあります。- 単一ホスト スライス: 1 つのホストマシンで構成されるスライス。 単一ホスト スライスは、単一の TPU VM を指す別の方法です。
- マルチホスト スライス: 高速チップ間相互接続(ICI)を使用して相互接続された複数の TPU VM で構成されるスライス。
Node: 単一の TPU スライスを表す、以前の Cloud TPU API の REST オブジェクト。Compute Engine では、これは VM インスタンスまたはマネージド インスタンス グループ(MIG)にマッピングされます。QueuedResource: 1 つ以上の TPU スライスを表す、以前の Cloud TPU API の REST オブジェクト。キューに格納されたリソースは、キューを介して TPU 容量をリクエストして管理するために使用されます。Compute Engine では、フレキシブル スタート VM が同様の機能を提供します。
TPU と Compute Engine のコンセプト マップ
次の表に、TPU のコンセプトが Compute Engine リソースにどのようにマッピングされるかを示します。
| Cloud TPU のコンセプト | Compute Engine リソース | リソースの詳細 | ユースケース |
|---|---|---|---|
| TPU VM | VM インスタンス | TPU ハードウェアに直接アクセスできる Compute Engine VM。 | 個々の VM タスク、SSH コマンドの実行、デバッグ |
| TPU 単一ホストまたはサブホスト スライス | 単一の VM を含む VM インスタンスまたは MIG | 1 つの物理ホストマシンで構成される構成。 | 自動スケーリングによる推論 |
| TPU マルチホスト スライス | ワークロード ポリシーでアクセラレータ トポロジが指定された MIG | ICI を使用して相互接続された TPU VM のグループ。単一の論理ユニットとして管理されます。 | アトミック プロビジョニングを必要とする大規模な分散トレーニング |
Cloud TPU API から移行する
Cloud TPU API の開発は終了しました。これには、Cloud TPU API 用の Google Cloud CLI と Cloud TPU API 用の Cloud クライアント ライブラリが含まれます。Cloud TPU API には、バグ修正とセキュリティ アップデートのみが適用されます。TPU7x(Ironwood)以降の新しいハードウェア世代は、Compute Engine または Google Kubernetes Engine(GKE)でのみサポートされます。最新の機能と最新の TPU バージョンのサポートについては、以前の Cloud TPU API 呼び出しを Compute Engine または GKE の同等の呼び出しに置き換えて移行してください。
オーケストレーションとワークロードの要件に応じて、次のいずれかのパスを選択します。
- Compute Engine: VM レベルの直接制御 またはカスタム OS イメージが必要なユーザーにおすすめします。Compute Engine での TPU のプロビジョニングを開始するには、 クイックスタート: TPU VM を作成するをご覧ください。
- GKE: コンテナ化されたワークロード、自動 スケーリング、大規模なオーケストレーションにおすすめします。GKE で TPU を使用する方法については、GKE の TPU について をご覧ください。
既存の TPU リソース
Cloud TPU API(Node または QueuedResource REST オブジェクト)を使用して作成された TPU リソースは、Compute Engine および GKE と互換性がありません。Compute Engine または GKE の使用を開始するには:
- Cloud TPU API を使用するスクリプトを、Compute Engine または GKE API を使用するように書き換えます。
- Cloud TPU API を使用してリソースを削除し、Compute Engine または GKE API を使用してリソースを再作成します。
制限事項
Compute Engine の TPU には次の制限があります。
- TPU バージョン: Compute Engine は v5p、v6e、TPU7x をサポートしています。
- 容量モード: TPU の [すべての容量] モード は、Compute Engine では使用できません。
- マルチスライス: 相互接続されたマルチホスト TPU スライスのグループの作成は、Compute Engine では使用できません。マルチスライスを使用するには、Google Kubernetes Engine(GKE)を使用する必要があります。詳細については、 GKE に TPU マルチスライスをデプロイするをご覧ください。
- コレクション: コレクション スケジューリングは、 Compute Engine では使用できません。コレクション スケジューリングを使用するには、GKE を使用する必要があります。詳細については、GKE ドキュメントの コレクション スケジューリング をご覧ください。
次のステップ
- クイックスタート: TPU インスタンスを作成する
- Compute Engine を使用して Cloud TPU VM インスタンスを作成する
- MIG を使用して Cloud TPU VM を作成する