Dataflow での TPU のサポート

Google Cloud Platform TPU は、Google が作成したカスタム設計の AI アクセラレータで、大規模 AI モデルのトレーニングと使用に最適化されています。幅広い AI ワークロードで費用対効果の高い方法でスケーリングできるように設計されており、PyTorch、JAX、TensorFlow などの AI フレームワークで推論ワークロードを高速化できる汎用性を備えています。TPU の詳細については、Google Cloud Platform TPU の概要をご覧ください。

Dataflow で TPU を使用するための前提条件

  • この GA サービスを使用するには、 Google Cloud プロジェクトが承認されている必要があります。

制限事項

このサービスには次の制限があります。

  • 単一ホストの TPU アクセラレータのみをサポート: Dataflow TPU サービスは、単一ホストの TPU 構成のみをサポートします。この構成では、各 Dataflow ワーカーが、他のワーカーによって管理されている TPU と相互接続されていない 1 つ以上の TPU デバイスを管理します。
  • 同種の TPU ワーカープールのみをサポート: Dataflow の Right Fitting などの機能や Dataflow Prime は、TPU ワークロードをサポートしていません。

料金

TPU を使用する Dataflow ジョブでは、消費されたワーカー TPU チップ時間について課金され、ワーカーの CPU とメモリについては課金されません。詳細については、Dataflow の料金ページをご覧ください。

対象

次の TPU アクセラレータと処理リージョンを使用できます。

サポートされている TPU アクセラレータ

サポートされている TPU アクセラレータの組み合わせは、タプル(TPU タイプ、TPU トポロジ)で識別されます。

  • TPU タイプは、TPU デバイスのモデルを指します。
  • TPU トポロジは、スライス内の TPU チップの数と物理的な配置を指します。

Dataflow ワーカーの TPU のタイプとトポロジを構成するには、worker_accelerator パイプライン オプションtype:TPU_TYPE;topology:TPU_TOPOLOGY 形式で使用します。

Dataflow では、次の TPU 構成がサポートされています。

TPU タイプ トポロジ 必要な worker_machine_type
tpu-v5-lite-podslice 1x1 ct5lp-hightpu-1t
tpu-v5-lite-podslice 2x2 ct5lp-hightpu-4t
tpu-v5-lite-podslice 2x4 ct5lp-hightpu-8t
tpu-v6e-slice 1x1 ct6e-standard-1t
tpu-v6e-slice 2x2 ct6e-standard-4t
tpu-v6e-slice 2x4 ct6e-standard-8t
tpu-v5p-slice 2x2x1 ct5p-hightpu-4t

リージョン

TPU を使用可能なリージョンとゾーンについては、Cloud TPU ドキュメントの TPU のリージョンとゾーンをご覧ください。

次のステップ