Google Cloud は、世界水準の人工知能(AI)インフラストラクチャを提供し、幅広いセグメントで最も要求の厳しい GPU アクセラレーショ ワークロードを強化することに注力しています Google Cloud の GPU を使用して、AI、機械学習(ML)、科学、分析、エンジニアリング、コンシューマー、エンタープライズ アプリケーションを実行できます。
Google Cloud は NVIDIA とのパートナーシップを通じて、最新の GPU を提供すると同時に、ストレージとネットワーキングの幅広いオプションでソフトウェア スタックを最適化しています。利用可能な GPU の完全なリストについては、GPU プラットフォームをご覧ください。
以降のセクションでは、 Google Cloudでの GPU のメリットについて説明します。
GPU アクセラレーション VM
Google Cloudでは、ニーズに最適な方法で GPU にアクセスしてプロビジョニングできます。専用のアクセラレータ最適化マシン ファミリーが用意されており、パフォーマンスを最大限に高めるために最適な、事前接続された GPU とネットワーク機能を備えています。これらは、A4X、A4、A3、A2、G2 のマシンシリーズで使用できます。
複数のプロビジョニング オプション
アクセラレータ最適化マシン ファミリーを使用すると、次のいずれかのオープンソースまたは Google Cloud プロダクトを使用してクラスタをプロビジョニングできます。
Vertex AI
Vertex AI は、ML モデルと AI アプリケーションのトレーニングとデプロイに使用できるフルマネージド型の機械学習(ML)プラットフォームです。Vertex AI アプリケーションでは、GPU アクセラレーション VM を使用して、次の方法でパフォーマンスを向上させることができます。
- カスタム トレーニング用の GKE ワーカープールで GPU 対応 VM を使用する。
- Vertex AI Model Garden にあるオープンソース LLM モデルを使用する。
- 予測のレイテンシを短縮する。
- Vertex AI Workbench ノートブック コードのパフォーマンスを改善する。
- Colab Enterprise ランタイムのパフォーマンスを改善する。
AI Hypercomputer
AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。パフォーマンスが最適化されたハードウェア、オープン ソフトウェア、ML フレームワーク、柔軟性に優れた利用モデルの統合システムです。単一の同種ユニットとして機能するアクセラレータとネットワーキング リソースを最大で数万までデプロイして管理できるように設計された AI Hypercomputer の機能とサービス。このオプションは、Google Kubernetes Engine(GKE)スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に最適です。詳細については、AI Hypercomputer の概要をご覧ください。
Cluster Director の使用を開始するには、デプロイ戦略を選択するをご覧ください。
Compute Engine
Compute Engine で、GPU が接続された個々の VM または小規模な VM クラスタを作成して管理することもできます。この方法は、グラフィックを多用するワークロード、シミュレーション ワークロード、小規模な ML モデルのトレーニングの実行に主に使用されます。
次の表に、GPU がアタッチされた VM の作成に使用できる方法を示します。
デプロイ方法 |
デプロイガイド |
サービングと単一ノード ワークロード用の VM を作成する |
|
マネージド インスタンス グループ(MIG)を作成する |
|
VM を一括作成する |
|
単一の VM を作成する |
|
仮想ワークステーションを作成する |
Cloud Run
Cloud Run インスタンスに GPU を構成できます。GPU は、Cloud Run で大規模言語モデルを使用して AI 推論ワークロードを実行する場合に最適です。
Cloud Run を使用して GPU 上で AI ワークロードを実行する方法については、次のリソースをご覧ください。
- Cloud Run サービスに GPU を構成する
- GPU を使用して Cloud Run に大規模な ML モデルを読み込む
- チュートリアル: Ollama と Cloud Run を使用して GPU 上で LLM 推論を実行する