このページでは、コンセプト実証(POC)の AI/ML ワークロードの実行に役立つ、 Google Cloud プロダクトに一般的な AI モデルをデプロイするプロセス全体を説明する AI Hypercomputer チュートリアルの概要について説明します。
これらのチュートリアルは、ML エンジニア、研究者、プラットフォーム管理者、オペレーター、データおよび AI スペシャリストを対象としています。これらのチュートリアルを効果的に使用するには、ML のコンセプトに関する基本的な知識と、 Google Cloud サービスの習熟度が必要です。AI モデルのデプロイと管理の経験も、このコンテンツを理解するうえで役立ちます。
チュートリアルのカテゴリ
AI ワークロードのチュートリアルは、次のカテゴリに分類されています。
- GKE で vLLM を使用して推論を実行する
- ファインチューニングを実行する
- トレーニングを実行
Google Kubernetes Engine で vLLM を使用して推論を実行する
これらのチュートリアルでは、Google Kubernetes Engine(GKE)で vLLM サービング フレームワークを使用して、推論用の大規模言語モデル(LLM)をデプロイしてサービングする方法について説明します。GKE のコンテナ オーケストレーション機能を使用して、効率的な推論ワークロードを実現する方法を学習します。これらのチュートリアルでは、Hugging Face を使用したモデルへのアクセス、GKE クラスタの設定(Autopilot モードなど)、認証情報の処理、Gemma 3、Llama 4、Qwen3 などの LLM とのやり取りのための vLLM コンテナのデプロイについて説明します。
ファインチューニングを実行する
これらのチュートリアルでは、GKE や Slurm などのさまざまなGoogle Cloud クラスタタイプで、特定のタスク用に LLM をファインチューニングする方法について説明します。たとえば、マルチノードとマルチ GPU の GKE クラスタ(NVIDIA B200 GPU を搭載した A4 VM インスタンスを使用するなど)と Slurm クラスタで Gemma 3 をファインチューニングできます。カスタム VM イメージを作成し、RDMA ネットワークを構成し、Hugging Face Accelerate や FSDP などのライブラリを使用して分散型ファインチューニング ジョブを実行します。チュートリアルによっては、Ray などのフレームワークをビジョン関連のタスクに使用する方法も説明しています。
トレーニングを実行
これらのチュートリアルでは、高性能クラスタで LLM をトレーニングまたは事前トレーニングする方法について説明します。たとえば、A4 仮想マシンを使用して、マルチノードとマルチ GPU の Slurm クラスタで Qwen2 などのモデルを事前トレーニングする方法を学びます。 Google Cloud クラスタ ツールキットを使用して Slurm クラスタをデプロイし、カスタム VM イメージを作成し、共有 Filestore インスタンスを構成し、高速 RDMA ネットワーキングを構成し、Hugging Face Accelerate を使用して分散事前トレーニング ジョブを実行します。
次のステップ
AI Hypercomputer のチュートリアルを確認する:
- GKE で vLLM を使用して Gemma 3 27B 推論をサービングする
- A4 GKE クラスタで Gemma 3 をファインチューニングする
- A4 Slurm クラスタで Qwen2 をトレーニングする
- TPU で vLLM を使用して Qwen2-72B をサービングする