AI ワークロードのチュートリアルの概要

このページでは、コンセプト実証(POC)の AI/ML ワークロードの実行に役立つ、 Google Cloud プロダクトに一般的な AI モデルをデプロイするプロセス全体を説明する AI Hypercomputer チュートリアルの概要について説明します。

これらのチュートリアルは、ML エンジニア、研究者、プラットフォーム管理者、オペレーター、データおよび AI スペシャリストを対象としています。これらのチュートリアルを効果的に使用するには、ML のコンセプトに関する基本的な知識と、 Google Cloud サービスの習熟度が必要です。AI モデルのデプロイと管理の経験も、このコンテンツを理解するうえで役立ちます。

チュートリアルのカテゴリ

AI ワークロードのチュートリアルは、次のカテゴリに分類されています。

  • GKE で vLLM を使用して推論を実行する
  • ファインチューニングを実行する
  • トレーニングを実行

Google Kubernetes Engine で vLLM を使用して推論を実行する

これらのチュートリアルでは、Google Kubernetes Engine(GKE)で vLLM サービング フレームワークを使用して、推論用の大規模言語モデル(LLM)をデプロイしてサービングする方法について説明します。GKE のコンテナ オーケストレーション機能を使用して、効率的な推論ワークロードを実現する方法を学習します。これらのチュートリアルでは、Hugging Face を使用したモデルへのアクセス、GKE クラスタの設定(Autopilot モードなど)、認証情報の処理、Gemma 3、Llama 4、Qwen3 などの LLM とのやり取りのための vLLM コンテナのデプロイについて説明します。

ファインチューニングを実行する

これらのチュートリアルでは、GKE や Slurm などのさまざまなGoogle Cloud クラスタタイプで、特定のタスク用に LLM をファインチューニングする方法について説明します。たとえば、マルチノードとマルチ GPU の GKE クラスタ(NVIDIA B200 GPU を搭載した A4 VM インスタンスを使用するなど)と Slurm クラスタで Gemma 3 をファインチューニングできます。カスタム VM イメージを作成し、RDMA ネットワークを構成し、Hugging Face Accelerate や FSDP などのライブラリを使用して分散型ファインチューニング ジョブを実行します。チュートリアルによっては、Ray などのフレームワークをビジョン関連のタスクに使用する方法も説明しています。

トレーニングを実行

これらのチュートリアルでは、高性能クラスタで LLM をトレーニングまたは事前トレーニングする方法について説明します。たとえば、A4 仮想マシンを使用して、マルチノードとマルチ GPU の Slurm クラスタで Qwen2 などのモデルを事前トレーニングする方法を学びます。 Google Cloud クラスタ ツールキットを使用して Slurm クラスタをデプロイし、カスタム VM イメージを作成し、共有 Filestore インスタンスを構成し、高速 RDMA ネットワーキングを構成し、Hugging Face Accelerate を使用して分散事前トレーニング ジョブを実行します。

次のステップ

AI Hypercomputer のチュートリアルを確認する: