AI ワークロードのチュートリアルの概要

このページでは、コンセプト実証（POC）の AI/ML ワークロードの実行に役立つ、 Google Cloud プロダクトに一般的な AI モデルをデプロイするプロセス全体を説明する AI Hypercomputer チュートリアルの概要について説明します。

これらのチュートリアルは、ML エンジニア、研究者、プラットフォーム管理者、オペレーター、データおよび AI スペシャリストを対象としています。これらのチュートリアルを効果的に使用するには、ML のコンセプトに関する基本的な知識と、 Google Cloud サービスの習熟度が必要です。AI モデルのデプロイと管理の経験も、このコンテンツを理解するうえで役立ちます。

チュートリアルのカテゴリ

AI ワークロードのチュートリアルは、次のカテゴリに分類されています。

GKE で vLLM を使用して推論を実行する
ファインチューニングを実行する
トレーニングを実行

Google Kubernetes Engine で vLLM を使用して推論を実行する

これらのチュートリアルでは、Google Kubernetes Engine（GKE）で vLLM サービングフレームワークを使用して、推論用の大規模言語モデル（LLM）をデプロイしてサービングする方法について説明します。GKE のコンテナオーケストレーション機能を使用して、効率的な推論ワークロードを実現する方法を学習します。これらのチュートリアルでは、Hugging Face を使用したモデルへのアクセス、GKE クラスタの設定（Autopilot モードなど）、認証情報の処理、Gemma 3、Llama 4、Qwen3 などの LLM とのやり取りのための vLLM コンテナのデプロイについて説明します。

ファインチューニングを実行する

これらのチュートリアルでは、GKE や Slurm などのさまざまなGoogle Cloud クラスタタイプで、特定のタスク用に LLM をファインチューニングする方法について説明します。たとえば、マルチノードとマルチ GPU の GKE クラスタ（NVIDIA B200 GPU を搭載した A4 VM インスタンスを使用するなど）と Slurm クラスタで Gemma 3 をファインチューニングできます。カスタム VM イメージを作成し、RDMA ネットワークを構成し、Hugging Face Accelerate や FSDP などのライブラリを使用して分散型ファインチューニングジョブを実行します。チュートリアルによっては、Ray などのフレームワークをビジョン関連のタスクに使用する方法も説明しています。

トレーニングを実行

これらのチュートリアルでは、高性能クラスタで LLM をトレーニングまたは事前トレーニングする方法について説明します。たとえば、A4 仮想マシンを使用して、マルチノードとマルチ GPU の Slurm クラスタで Qwen2 などのモデルを事前トレーニングする方法を学びます。 Google Cloud クラスタツールキットを使用して Slurm クラスタをデプロイし、カスタム VM イメージを作成し、共有 Filestore インスタンスを構成し、高速 RDMA ネットワーキングを構成し、Hugging Face Accelerate を使用して分散事前トレーニングジョブを実行します。

次のステップ

AI Hypercomputer のチュートリアルを確認する:

AI ワークロードのチュートリアルの概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。