GKE の GPU で vLLM を使用して Gemma オープンモデルを提供する

Autopilot Standard

このチュートリアルでは、Google Kubernetes Engine（GKE）上の GPU を使用する Gemma 3 大規模言語モデル（LLM）を vLLM サービングフレームワークによってデプロイしてサービングする方法について説明します。これにより、マネージド Kubernetes 環境における推論用 LLM の実用的なデプロイに関する基礎を学ぶことができます。vLLM を実行する事前構築済みコンテナを GKE にデプロイします。また、Hugging Face から Gemma 1B、4B、12B、27B の重みを読み込むように GKE を構成します。

このチュートリアルは、ML エンジニア、プラットフォームの管理者とオペレーターのほか、Kubernetes のコンテナオーケストレーション機能を使用して H200、H100、A100、L4 GPU ハードウェアで AI / ML ワークロードをサービングすることに関心があるデータと AI のスペシャリストを対象としています。 Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

ML モデルを費用対効果の高い方法で迅速に構築してサービングする目的で設計された統合マネージド AI プラットフォームが必要な場合は、Vertex AI デプロイソリューションをお試しになることをおすすめします。

このページを読む前に、次のことをよく理解しておいてください。

背景

このセクションでは、このガイドで使用されている重要なテクノロジーについて説明します。

Gemma

Gemma は、オープンライセンスでリリースされて一般公開されている、軽量の生成 AI モデルのセットです。これらの AI モデルは、アプリケーション、ハードウェア、モバイルデバイス、ホスト型サービスで実行できます。Gemma 3 ではマルチモダリティが導入され、ビジョン言語入力とテキスト出力がサポートされています。最大 128,000 トークンのコンテキストウィンドウを処理でき、140 を超える言語に対応しています。また Gemma 3 では、構造化出力や関数呼び出しなど、数学、推論、チャット関連の機能が強化されています。

Gemma モデルはテキスト生成に使用できますが、特殊なタスク用にチューニングすることもできます。

詳細については、Gemma のドキュメントをご覧ください。

GPU

GPU を使用すると、ノードで実行される特定のワークロード（ML やデータ処理など）を高速化できます。GKE では、NVIDIA H200、H100、L4、A100 GPU を搭載したマシンタイプをはじめとする、さまざまなマシンタイプオプションをノード構成に使用できます。

vLLM

vLLM は、GPU のサービングスループットを向上できる、高度に最適化されたオープンソースの LLM サービングフレームワークであり、次のような機能を備えています。

PagedAttention による Transformer の実装の最適化
サービングスループットを全体的に向上させる連続的なバッチ処理
複数の GPU でのテンソル並列処理と分散サービング

詳細については、vLLM のドキュメントをご覧ください。

目標

Autopilot モードまたは Standard モードの GKE クラスタで環境を準備する。
vLLM コンテナをクラスタにデプロイする。
vLLM を使用し、curl とウェブチャットインターフェースを介して Gemma 3 モデルをサービングする。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM に移動
2. プロジェクトを選択します。
3. [ アクセスを許可] をクリックします。
4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。これは通常、Google アカウントのメールアドレスです。
5. [ロールを選択] リストでロールを選択します。
6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
7. [保存] をクリックします。

GKE の GPU で vLLM を使用して Gemma オープンモデルを提供する

背景

Gemma

GPU

vLLM

目標

始める前に

Check for the roles

Grant the roles

モデルへのアクセス権を取得する

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタとノードプールを作成する

Autopilot

Standard

Gemma 3 1B

Gemma 3 4B

Gemma 3 12B

Gemma 3 27B

Hugging Face の認証情報用の Kubernetes Secret を作成する

vLLM をデプロイする

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 12B-it

Gemma 3 27B-it

モデルを提供する

ポート転送をセットアップする

curl を使用してモデルを操作する

（省略可）Gradio のチャットインターフェースでモデルを操作する

チャットインターフェースをデプロイする

チャットインターフェースを使用する

問題のトラブルシューティング

モデルのパフォーマンスをモニタリングする

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE の GPU で vLLM を使用して Gemma オープンモデルを提供する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

背景

Gemma

GPU

vLLM

目標

始める前に

Check for the roles

Grant the roles

モデルへのアクセス権を取得する

環境を準備する

Google Cloud リソースを作成して構成する

GKE クラスタとノードプールを作成する

Autopilot

Standard

Gemma 3 1B

Gemma 3 4B

Gemma 3 12B

Gemma 3 27B

Hugging Face の認証情報用の Kubernetes Secret を作成する

vLLM をデプロイする

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 12B-it

Gemma 3 27B-it

モデルを提供する

ポート転送をセットアップする

curl を使用してモデルを操作する

（省略可）Gradio のチャット インターフェースでモデルを操作する

チャット インターフェースをデプロイする

チャット インターフェースを使用する

問題のトラブルシューティング

モデルのパフォーマンスをモニタリングする

クリーンアップ

デプロイされたリソースを削除する

次のステップ

GKE の GPU で vLLM を使用して Gemma オープンモデルを提供する

（省略可）Gradio のチャットインターフェースでモデルを操作する

チャットインターフェースをデプロイする

チャットインターフェースを使用する