GKE での AI / ML オーケストレーションに関するドキュメント

Google Kubernetes Engine(GKE)は、AI/ML ライフサイクル全体をオーケストレートするための単一の統合プラットフォームを提供します。トレーニング、推論、エージェント ワークロードを強化する能力と柔軟性が得られるため、インフラストラクチャを合理化して結果を出すことができます。GKE の最先端のオーケストレーション機能は、次の機能を提供します。

  • ハードウェア アクセラレータ: トレーニングと推論の両方で必要な高性能 GPU と TPU に大規模にアクセスして管理します。
  • スタックの柔軟性: 既存の信頼できる分散コンピューティング、データ処理、モデル サービングのフレームワークと統合します。
  • マネージド Kubernetes のシンプルさ: マネージド プラットフォームのメリットをすべて活用して、柔軟性を維持しながら、AI/ML ライフサイクル全体の自動化、スケーリング、セキュリティ強化を実現します。

ブログ、チュートリアル、ベスト プラクティスで、GKE が AI/ML ワークロードを最適化する方法を確認する。メリットと利用可能な機能の詳細については、 GKE での AI/ML ワークロードの概要をご覧ください。

  • Gemini 2.0 Flash Thinking をご利用いただけます。
  • AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
  • 自動請求は行われず、契約も不要です。

常に無料で利用可能な 20 以上のプロダクトを確認する

AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。

ドキュメント リソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。
セルフペース トレーニング、ユースケース、リファレンス アーキテクチャ、コードサンプル、 Google Cloud サービスの使用方法と接続方法の例をご覧ください。
トレーニング
トレーニングとチュートリアル

Agent Development Kit(ADK)と vLLM を使用して、Llama 3.1 でスケーラブルな推論を行うことで、コンテナ化されたエージェント AI アプリケーションを GKE にデプロイして管理する方法について説明します。

チュートリアル AI/ML 推論 エージェント AI

トレーニング
トレーニングとチュートリアル

Agent Development Kit(ADK)と Vertex AI を使用して、Gemini 2.0 Flash でスケーラブルな推論を行うために、コンテナ化されたエージェント AI アプリケーションを GKE にデプロイして管理する方法について学習します。

チュートリアル AI/ML 推論 エージェント AI

トレーニング
トレーニングとチュートリアル

Hugging Face の Optimum TPU サービング フレームワークを使い、GKE の Tensor Processing Unit(TPU)を使用して LLM をデプロイする方法について説明します。

チュートリアル AI / ML 推論 TPU

トレーニング
トレーニングとチュートリアル

フルマネージド Parallelstore インスタンスを基盤とするストレージを作成し、Volume としてそのストレージにアクセスする方法について説明します。CSI ドライバは、サイズの小さいファイルとランダム読み取りを伴う AI / ML トレーニング ワークロード用に最適化されています。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

DWS Flex Start を使用して、GKE で LLM サービング ワークロードの費用を最適化する方法について説明します。

費用最適化 GPU DWS

トレーニング
トレーニングとチュートリアル

TPU で KubeRay を使用して大規模言語モデル(LLM)を提供する方法と、モデルのパフォーマンスを向上させる方法について学習します。

動画 Ray TPU

トレーニング
トレーニングとチュートリアル

Hyperdisk ML を使用して GKE で AI / ML モデルの重みを簡単に読み込み、高速化する方法について説明します。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

PyTorch を介して JetStream で GKE の Tensor Processing Unit(TPU)を使用して LLM をサービングする方法について説明します。

チュートリアル AI / ML 推論 TPU

トレーニング
トレーニングとチュートリアル

vLLM と Text Generation Inference(TGI)サービング フレームワークを使用して、GKE の GPU で LLM 推論パフォーマンスを最適化する方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

NVIDIA GPU Operator を使用するタイミングと、GKE で NVIDIA GPU Operator を有効にする方法について説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

GKE HorizontalPodAutoscaler(HPA)を使用して、単一ホストの JetStream によって Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法について説明します。

チュートリアル TPU

トレーニング
トレーニングとチュートリアル

Hugging Face Transformers ライブラリを使用して、GKE の GPU で Gemma LLM をファインチューニングする方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

TPU、Ray Serve、Ray Operator アドオンを使用して、GKE に Stable Diffusion モデルをデプロイして提供する方法について説明します。

チュートリアル AI / ML 推論 Ray TPU

トレーニング
トレーニングとチュートリアル

GKE HorizontalPodAutoscaler(HPA)を使用して、Hugging Face Text Generation Interface(TGI)サービング フレームワークで Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法を説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

A3 Mega でコンテナベースの Megatron-LM PyTorch ワークロードを実行する方法について説明します。

チュートリアル AI / ML トレーニング GPU

トレーニング
トレーニングとチュートリアル

GKE Autopilot ワークロードでハードウェア アクセラレータ(GPU)をリクエストする方法について説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

GKE で複数の NVIDIA L4 GPU を使用して Llama 2 70B または Falcon 40B を提供する方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

Ray クラスタでワークロードを実行して、Ray on GKE を簡単に使用する方法について説明します。

チュートリアル Ray

トレーニング
トレーニングとチュートリアル

GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。

チュートリアル AI / ML 推論 Ray GPU

トレーニング
トレーニングとチュートリアル

JobSet と Kueue を使用して、GKE 上の複数の TPU スライスで Jax ワークロードをオーケストレートする方法について説明します。

チュートリアル TPU

トレーニング
トレーニングとチュートリアル

NVIDIA Data Center GPU Manager(DCGM)を使用して GKE 上の GPU ワークロードをモニタリングする方法について説明します。

チュートリアル AI / ML オブザーバビリティ GPU

トレーニング
トレーニングとチュートリアル

このクイックスタートでは、GKE で GPU を使用するトレーニング モデルをデプロイし、予測を Cloud Storage に保存する方法について説明します。

チュートリアル AI / ML トレーニング GPU

トレーニング
トレーニングとチュートリアル

この動画では、大規模な AI モデルのトレーニングに関する一般的な課題を GKE で解決する方法と、GKE で大規模な ML モデルをトレーニングして提供するためのベスト プラクティスについて説明します。

動画 AI / ML トレーニング AI / ML 推論

トレーニング
トレーニングとチュートリアル

このブログ投稿では、Tensorflow 対応の Jupiter ノートブックを作成、実行、破棄するための手順ガイドを紹介します。

ブログ AI / ML トレーニング AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

このチュートリアルでは Kueue を使用して、Job キューイング システムを実装し、GKE 上の異なる Namespace 間でワークロード リソースと割り当て共有を構成する方法を説明します。

チュートリアル AI / ML バッチ

トレーニング
トレーニングとチュートリアル

このチュートリアルでは、検索拡張生成に基づく大規模言語モデル アプリケーションと、Cloud Storage バケットにアップロードされた PDF ファイルを統合する方法について説明します。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

このチュートリアルでは、データの保存と処理に BigQuery、リクエスト処理に Cloud Run、データの分析と予測に Gemma LLM を活用して、GKE で大規模なデータセットを分析する方法について説明します。

チュートリアル AI / ML データの読み込み

ユースケース
ユースケース

GKE と Ray を活用して、ML 用に大規模なデータセットを効率的に前処理する方法について説明します。

MLOps トレーニング Ray

ユースケース
ユースケース

Google Kubernetes Engine で ML アプリケーションのデータ読み込み時間を短縮する方法について説明します。

推論 Hyperdisk ML Cloud Storage FUSE

ユースケース
ユースケース

GKE の HorizontalPodAutoscaler をファインチューニングして効率を最大化し、GPU 推論の費用を最適化する方法について説明します。

推論 GPU HPA

ユースケース
ユースケース

最先端の NVIDIA NIM マイクロサービスを GKE に簡単にデプロイし、AI ワークロードを高速化する方法について説明します。

AI NVIDIA NIM

ユースケース
ユースケース

GKE の Ray 演算子を使用して AI/ML 本番環境のデプロイを簡素化し、パフォーマンスと拡張性を向上させる方法について説明します。

AI TPU Ray

ユースケース
ユースケース

インフラストラクチャの決定やモデルサーバーの最適化など、GKE 上の GPU で大規模言語モデル(LLM)の提供スループットを最大化する方法について説明します。

LLM GPU NVIDIA

ユースケース
ユースケース

GKE でバッチ処理プラットフォームを構築して最適化する方法について説明します。

バッチ パフォーマンス コスト最適化

ユースケース
ユースケース

ローカル SSD を使用して GKE で高性能 AI/ML ストレージを提供する方法について説明します。

AI NVMe ローカル SSD

ユースケース
ユースケース

NVIDIA GPU を使用して GKE で JAX マルチ GPU マルチノード アプリケーションを実行する方法について説明します。

GPU JAX ML

ユースケース
ユースケース

Vertex AI Agent Builder、Vertex AI Search、GKE を使用して Google Cloud で検索エンジンを作成する方法。

検索 エージェント Vertex AI

ユースケース
ユースケース

LiveX AI が GKE を使用して、顧客満足度を高め、費用を削減する AI エージェントを構築する方法。

GenAI NVIDIA GPU

ユースケース
ユースケース

GKE、Cloud SQL、Ray、Hugging Face、LangChain を使用して、検索拡張生成(RAG)対応の生成 AI アプリケーションを実行するためのリファレンス アーキテクチャ。

GenAI RAG Ray

ユースケース
ユースケース

Kueue を使用してリソース割り当てを管理する Standard モードの GKE 上のバッチ処理プラットフォームのリファレンス アーキテクチャ。

AI Kueue Batch

ユースケース
ユースケース

IPRally が GKE と Ray を使用して、スケーラブルで効率的な ML プラットフォームを構築し、特許検索の高速化と精度の向上を実現した方法を紹介します。

AI Ray GPU

ユースケース
ユースケース

Cloud GPU と Cloud TPU 上で Gemma を活用し、推論と GKE でのトレーニングの効率を高めます。

AI Gemma パフォーマンス

ユースケース
ユースケース

最高水準の Gemma オープンモデルを使用して、移植およびカスタマイズ可能な AI アプリケーションを構築し、GKE にデプロイします。

AI Gemma パフォーマンス

ユースケース
ユースケース

KubeRay と Kueue を使用して GKE で Ray アプリケーションをオーケストレーションします。

Kueue Ray KubeRay

ユースケース
ユースケース

GKE で Ray を使用して AI / ML ワークロードをトレーニングする際に、セキュリティに関する知見とセキュリティ強化手法を適用します。

AI Ray セキュリティ

ユースケース
ユースケース

Google Cloud の AI / ML ワークロードに最適なストレージ オプションの組み合わせを選択します。

AI ML ストレージ

ユースケース
ユースケース

GKE に Nvidia GPU ドライバを自動的にインストールします。

GPU NVIDIA インストール

ユースケース
ユースケース

GKE と NVIDIA NeMo フレームワークを使用して、生成 AI モデルをトレーニングします。

GenAI NVIDIA NeMo

ユースケース
ユースケース

Ray ワークロードに GKE を使用して、スケーラビリティ、費用対効果、フォールト トレランス、分離、移植性を向上させます。

AI Ray スケール

ユースケース
ユースケース

GKE で Weights & Biases を使用して、モデルの開発とデプロイ プロセスを簡素化します。

コスト最適化 TPU GPU

ユースケース
ユースケース

GKE Autopilot を使用すると、AI / ML ワークロードの GPU サポートとパフォーマンスを向上させ、費用を抑えることができます。

GPU Autopilot パフォーマンス

ユースケース
ユースケース

GKE を使用してパーソナライズされた動画出力をスケーリングしたスタートアップ企業を紹介します。

GPU スケール コンテナ

ユースケース
ユースケース

Ray が Spotify で ML 開発を変革している方法。

ML Ray コンテナ

ユースケース
ユースケース

Ordaōs Bio 社は、生物医学の研究と発見を目的とした主要な AI アクセラレータの一つであり、腫瘍学および慢性炎症性疾患における新しい免疫学的療法の解決策の発見を目指しています。

パフォーマンス TPU コスト最適化

ユースケース
ユースケース

シリコンバレーのスタートアップ企業である Moloco 社が、GKE と Tensor Flow Enterprise を活用して機械学習(ML)インフラストラクチャを強化した方法。

ML スケール コストの最適化

ユースケース
ユースケース

GKE での安定型分散モデルの起動時間を改善する方法について説明します。

パフォーマンス スケーリング PD

コードサンプル
コードサンプル

GKE プロダクトの公式チュートリアルで使用されているサンプル アプリケーションを表示します。

コードサンプル
コードサンプル

GKE を活用して AI / ML イニシアチブを加速するための試験運用版のサンプルを表示します。

コードサンプル
コードサンプル

GKE に高速ワークロードをデプロイするためのリファレンス アーキテクチャとソリューションを確認します。

関連動画