GKE での AI / ML オーケストレーションに関するドキュメント
Google Kubernetes Engine(GKE)は、AI/ML ライフサイクル全体をオーケストレートするための単一の統合プラットフォームを提供します。トレーニング、推論、エージェント ワークロードを強化する能力と柔軟性が得られるため、インフラストラクチャを合理化して結果を出すことができます。GKE の最先端のオーケストレーション機能は、次の機能を提供します。
- ハードウェア アクセラレータ: トレーニングと推論の両方で必要な高性能 GPU と TPU に大規模にアクセスして管理します。
- スタックの柔軟性: 既存の信頼できる分散コンピューティング、データ処理、モデル サービングのフレームワークと統合します。
- マネージド Kubernetes のシンプルさ: マネージド プラットフォームのメリットをすべて活用して、柔軟性を維持しながら、AI/ML ライフサイクル全体の自動化、スケーリング、セキュリティ強化を実現します。
ブログ、チュートリアル、ベスト プラクティスで、GKE が AI/ML ワークロードを最適化する方法を確認する。メリットと利用可能な機能の詳細については、 GKE での AI/ML ワークロードの概要をご覧ください。
$300 分の無料クレジットを使用して概念実証を始める
- Gemini 2.0 Flash Thinking をご利用いただけます。
- AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
- 自動請求は行われず、契約も不要です。
常に無料で利用可能な 20 以上のプロダクトを確認する
AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。
ドキュメント リソース
AI インフラストラクチャとアクセラレータを管理する
- コンセプト
- コンセプト
- コンセプト
- ベスト プラクティス
- 動画
- 動画
- クイックスタート
- ベスト プラクティス
AI モデルを大規模にトレーニングする
- クイックスタート
- クイックスタート
- クイックスタート
- ハウツー
- チュートリアル
推論用に AI モデルを提供する
- ベスト プラクティス
- コンセプト
- ハウツー
- チュートリアル
- チュートリアル
- チュートリアル
- チュートリアル
- チュートリアル
関連リソース
Agent Development Kit(ADK)とセルフホスト型 LLM を使用してエージェント AI アプリケーションを GKE にデプロイする
Agent Development Kit(ADK)と vLLM を使用して、Llama 3.1 でスケーラブルな推論を行うことで、コンテナ化されたエージェント AI アプリケーションを GKE にデプロイして管理する方法について説明します。
Agent Development Kit(ADK)と Vertex AI を使用してエージェント AI アプリケーションを GKE にデプロイする
Agent Development Kit(ADK)と Vertex AI を使用して、Gemini 2.0 Flash でスケーラブルな推論を行うために、コンテナ化されたエージェント AI アプリケーションを GKE にデプロイして管理する方法について学習します。
Optimum TPU を活用し、GKE 上で TPU を使用してオープンソース モデルをサービングする
Hugging Face の Optimum TPU サービング フレームワークを使い、GKE の Tensor Processing Unit(TPU)を使用して LLM をデプロイする方法について説明します。
GKE で Parallelstore インスタンスを基盤とする Volume を作成して使用する
フルマネージド Parallelstore インスタンスを基盤とするストレージを作成し、Volume としてそのストレージにアクセスする方法について説明します。CSI ドライバは、サイズの小さいファイルとランダム読み取りを伴う AI / ML トレーニング ワークロード用に最適化されています。
費用を最適化し、高可用性の GPU プロビジョニング戦略を使用して GKE で LLM をサービングする
DWS Flex Start を使用して、GKE で LLM サービング ワークロードの費用を最適化する方法について説明します。
TPU で KubeRay を使用して大規模言語モデルを提供する
TPU で KubeRay を使用して大規模言語モデル(LLM)を提供する方法と、モデルのパフォーマンスを向上させる方法について学習します。
Hyperdisk ML で AI / ML データの読み込みを高速化する
Hyperdisk ML を使用して GKE で AI / ML モデルの重みを簡単に読み込み、高速化する方法について説明します。
GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする
PyTorch を介して JetStream で GKE の Tensor Processing Unit(TPU)を使用して LLM をサービングする方法について説明します。
GKE の GPU を使用して LLM 推論を最適化する際のベスト プラクティス
vLLM と Text Generation Inference(TGI)サービング フレームワークを使用して、GKE の GPU で LLM 推論パフォーマンスを最適化する方法について説明します。
GKE で NVIDIA GPU Operator を使用して GPU スタックを管理する
NVIDIA GPU Operator を使用するタイミングと、GKE で NVIDIA GPU Operator を有効にする方法について説明します。
TPU 上の LLM ワークロードの自動スケーリングを構成する
GKE HorizontalPodAutoscaler(HPA)を使用して、単一ホストの JetStream によって Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法について説明します。
GKE で複数の GPU を使用して Gemma オープンモデルをファインチューニングする
Hugging Face Transformers ライブラリを使用して、GKE の GPU で Gemma LLM をファインチューニングする方法について説明します。
GKE 上で TPU を使用して、Stable Diffusion モデルを使用する Ray Serve アプリケーションをデプロイする
TPU、Ray Serve、Ray Operator アドオンを使用して、GKE に Stable Diffusion モデルをデプロイして提供する方法について説明します。
GKE で GPU 上の LLM ワークロードの自動スケーリングを構成する
GKE HorizontalPodAutoscaler(HPA)を使用して、Hugging Face Text Generation Interface(TGI)サービング フレームワークで Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法を説明します。
A3 Mega 仮想マシンで Megatron-LM を使用して Llama2 をトレーニングする
A3 Mega でコンテナベースの Megatron-LM PyTorch ワークロードを実行する方法について説明します。
Autopilot に GPU ワークロードをデプロイする
GKE Autopilot ワークロードでハードウェア アクセラレータ(GPU)をリクエストする方法について説明します。
GKE で複数の GPU を使用して LLM を提供する
GKE で複数の NVIDIA L4 GPU を使用して Llama 2 70B または Falcon 40B を提供する方法について説明します。
Ray on GKE を使ってみる
Ray クラスタでワークロードを実行して、Ray on GKE を簡単に使用する方法について説明します。
Ray を使用して L4 GPU で LLM を提供する
GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。
JobSet と Kueue を使用して TPU マルチスライス ワークロードをオーケストレートする
JobSet と Kueue を使用して、GKE 上の複数の TPU スライスで Jax ワークロードをオーケストレートする方法について説明します。
NVIDIA Data Center GPU Manager(DCGM)を使用した GKE 上の GPU ワークロードのモニタリング
NVIDIA Data Center GPU Manager(DCGM)を使用して GKE 上の GPU ワークロードをモニタリングする方法について説明します。
クイックスタート: GKE Standard クラスタで GPU を使用してモデルをトレーニングする
このクイックスタートでは、GKE で GPU を使用するトレーニング モデルをデプロイし、予測を Cloud Storage に保存する方法について説明します。
GKE での大規模な ML の実行
この動画では、大規模な AI モデルのトレーニングに関する一般的な課題を GKE で解決する方法と、GKE で大規模な ML モデルをトレーニングして提供するためのベスト プラクティスについて説明します。
GPU アクセラレーションを備えた GKE Autopilot で TensorFlow を実行する
このブログ投稿では、Tensorflow 対応の Jupiter ノートブックを作成、実行、破棄するための手順ガイドを紹介します。
GKE の Namespace 間で割り当てを共有する Job キューイング システムを実装する
このチュートリアルでは Kueue を使用して、Job キューイング システムを実装し、GKE 上の異なる Namespace 間でワークロード リソースと割り当て共有を構成する方法を説明します。
GKE と Cloud Storage を使用して RAG chatbot を構築する
このチュートリアルでは、検索拡張生成に基づく大規模言語モデル アプリケーションと、Cloud Storage バケットにアップロードされた PDF ファイルを統合する方法について説明します。
BigQuery、Cloud Run、Gemma を使用して GKE のデータを分析する
このチュートリアルでは、データの保存と処理に BigQuery、リクエスト処理に Cloud Run、データの分析と予測に Gemma LLM を活用して、GKE で大規模なデータセットを分析する方法について説明します。
GKE と Ray を使用した分散データの前処理: エンタープライズ向けにスケーリング
GKE と Ray を活用して、ML 用に大規模なデータセットを効率的に前処理する方法について説明します。
GKE での AI / ML 推論向けのデータ読み込みに関するベスト プラクティス
Google Kubernetes Engine で ML アプリケーションのデータ読み込み時間を短縮する方法について説明します。
GPU のコストを削減: GKE の推論ワークロード向けのスマートな自動スケーリング
GKE の HorizontalPodAutoscaler をファインチューニングして効率を最大化し、GPU 推論の費用を最適化する方法について説明します。
GKE での NVIDIA NIM マイクロサービスを使用して、最適化された AI モデルを効率的に提供
最先端の NVIDIA NIM マイクロサービスを GKE に簡単にデプロイし、AI ワークロードを高速化する方法について説明します。
GKE で新しい Ray 演算子を使用して本番環境で Ray を高速化する
GKE の Ray 演算子を使用して AI/ML 本番環境のデプロイを簡素化し、パフォーマンスと拡張性を向上させる方法について説明します。
GKE 上の GPU で LLM の提供スループットを最大化する - 実践ガイド
インフラストラクチャの決定やモデルサーバーの最適化など、GKE 上の GPU で大規模言語モデル(LLM)の提供スループットを最大化する方法について説明します。
GKE でバッチ ワークロードを実行するためのベスト プラクティス
GKE でバッチ処理プラットフォームを構築して最適化する方法について説明します。
GKE 上のローカル SSD サポートによる高性能 AI/ML ストレージ
ローカル SSD を使用して GKE で高性能 AI/ML ストレージを提供する方法について説明します。
NVIDIA GPU を使用した Kubernetes での JAX による ML
NVIDIA GPU を使用して GKE で JAX マルチ GPU マルチノード アプリケーションを実行する方法について説明します。
検索エンジンをシンプルに: GKE と Vertex AI Agent Builder によるローコード アプローチ
Vertex AI Agent Builder、Vertex AI Search、GKE を使用して Google Cloud で検索エンジンを作成する方法。
LiveX AI: GKE と NVIDIA AI でトレーニングおよびサービングされる AI エージェントによりカスタマー サポートのコストを削減
LiveX AI が GKE を使用して、顧客満足度を高め、費用を削減する AI エージェントを構築する方法。
GKE と Cloud SQL を使用した RAG 対応生成 AI アプリケーション用インフラストラクチャ
GKE、Cloud SQL、Ray、Hugging Face、LangChain を使用して、検索拡張生成(RAG)対応の生成 AI アプリケーションを実行するためのリファレンス アーキテクチャ。
GKE 上のバッチ処理プラットフォームのリファレンス アーキテクチャ
Kueue を使用してリソース割り当てを管理する Standard モードの GKE 上のバッチ処理プラットフォームのリファレンス アーキテクチャ。
特許検索の革新: IPRally が GKE と Ray を使用して AI を活用
IPRally が GKE と Ray を使用して、スケーラブルで効率的な ML プラットフォームを構築し、特許検索の高速化と精度の向上を実現した方法を紹介します。
Google Cloud での Gemma のパフォーマンスに関する詳細
Cloud GPU と Cloud TPU 上で Gemma を活用し、推論と GKE でのトレーニングの効率を高めます。
GKE で Gemma を使用するための詳細: 生成 AI オープンモデルのサービングを実現する新たなイノベーション
最高水準の Gemma オープンモデルを使用して、移植およびカスタマイズ可能な AI アプリケーションを構築し、GKE にデプロイします。
Ray と Kueue を使用した AI / ML の高度なスケジューリング
KubeRay と Kueue を使用して GKE で Ray アプリケーションをオーケストレーションします。
Google Kubernetes Engine 上で Ray のセキュリティを確保する方法
GKE で Ray を使用して AI / ML ワークロードをトレーニングする際に、セキュリティに関する知見とセキュリティ強化手法を適用します。
Google Cloud で AI / ML ワークロードのストレージを設計する
Google Cloud の AI / ML ワークロードに最適なストレージ オプションの組み合わせを選択します。
ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に
GKE に Nvidia GPU ドライバを自動的にインストールします。
GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速
GKE と NVIDIA NeMo フレームワークを使用して、生成 AI モデルをトレーニングします。
Ray AI ワークロードに GKE を使用する理由
Ray ワークロードに GKE を使用して、スケーラビリティ、費用対効果、フォールト トレランス、分離、移植性を向上させます。
Google Kubernetes Engine で Weights & Biases を使用して MLOps を簡素化する
GKE で Weights & Biases を使用して、モデルの開発とデプロイ プロセスを簡素化します。
フルマネージド GKE で AI を実行: 新たなコンピューティング オプション、料金、リソース予約
GKE Autopilot を使用すると、AI / ML ワークロードの GPU サポートとパフォーマンスを向上させ、費用を抑えることができます。
SEEN が GKE を使用して出力を 89 倍に拡大し GPU の費用を 66% 削減した方法
GKE を使用してパーソナライズされた動画出力をスケーリングしたスタートアップ企業を紹介します。
Spotify が Ray と GKE で ML イノベーションを実現している方法
Ray が Spotify で ML 開発を変革している方法。
Ordaōs Bio 社の GKE で生成 AI を活用する方法
Ordaōs Bio 社は、生物医学の研究と発見を目的とした主要な AI アクセラレータの一つであり、腫瘍学および慢性炎症性疾患における新しい免疫学的療法の解決策の発見を目指しています。
ML を活用した成長中のスタートアップの GKE
シリコンバレーのスタートアップ企業である Moloco 社が、GKE と Tensor Flow Enterprise を活用して機械学習(ML)インフラストラクチャを強化した方法。
GKE での安定型分散モデルの起動時間を 4 倍に向上
GKE での安定型分散モデルの起動時間を改善する方法について説明します。
Google Kubernetes Engine(GKE)のサンプル
GKE プロダクトの公式チュートリアルで使用されているサンプル アプリケーションを表示します。
GKE AI Labs のサンプル
GKE を活用して AI / ML イニシアチブを加速するための試験運用版のサンプルを表示します。
GKE アクセラレーテッド プラットフォーム
GKE に高速ワークロードをデプロイするためのリファレンス アーキテクチャとソリューションを確認します。