使用 GKE 生成式 AI 功能，開始進行 AI 模型推論！

本頁面由 Cloud Translation API 翻譯而成。

「GKE 中的 AI/機器學習自動化調度管理」說明文件

Google Kubernetes Engine (GKE) 提供單一整合式平台，可自動化調度管理整個 AI/機器學習生命週期。這項服務提供強大且靈活的運算能力，可大幅提升訓練、推論和代理工作負載的效能，讓您簡化基礎架構並開始交付成果。GKE 的頂尖自動化調度管理功能提供下列優勢：

硬體加速器：存取及管理訓練和推論所需的高效能 GPU 和 TPU，並大規模使用。
堆疊彈性：與您已熟悉且信任的分散式運算、資料處理和模型服務架構整合。
簡化代管 Kubernetes：充分運用代管平台的所有優點，自動化、調度資源及提升整個 AI/機器學習生命週期的安全性，同時維持彈性。

歡迎參閱我們的網誌、教學課程和最佳做法，瞭解如何透過 GKE 最佳化 AI/機器學習工作負載。如要進一步瞭解優點和可用功能，請參閱 GKE 上的 AI/機器學習工作負載簡介。

免費試用

使用價值 $300 美元的免費抵免額，開始進行概念驗證

取得 Gemini 2.0 Flash Thinking 的存取權
每月免費使用 AI API 和 BigQuery 等熱門產品
不會自動收費，也不會要求您一定要購買特定方案

查看免費產品優惠

繼續探索超過 20 項一律免費的產品

使用超過 20 項實用的免費產品，包括 AI API、VM 和 data warehouse 等。

說明文件資源

歡迎查看快速入門導覽課程、指南和重要參考資料。如有常見問題，也能取得協助。

管理 AI 基礎架構和加速器

大規模訓練 AI 模型

快速入門
在 GKE Standard 模式下使用 GPU 訓練模型
快速入門
在 GKE Autopilot 模式中，使用 GPU 訓練模型
快速入門
在 A3 Mega 虛擬機器上，使用 Megatron-LM 訓練 Llama2
操作說明
在 GKE 上使用多層檢查點訓練大型機器學習模型
教學課程
針對混合式 AI/機器學習訓練和推論工作負載，盡可能提高 GKE 資源使用率

提供 AI 模型以進行推論

最佳做法
GKE 上的 AI/機器學習推論參考架構
概念
關於 GKE 的模型推論功能
操作說明
根據 GKE 推論快速入門導覽課程的指示，執行採用最佳做法的推論作業
教學課程
在 GKE 上使用預先設定的架構提供開放式 LLM
教學課程
在 GKE 上提供 Deepseek-R1 671B 或 Llama 3.1 405B 等 LLM
教學課程
透過 vLLM 在 GKE 上使用 GPU 提供 Gemma 服務
教學課程
透過 vLLM 在 GKE 上使用 TPU Trillium 提供 LLM
教學課程
探索更多 GKE 模型推論教學課程

使用 GKE 生成式 AI 功能，開始進行 AI 模型推論！

「GKE 中的 AI/機器學習自動化調度管理」說明文件

使用價值 $300 美元的免費抵免額，開始進行概念驗證

繼續探索超過 20 項一律免費的產品

管理 AI 基礎架構和加速器

大規模訓練 AI 模型

提供 AI 模型以進行推論

使用 Agent Development Kit (ADK) 和自行託管的 LLM，在 GKE 上部署代理式 AI 應用程式

使用 Agent Development Kit (ADK) 和 Vertex AI，在 GKE 部署代理式 AI 應用程式

透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型

在 GKE 中建立並使用以 Parallelstore 執行個體為後端的磁碟區

在 GKE 上提供 LLM，並採用成本效益最佳化的高可用性 GPU 佈建策略

在 TPU 上使用 KubeRay 服務大型語言模型

使用 Hyperdisk ML 加速載入 AI/ML 資料

透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM

最佳做法：在 GKE 上使用 GPU 最佳化 LLM 推論作業

在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊

在 TPU 上設定 LLM 工作負載的自動調度資源功能

在 GKE 上使用多個 GPU 微調 Gemma 開放式模型

在 GKE 上使用 TPU 部署 Ray Serve 應用程式和 Stable Diffusion 模型

在 GKE 中設定 GPU 上 LLM 工作負載的自動調度資源功能

在 A3 Mega 虛擬機器上，使用 Megatron-LM 訓練 Llama2

在 Autopilot 中部署 GPU 工作負載

在 GKE 中提供具備多個 GPU 的 LLM

開始在 GKE 上使用 Ray

透過 Ray 在 L4 GPU 提供大型語言模型

使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載

使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 上的 GPU 工作負載

快速入門：在 GKE Standard 叢集上使用 GPU 訓練模型

在 GKE 上執行大規模機器學習作業

TensorFlow 搭配可加快 GPU 的 GKE Autopilot

在 GKE 上實作工作佇列系統，並在命名空間之間共用配額

使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人

使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料

使用 GKE 和 Ray 進行分散式資料預先處理：企業級資源調度

GKE 上 AI/機器學習推論的資料載入最佳做法

節省 GPU 費用：為 GKE 推論工作負載提供更智慧的自動調度資源功能

透過 GKE 中的 NVIDIA NIM 微服務，有效率地提供最佳化 AI 模型

在 GKE 上使用全新 Ray 運算子，加快 Ray 在實際工作環境的執行速度

在 GKE 上，盡可能提高 GPU 的 LLM 服務輸送量 - 實用指南

在 GKE 上執行批次工作負載的最佳做法

透過 GKE 支援的本機 SSD，提供高效能的 AI/機器學習儲存空間

在 Kubernetes 上使用 NVIDIA GPU 搭配 JAX 進行機器學習

輕鬆打造搜尋引擎：運用 GKE 和 Vertex AI Agent Builder 採取低程式碼做法

LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理，降低客戶支援成本

使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構

GKE 批次處理平台參考架構

專利搜尋創新：IPRally 如何運用 GKE 和 Ray 進行 AI 創新

深入瞭解 Gemma 在 Google Cloud 上的效能

GKE 上的 Gemma 深入介紹：提供開放生成式 AI 模型的全新創新功能

透過 Ray 和 Kueue 進行 AI/機器學習進階排程

如何在 Google Kubernetes Engine 中保護 Ray

在 Google Cloud 中設計 AI 和機器學習工作負載的儲存空間

自動安裝驅動程式，簡化在 GKE 中使用 NVIDIA GPU 的程序

在 GKEE 中使用 NVIDIA NeMo 架構，加速導入生成式 AI

為什麼要使用 GKE 執行 Ray AI 工作負載？

搭配使用 Weights & Biases 平台與 Google Kubernetes Engine，簡化機器學習運作流程

在全代管的 GKE 中執行 AI，現在提供新的運算選項、價格和資源預留功能

SEEN 如何使用 GKE 將輸出量擴充 89 倍，並減少 66% 的 GPU 成本

Spotify 如何運用 Ray 和 GKE 釋放機器學習創新能量

Ordaōs Bio 如何運用 GKE 上的生成式 AI

這間快速成長的新創公司如何透過 GKE 運用機器學習技術

將 GKE 中 Stable Diffusion 的啟動時間縮短 4 倍

Google Kubernetes Engine (GKE) 範例

GKE AI Labs 範例

GKE 加速平台

相關影片