「GKE 中的 AI/機器學習自動化調度管理」說明文件
Google Kubernetes Engine (GKE) 提供單一整合式平台,可自動化調度管理整個 AI/機器學習生命週期。這項服務提供強大且靈活的運算能力,可大幅提升訓練、推論和代理工作負載的效能,讓您簡化基礎架構並開始交付成果。GKE 的頂尖自動化調度管理功能提供下列優勢:
- 硬體加速器:存取及管理訓練和推論所需的高效能 GPU 和 TPU,並大規模使用。
- 堆疊彈性:與您已熟悉且信任的分散式運算、資料處理和模型服務架構整合。
- 簡化代管 Kubernetes:充分運用代管平台的所有優點,自動化、調度資源及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。
歡迎參閱我們的網誌、教學課程和最佳做法,瞭解如何透過 GKE 最佳化 AI/機器學習工作負載。 如要進一步瞭解優點和可用功能,請參閱 GKE 上的 AI/機器學習工作負載簡介。
使用價值 $300 美元的免費抵免額,開始進行概念驗證
- 取得 Gemini 2.0 Flash Thinking 的存取權
- 每月免費使用 AI API 和 BigQuery 等熱門產品
- 不會自動收費,也不會要求您一定要購買特定方案
繼續探索超過 20 項一律免費的產品
使用超過 20 項實用的免費產品,包括 AI API、VM 和 data warehouse 等。
說明文件資源
管理 AI 基礎架構和加速器
- 概念
- 概念
- 概念
- 最佳做法
- 影片
- 影片
- 快速入門
- 最佳做法
大規模訓練 AI 模型
- 快速入門
- 快速入門
- 快速入門
- 操作說明
- 教學課程
提供 AI 模型以進行推論
- 最佳做法
- 概念
- 操作說明
- 教學課程
- 教學課程
- 教學課程
- 教學課程
- 教學課程
相關資源
使用 Agent Development Kit (ADK) 和自行託管的 LLM,在 GKE 上部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 vLLM,在 GKE 上部署及管理容器化代理 AI 應用程式,並透過 Llama 3.1 進行可擴充的推論。
使用 Agent Development Kit (ADK) 和 Vertex AI,在 GKE 部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 Vertex AI,在 GKE 上部署及管理容器化代理 AI 應用程式,並透過 Gemini 2.0 Flash 進行可擴充的推論。
透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型
瞭解如何透過 Hugging Face 的 Optimum TPU 服務架構,在 GKE 上使用 Tensor Processing Unit (TPU) 部署 LLM。
在 GKE 中建立並使用以 Parallelstore 執行個體為後端的磁碟區
瞭解如何建立全代管 Parallelstore 執行個體支援的儲存空間,並以磁碟區的形式存取。CSI 驅動程式經過最佳化調整,適合涉及較小檔案大小和隨機讀取作業的 AI/機器學習訓練工作負載。
在 GKE 上提供 LLM,並採用成本效益最佳化的高可用性 GPU 佈建策略
瞭解如何使用 DWS Flex-start,在 GKE 上提升 LLM 服務工作負載的成本效益。
在 TPU 上使用 KubeRay 服務大型語言模型
瞭解如何使用 KubeRay 在 TPU 上提供大型語言模型 (LLM),以及這項做法如何協助提升模型效能。
使用 Hyperdisk ML 加速載入 AI/ML 資料
瞭解如何使用 Hyperdisk ML,簡化及加速在 GKE 上載入 AI/機器學習模型權重。
透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM
瞭解如何透過 PyTorch,使用 GKE 上的 Tensor Processing Unit (TPU) 和 JetStream 提供 LLM。
最佳做法:在 GKE 上使用 GPU 最佳化 LLM 推論作業
瞭解如何使用 vLLM 和 Text Generation Inference (TGI) 服務架構,在 GKE 上透過 GPU 最佳化 LLM 推論效能。
在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊
瞭解 NVIDIA GPU 運算子的使用時機,以及如何在 GKE 上啟用 NVIDIA GPU 運算子。
在 TPU 上設定 LLM 工作負載的自動調度資源功能
瞭解如何使用 GKE 水平 Pod 自動調度器 (HPA),透過單一主機 JetStream 部署 Gemma LLM,設定自動調度基礎架構。
在 GKE 上使用多個 GPU 微調 Gemma 開放式模型
瞭解如何使用 Hugging Face Transformers 程式庫,透過 GKE 上的 GPU 微調 Gemma LLM。
在 GKE 上使用 TPU 部署 Ray Serve 應用程式和 Stable Diffusion 模型
瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式,在 GKE 上部署及提供 Stable Diffusion 模型。
在 GKE 中設定 GPU 上 LLM 工作負載的自動調度資源功能
瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過 Hugging Face Text Generation Interface (TGI) 服務架構部署 Gemma LLM,進而設定自動調度基礎架構。
在 A3 Mega 虛擬機器上,使用 Megatron-LM 訓練 Llama2
瞭解如何在 A3 Mega 上執行以容器為基礎的 Megatron-LM PyTorch 工作負載。
在 Autopilot 中部署 GPU 工作負載
瞭解如何在 GKE Autopilot 工作負載中要求硬體加速器 (GPU) 資源。
在 GKE 中提供具備多個 GPU 的 LLM
瞭解如何使用 GKE 和多個 NVIDIA L4 GPU,提供 Llama 2 70B 或 Falcon 40B 模型。
開始在 GKE 上使用 Ray
瞭解如何在 Ray 叢集上執行工作負載,輕鬆開始在 GKE 上使用 Ray。
透過 Ray 在 L4 GPU 提供大型語言模型
瞭解如何在 GKE 中使用 Ray 架構,提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。
使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載
瞭解如何使用 JobSet 和 Kueue,在 GKE 上自動化調度管理多個 TPU Slice 的 Jax 工作負載。
使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 上的 GPU 工作負載
瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM),觀察 GKE 上的 GPU 工作負載。
快速入門:在 GKE Standard 叢集上使用 GPU 訓練模型
本快速入門導覽課程說明如何在 GKE 中使用 GPU 部署訓練模型,並將預測結果儲存在 Cloud Storage 中。
在 GKE 上執行大規模機器學習作業
這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰,以及在 GKE 訓練及提供大型機器學習模型的最佳做法。
TensorFlow 搭配可加快 GPU 的 GKE Autopilot
這篇網誌文章提供逐步指南,說明如何建立、執行及拆解啟用 TensorFlow 的 Jupiter 筆記本。
在 GKE 上實作工作佇列系統,並在命名空間之間共用配額
本教學課程會使用 Kueue,說明如何實作 Job 排隊系統,以及在 GKE 上設定不同命名空間之間的工作負載資源和配額共用。
使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人
本教學課程說明如何整合以檢索擴增生成技術為基礎的大型語言模型應用程式,以及您上傳至 Cloud Storage bucket 的 PDF 檔案。
使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料
本教學課程說明如何運用 BigQuery 儲存及處理資料、使用 Cloud Run 處理要求,以及使用 Gemma LLM 分析資料和進行預測,在 GKE 上分析大型資料集。
使用 GKE 和 Ray 進行分散式資料預先處理:企業級資源調度
瞭解如何運用 GKE 和 Ray,有效預先處理用於機器學習的大型資料集。
GKE 上 AI/機器學習推論的資料載入最佳做法
瞭解如何縮短 Google Kubernetes Engine 上機器學習應用程式的資料載入時間。
節省 GPU 費用:為 GKE 推論工作負載提供更智慧的自動調度資源功能
瞭解如何微調 GKE 的水平 Pod 自動調度器,盡可能提高效率,進而降低 GPU 推論成本。
透過 GKE 中的 NVIDIA NIM 微服務,有效率地提供最佳化 AI 模型
瞭解如何在 GKE 輕鬆部署最先進的 NVIDIA NIM 微服務,加速執行 AI 工作負載。
在 GKE 上使用全新 Ray 運算子,加快 Ray 在實際工作環境的執行速度
瞭解如何運用 GKE 上的 Ray Operator 簡化 AI/機器學習正式環境部署作業,進而提升效能及擴充性。
在 GKE 上,盡可能提高 GPU 的 LLM 服務輸送量 - 實用指南
瞭解如何盡量提高 GKE 上 GPU 的大型語言模型 (LLM) 服務輸送量,包括基礎架構決策和模型伺服器最佳化。
在 GKE 上執行批次工作負載的最佳做法
瞭解如何在 GKE 上建構及最佳化批次處理平台
透過 GKE 支援的本機 SSD,提供高效能的 AI/機器學習儲存空間
瞭解如何在 GKE 上使用本機 SSD,提供高效能的 AI/機器學習儲存空間。
在 Kubernetes 上使用 NVIDIA GPU 搭配 JAX 進行機器學習
瞭解如何在 GKE 上使用 NVIDIA GPU 執行 JAX 多 GPU/多節點應用程式。
輕鬆打造搜尋引擎:運用 GKE 和 Vertex AI Agent Builder 採取低程式碼做法
如何使用 Vertex AI Agent Builder、Vertex AI Search 和 GKE,透過 Google Cloud 建構搜尋引擎。
LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理,降低客戶支援成本
瞭解 LiveX AI 如何使用 GKE 建構 AI 代理,提升顧客滿意度並降低成本。
使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構
參考架構:使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain,透過檢索增強生成 (RAG) 執行生成式 AI 應用程式。
GKE 批次處理平台參考架構
參考架構:在 Standard 模式的 GKE 上使用 Kueue 管理資源配額,建構批次處理平台。
專利搜尋創新:IPRally 如何運用 GKE 和 Ray 進行 AI 創新
IPRally 如何運用 GKE 和 Ray,建構可擴充且有效率的機器學習平台,以更準確地加快專利搜尋速度。
深入瞭解 Gemma 在 Google Cloud 上的效能
在 GKE 中,透過 Cloud GPU 和 Cloud TPU 使用 Gemma,提升推論和訓練效率。
GKE 上的 Gemma 深入介紹:提供開放生成式 AI 模型的全新創新功能
使用一流的 Gemma 開放模型建構可攜式自訂 AI 應用程式,並部署至 GKE。
透過 Ray 和 Kueue 進行 AI/機器學習進階排程
使用 KubeRay 和 Kueue,在 GKE 中自動調度管理 Ray 應用程式。
如何在 Google Kubernetes Engine 中保護 Ray
在 GKE 上使用 Ray 訓練 AI/機器學習工作負載時,套用安全洞察資料和強化技術。
在 Google Cloud 中設計 AI 和機器學習工作負載的儲存空間
在 Google Cloud 上,為 AI 和機器學習工作負載選取最佳儲存空間選項組合。
自動安裝驅動程式,簡化在 GKE 中使用 NVIDIA GPU 的程序
在 GKE 中自動安裝 Nvidia GPU 驅動程式。
在 GKEE 中使用 NVIDIA NeMo 架構,加速導入生成式 AI
使用 GKE 和 NVIDIA NeMo 架構訓練生成式 AI 模型。
為什麼要使用 GKE 執行 Ray AI 工作負載?
使用 GKE 執行 Ray 工作負載,提升擴充性、成本效益、容錯能力、隔離和可攜性。
搭配使用 Weights & Biases 平台與 Google Kubernetes Engine,簡化機器學習運作流程
使用 Weights & Biases 和 GKE,簡化模型開發及部署程序。
在全代管的 GKE 中執行 AI,現在提供新的運算選項、價格和資源預留功能
透過 GKE Autopilot,為 AI/機器學習工作負載取得更完善的 GPU 支援、提升效能,並降低價格。
SEEN 如何使用 GKE 將輸出量擴充 89 倍,並減少 66% 的 GPU 成本
新創公司運用 GKE 擴展個人化影片輸出功能。
Spotify 如何運用 Ray 和 GKE 釋放機器學習創新能量
瞭解 Ray 如何改變 Spotify 的機器學習開發作業。
Ordaōs Bio 如何運用 GKE 上的生成式 AI
Ordaōs Bio 是生物醫學研究和探索領域的頂尖 AI 加速器之一,致力於尋找腫瘤和慢性發炎疾病的新型免疫療法解決方案。
這間快速成長的新創公司如何透過 GKE 運用機器學習技術
瞭解矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能,大幅強化機器學習 (ML) 基礎架構。
將 GKE 中 Stable Diffusion 的啟動時間縮短 4 倍
瞭解如何縮短在 GKE 上啟動 Stable Diffusion 的時間。
Google Kubernetes Engine (GKE) 範例
查看官方 GKE 產品教學課程中使用的範例應用程式。
GKE AI Labs 範例
查看實驗性範例,瞭解如何運用 GKE 加速 AI/機器學習計畫。
GKE 加速平台
查看在 GKE 上部署加速工作負載的參考架構和解決方案。