「GKE 中的 AI/機器學習自動化調度管理」說明文件
Google Kubernetes Engine (GKE) 提供單一整合式平台,可自動化調度管理整個 AI/機器學習生命週期。這項服務提供強大且靈活的運算能力,可大幅提升訓練、推論和代理工作負載的效能,讓您簡化基礎架構並開始交付成果。GKE 的頂尖自動化調度管理功能提供下列優勢:
- 硬體加速器:大規模存取及管理訓練和推論所需的高效能 GPU 和 TPU。
- 堆疊彈性:與您已熟悉且信任的分散式運算、資料處理和提供模型架構整合。
- 簡化代管 Kubernetes:充分運用代管平台的優勢,自動化、調度及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。
歡迎參閱我們的網誌、教學課程和最佳做法,瞭解如何透過 GKE 最佳化 AI/機器學習工作負載。如要進一步瞭解優點和可用功能,請參閱 GKE 的 AI/機器學習工作負載簡介。
使用價值 $300 美元的免費抵免額,開始概念驗證
- 運用我們最新生成式 AI 模型和工具進行開發。
- 免費使用 Compute Engine 和 AI API 等 20 多項熱銷產品。
- 不會自動收費,也無需綁約
繼續探索 20 多項永久免費的產品
存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。
說明文件資源
管理 AI 基礎架構和加速器
- 概念
- 概念
- 概念
- 最佳做法
- 最佳做法
- 最佳做法
- 快速入門
- 影片
- 影片
大規模訓練 AI 模型
- 快速入門
- 教學課程
- 教學課程
- 教學課程
- 教學課程
- 快速入門
- 操作說明
- 教學課程
提供 AI 模型以進行推論
- 最佳做法
- 概念
- 最佳做法
- 操作說明
- 快速入門
- 教學課程
- 教學課程
- 教學課程
- 教學課程
- 教學課程
相關資源
透過 Cloud Storage 和 GKE 最佳化 AI 和機器學習工作負載
瞭解如何使用 Cloud Storage FUSE,提升 GKE 上 AI 和機器學習工作負載的效能。
透過 Managed Lustre 和 GKE 最佳化 AI 和機器學習工作負載
瞭解如何使用 Managed Lustre,在 GKE 上最佳化 AI 和機器學習工作負載的效能。
使用 Agent Sandbox 隔離 AI 程式碼執行作業
瞭解如何在 GKE 上安裝及執行 Agent Sandbox 控制器,並在叢集上部署沙箱環境,測試不受信任的殼層指令。
使用 Agent Development Kit (ADK) 和自行代管的 LLM,在 GKE 上部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 vLLM,在 GKE 上部署及管理容器化代理式 AI 應用程式,並透過 Llama 3.1 進行可擴充的推論作業。
使用 Agent Development Kit (ADK) 和 Agent Platform,在 GKE 上部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 Agent Platform,在 GKE 上部署及管理容器化代理式 AI 應用程式,並透過 Gemini 2.0 Flash 進行可擴充的推論。
透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型
瞭解如何透過 Hugging Face 的 Optimum TPU 服務架構,在 GKE 上使用 Tensor Processing Unit (TPU) 部署 LLM。
在 GKE 上提供 LLM 服務,並採用高可用性 GPU 佈建策略,提升成本效益
瞭解如何使用 DWS 彈性啟動,在 GKE 最佳化 LLM 服務工作負載的成本。
在 TPU 上使用 KubeRay 服務大型語言模型
瞭解如何使用 KubeRay 在 TPU 上提供大型語言模型 (LLM),以及這項做法如何協助提升模型效能。
使用 Hyperdisk ML 加速 AI/機器學習資料載入作業
瞭解如何使用 Hyperdisk ML,簡化及加快在 GKE 上載入 AI/機器學習模型權重的程序。
透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM
瞭解如何透過 PyTorch,在 GKE 上使用 Tensor Processing Unit (TPU) 和 JetStream 提供 LLM。
在 GKE 上使用 GPU 最佳化 LLM 推論的最佳做法
瞭解如何使用 vLLM 和 Text Generation Inference (TGI) 服務架構,在 GKE 上透過 GPU 盡量提升 LLM 推論效能。
在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊
瞭解 NVIDIA GPU 運算子適用的時機,以及如何在 GKE 上啟用 NVIDIA GPU 運算子。
在 TPU 上為 LLM 工作負載設定自動調度資源功能
瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過單一主機 JetStream 部署 Gemma LLM,藉此設定自動調度資源基礎架構。
在 GKE 上使用多個 GPU 微調 Gemma 開放模型
瞭解如何使用 Hugging Face Transformers 程式庫,透過 GKE 上的 GPU 微調 Gemma LLM。
在 GKE 上使用 TPU 部署 Ray Serve 應用程式和 Stable Diffusion 擴散模型
瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式,在 GKE 上部署及提供 Stable Diffusion 模型。
使用 GKE 為 GPU 上的 LLM 工作負載設定自動調度資源
瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過 Hugging Face Text Generation Interface (TGI) 服務架構部署 Gemma LLM,進而設定自動調度資源基礎架構。
在 A3 Mega 虛擬機器上使用 Megatron-LM 訓練 Llama2
瞭解如何在 A3 Mega 上執行以容器為基礎的 Megatron-LM PyTorch 工作負載。
在 GKE 中提供具備多個 GPU 的 LLM
瞭解如何使用 GKE 和多個 NVIDIA L4 GPU,提供 Llama 2 70B 或 Falcon 40B。
透過 Ray 在 L4 GPU 提供大型語言模型
瞭解如何在 GKE 中使用 Ray 架構,提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。
使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載
瞭解如何使用 JobSet 和 Kueue,在 GKE 上自動化調度管理多個 TPU Slice 的 Jax 工作負載。
使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 的 GPU 工作負載
瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM),觀察 GKE 上的 GPU 工作負載。
快速入門:在 GKE Standard 叢集上使用 GPU 訓練模型
本快速入門導覽課程說明如何在 GKE 中使用 GPU 部署訓練模型,並將預測結果儲存在 Cloud Storage 中。
在 GKE 上執行大規模機器學習作業
這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰,以及在 GKE 訓練及提供大型機器學習模型的最佳做法。
TensorFlow 搭配可加快 GPU 的 GKE Autopilot
這篇網誌文章提供逐步指南,說明如何建立、執行及拆解啟用 Tensorflow 的 Jupiter 筆記本。
在 GKE 上實作工作佇列系統,並在命名空間之間共用配額
本教學課程會使用 Kueue,說明如何實作 Job 排隊系統,以及在 GKE 上設定不同命名空間之間的工作負載資源和配額共用。
使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人
本教學課程說明如何將以檢索增強生成技術為基礎的大型語言模型應用程式,與您上傳至 Cloud Storage bucket 的 PDF 檔案整合。
使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料
本教學課程說明如何運用 BigQuery 儲存及處理資料、使用 Cloud Run 處理要求,以及使用 Gemma LLM 分析資料和進行預測,在 GKE 上分析大型資料集。
GKE 上 AI/機器學習推論的資料載入最佳做法
瞭解如何縮短 Google Kubernetes Engine 上機器學習應用程式的資料載入時間。
節省 GPU 費用:為 GKE 推論工作負載提供更智慧的自動調度資源功能
瞭解如何微調 GKE 的水平自動調度 Pod 資源功能,盡可能提高效率,進而降低 GPU 推論成本。
透過 GKE 中的 NVIDIA NIM 微服務,有效率地提供最佳化 AI 模型
瞭解如何在 GKE 輕鬆部署最先進的 NVIDIA NIM 微服務,加速執行 AI 工作負載。
透過 GKE 上的全新 Ray 運算子,加快 Ray 的實際運作速度
瞭解如何運用 GKE 上的 Ray 運算子簡化 AI/機器學習正式環境部署作業,進而提升效能及擴充性。
實用指南:在 GKE 上使用 GPU 時,如何盡量提高 LLM 服務處理量
瞭解如何盡量提高 GKE 上 GPU 的大型語言模型 (LLM) 服務處理量,包括基礎架構決策和模型伺服器最佳化。
在 Kubernetes 上使用 JAX 進行機器學習,並搭配 NVIDIA GPU
瞭解如何在 GKE 上使用 NVIDIA GPU 執行 JAX 多 GPU/多節點應用程式。
LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理,降低客戶服務成本
瞭解 LiveX AI 如何使用 GKE 建構 AI 代理,提升顧客滿意度並降低成本。
使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構
參考架構:使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain,透過檢索增強生成 (RAG) 執行生成式 AI 應用程式。
創新專利搜尋流程:IPRally 如何在 GKE 和 Ray 上運用 AI
IPRally 如何運用 GKE 和 Ray 建構可擴充的高效率機器學習平台,以更準確地加快專利搜尋速度。
搭配使用 Weights & Biases 平台與 Google Kubernetes Engine,簡化機器學習運作流程
使用 Weights & Biases 和 GKE,簡化模型開發及部署程序。
在全代管的 GKE 中執行 AI,現在提供新的運算選項、定價和資源預留功能
透過 GKE Autopilot,為 AI/機器學習工作負載取得更完善的 GPU 支援、提升效能,並降低價格。
Ordaōs Bio 如何在 GKE 上運用生成式 AI
Ordaōs Bio 是生物醫學研究和探索領域的頂尖 AI 加速器之一,致力於尋找腫瘤和慢性發炎疾病的新型免疫療法解決方案。
這間快速成長的新創公司如何透過 GKE 運用機器學習技術
瞭解矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能,大幅強化機器學習 (ML) 基礎架構。