「GKE 中的 AI/機器學習自動化調度管理」說明文件
Google Kubernetes Engine (GKE) 提供單一整合式平台,可自動化調度管理整個 AI/機器學習生命週期。這項服務提供強大且靈活的運算能力,可大幅提升訓練、推論和代理工作負載的效能,讓您簡化基礎架構並開始交付成果。GKE 的頂尖自動化調度管理功能提供下列優勢:
- 硬體加速器:存取及管理訓練和推論所需的高效能 GPU 和 TPU,並大規模使用。
- 堆疊彈性:與您已熟悉且信任的分散式運算、資料處理和模型服務架構整合。
- 簡化代管 Kubernetes:盡享代管平台的優點,自動化、調度資源及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。
歡迎參閱我們的網誌、教學課程和最佳做法,瞭解如何透過 GKE 最佳化 AI/機器學習工作負載。 如要進一步瞭解優點和可用功能,請參閱 GKE 的 AI/機器學習工作負載簡介。
使用價值 $300 美元的免費抵免額,開始概念驗證
- 運用最新的生成式 AI 模型和工具進行開發。
- 免費使用 Compute Engine 和 AI API 等 20 多項熱門產品。
- 不會自動收費,也無需綁約。
繼續探索 20 多項永久免費的產品。
存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。
說明文件資源
管理 AI 基礎架構和加速器
- 概念
- 概念
- 概念
- 最佳做法
- 最佳做法
- 最佳做法
- 快速入門
- 影片
- 影片
提供 AI 模型以進行推論
- 最佳做法
- 概念
- 操作說明
- 快速入門
- 教學課程
- 教學課程
- 教學課程
- 教學課程
相關資源
透過 Cloud Storage 和 GKE 最佳化 AI 和機器學習工作負載
瞭解如何使用 Cloud Storage FUSE,在 GKE 上為 AI 和 ML 工作負載提升效能。
透過 Managed Lustre 和 GKE 最佳化 AI 和機器學習工作負載
瞭解如何使用 Managed Lustre,在 GKE 上最佳化 AI 和機器學習工作負載的效能。
使用 Agent Sandbox 隔離 AI 程式碼執行作業
瞭解如何在 GKE 上安裝及執行 Agent Sandbox 控制器,並在叢集上部署沙箱環境,測試不受信任的殼層指令。
使用 Agent Development Kit (ADK) 和自行代管的 LLM,在 GKE 上部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 vLLM,在 GKE 上部署及管理容器化代理 AI 應用程式,並透過 Llama 3.1 進行可擴充的推論。
使用 Agent Development Kit (ADK) 和 Vertex AI,在 GKE 部署代理式 AI 應用程式
瞭解如何使用 Agent Development Kit (ADK) 和 Vertex AI,在 GKE 上部署及管理容器化代理 AI 應用程式,並透過 Gemini 2.0 Flash 進行可擴充的推論。
使用 Optimum TPU 在 GKE 上透過 TPU 提供開放原始碼模型
瞭解如何使用 Hugging Face 的 Optimum TPU 服務架構,在 GKE 上透過 Tensor Processing Unit (TPU) 部署 LLM。
在 GKE 上提供 LLM,並採用最具成本效益的高可用性 GPU 佈建策略
瞭解如何使用 DWS Flex-start,在 GKE 上提升 LLM 服務工作負載的成本效益。
在 TPU 上使用 KubeRay 服務大型語言模型
瞭解如何使用 KubeRay 在 TPU 上提供大型語言模型 (LLM),以及這項做法如何協助提升模型效能。
使用 Hyperdisk ML 加速載入 AI/機器學習資料
瞭解如何使用 Hyperdisk ML,簡化及加速在 GKE 上載入 AI/機器學習模型權重的程序。
透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM
瞭解如何透過 PyTorch,使用 GKE 上的 Tensor Processing Unit (TPU) 和 JetStream 提供 LLM。
在 GKE 上使用 GPU 最佳化 LLM 推論作業的最佳做法
瞭解如何使用 vLLM 和 Text Generation Inference (TGI) 服務架構,在 GKE 上透過 GPU 最佳化 LLM 推論效能。
在 GKE 上使用 NVIDIA GPU 運算子管理 GPU 堆疊
瞭解 NVIDIA GPU 運算子的使用時機,以及如何在 GKE 上啟用 NVIDIA GPU 運算子。
在 TPU 上為 LLM 工作負載設定自動調度資源功能
瞭解如何使用 GKE 水平 Pod 自動調度器 (HPA),透過單一主機 JetStream 部署 Gemma LLM,設定自動調度基礎架構。
在 GKE 上使用多個 GPU 微調 Gemma 開放模型
瞭解如何使用 Hugging Face Transformers 程式庫,透過 GKE 上的 GPU 微調 Gemma LLM。
在 GKE 上使用 TPU 部署搭載 Stable Diffusion 模型的 Ray Serve 應用程式
瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式,在 GKE 上部署及提供 Stable Diffusion 模型。
使用 GKE 為 GPU 上的 LLM 工作負載設定自動調度資源
瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過 Hugging Face Text Generation Interface (TGI) 服務架構部署 Gemma LLM,進而設定自動調度基礎架構。
在 A3 Mega 虛擬機器上,使用 Megatron-LM 訓練 Llama2
瞭解如何在 A3 Mega 上執行以容器為基礎的 Megatron-LM PyTorch 工作負載。
在 GKE 中提供具備多 GPU 的 LLM
瞭解如何使用 GKE 和多個 NVIDIA L4 GPU,提供 Llama 2 70B 或 Falcon 40B 模型。
透過 Ray 在 L4 GPU 提供大型語言模型
瞭解如何在 GKE 中使用 Ray 架構,提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。
使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載
瞭解如何使用 JobSet 和 Kueue,在 GKE 上多個 TPU 節點上自動化調度管理 Jax 工作負載。
使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 的 GPU 工作負載
瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM),觀察 GKE 上的 GPU 工作負載。
快速入門導覽課程:在 GKE 標準叢集上使用 GPU 訓練模型
本快速入門導覽課程說明如何在 GKE 中使用 GPU 部署訓練模型,並將預測結果儲存在 Cloud Storage 中。
在 GKE 上執行大規模機器學習作業
這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰,以及在 GKE 訓練及提供大型機器學習模型的最佳做法。
TensorFlow 搭配可加快 GPU 的 GKE Autopilot
這篇網誌文章提供逐步指南,說明如何建立、執行及拆解啟用 TensorFlow 的 Jupiter 筆記本。
在 GKE 上實作工作佇列系統,並在命名空間之間共用配額
本教學課程會使用 Kueue,說明如何實作 Job 排隊系統,以及在 GKE 上設定不同命名空間之間的工作負載資源和配額共用。
使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人
本教學課程說明如何整合以擷取擴增生成技術為基礎的大型語言模型應用程式,以及您上傳至 Cloud Storage bucket 的 PDF 檔案。
使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 資料
本教學課程說明如何運用 BigQuery 儲存及處理資料、使用 Cloud Run 處理要求,以及使用 Gemma LLM 分析資料和進行預測,在 GKE 上分析大型資料集。
GKE 上 AI/機器學習推論的資料載入最佳做法
瞭解如何縮短 Google Kubernetes Engine 上機器學習應用程式的資料載入時間。
節省 GPU 費用:為 GKE 推論工作負載提供更智慧的自動調度資源功能
瞭解如何微調 GKE 的水平 Pod 自動調度器,盡可能提高效率,進而降低 GPU 推論成本。
透過 GKE 中的 NVIDIA NIM 微服務,有效率地提供最佳化 AI 模型
瞭解如何在 GKE 輕鬆部署最先進的 NVIDIA NIM 微服務,加速執行 AI 工作負載。
透過 GKE 上的全新 Ray 運算子,加快 Ray 的實際運作速度
瞭解如何運用 GKE 上的 Ray Operator 簡化 AI/機器學習正式環境部署作業,進而提升效能及擴充性。
實用指南:在 GKE 上使用 GPU 時,盡量提高 LLM 服務輸送量
瞭解如何盡量提高 GKE 上 GPU 的大型語言模型 (LLM) 服務輸送量,包括基礎架構決策和模型伺服器最佳化。
在 Kubernetes 上使用 JAX 進行機器學習,並搭配 NVIDIA GPU
瞭解如何在 GKE 上使用 NVIDIA GPU 執行 JAX 多 GPU/節點應用程式。
簡化搜尋引擎:使用 GKE 和 Vertex AI Agent Builder 採取低程式碼做法
如何使用 Vertex AI Agent Builder、Vertex AI Search 和 GKE,透過 Google Cloud 建構搜尋引擎。
LiveX AI 透過在 GKE 和 NVIDIA AI 上訓練及提供服務的 AI 代理,降低客戶服務成本
瞭解 LiveX AI 如何使用 GKE 建構 AI 代理,提升顧客滿意度並降低成本。
使用 GKE 和 Cloud SQL 建構具備 RAG 功能的生成式 AI 應用程式基礎架構
參考架構:使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain,透過檢索增強生成 (RAG) 執行生成式 AI 應用程式。
創新專利搜尋流程:IPRally 如何在 GKE 和 Ray 上運用 AI
瞭解 IPRally 如何運用 GKE 和 Ray 建構可擴充的高效率機器學習平台,以更準確地加快專利搜尋速度。
搭配使用 Weights & Biases 平台與 Google Kubernetes Engine,簡化機器學習運作流程
使用 Weights & Biases 和 GKE,簡化模型開發及部署程序。
在全代管的 GKE 中執行 AI,現在提供新的運算選項、定價和資源預留功能
透過 GKE Autopilot,為 AI/機器學習工作負載取得更完善的 GPU 支援、提升效能,並降低價格。
Ordaōs Bio 如何在 GKE 上運用生成式 AI
Ordaōs Bio 是生物醫學研究和探索領域的頂尖 AI 加速器之一,致力於尋找腫瘤和慢性發炎疾病的新型免疫療法解決方案。
這間快速成長的新創公司如何透過 GKE 運用機器學習技術
瞭解矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能,大幅強化機器學習 (ML) 基礎架構。