Documentation sur l'orchestration IA/ML sur GKE
Google Kubernetes Engine (GKE) fournit une plate-forme unique et unifiée pour orchestrer l'ensemble de votre cycle de vie d'IA/de ML. Elle vous offre la puissance et la flexibilité nécessaires pour booster vos charges de travail d'entraînement, d'inférence et agentiques. Vous pouvez ainsi rationaliser votre infrastructure et commencer à obtenir des résultats. Les fonctionnalités d'orchestration de pointe de GKE offrent les avantages suivants :
- Accélérateurs matériels : accédez aux GPU et TPU puissants dont vous avez besoin pour l'entraînement et l'inférence à grande échelle, et gérez-les.
- Flexibilité de la pile : intégrez les frameworks de calcul distribué, de traitement des données et de diffusion de modèles que vous connaissez et auxquels vous faites déjà confiance.
- Simplicité de Kubernetes géré : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/ML tout en conservant la flexibilité.
Explorez nos blogs, tutoriels et bonnes pratiques pour découvrir comment GKE peut optimiser vos charges de travail d'IA/de ML. Pour en savoir plus sur les avantages et les fonctionnalités disponibles, consultez la présentation des charges de travail d'IA/de ML sur GKE.
Démarrez votre démonstration de faisabilité avec 300 $ de crédits inclus
- Accès à Gemini 2.0 Flash Thinking
- Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
- Aucuns frais automatiques, aucun engagement
Continuez à explorer Google Cloud avec plus de 20 produits toujours disponibles sans frais
Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.
Ressources de documentation
Gérer l'infrastructure et les accélérateurs d'IA
- Concept
- Concept
- Concept
- Bonne pratique
- Vidéo
- Vidéo
- Guide de démarrage rapide
- Bonne pratique
Entraîner des modèles d'IA à grande échelle
- Guide de démarrage rapide
- Guide de démarrage rapide
- Guide de démarrage rapide
- Procédures
- Tutoriel
Diffuser des modèles d'IA pour l'inférence
- Bonne pratique
- Concept
- Procédures
- Tutoriel
- Tutoriel
- Tutoriel
- Tutoriel
- Tutoriel
Ressources associées
Déployer une application d'IA agentive sur GKE avec l'Agent Development Kit (ADK) et un LLM auto-hébergé
Découvrez comment déployer et gérer une application d'IA agentique conteneurisée sur GKE, à l'aide de l'Agent Development Kit (ADK) et de vLLM pour une inférence évolutive avec Llama 3.1.
Déployer une application d'IA agentive sur GKE avec Agent Development Kit (ADK) et Vertex AI
Découvrez comment déployer et gérer une application d'IA agentique conteneurisée sur GKE à l'aide de l'Agent Development Kit (ADK) et de Vertex AI pour une inférence évolutive avec Gemini 2.0 Flash.
Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU
Découvrez comment déployer des LLM à l'aide de Tensor Processing Units (TPU) sur GKE avec le framework de diffusion Optimum TPU de Hugging Face.
Créer et utiliser un volume basé sur une instance Parallelstore dans GKE
Découvrez comment créer du stockage à l'aide d'instances Parallelstore entièrement gérées et y accéder en tant que volumes. Le pilote CSI est optimisé pour les charges de travail d'entraînement d'IA/de ML impliquant des fichiers de petite taille et des lectures aléatoires.
Diffuser des LLM sur GKE avec une stratégie de provisionnement de GPU économique et à haute disponibilité
Découvrez comment optimiser les coûts des charges de travail de diffusion de LLM sur GKE à l'aide de DWS Flex-start.
Diffuser des grands modèles de langage avec KubeRay sur TPU
Découvrez comment diffuser des grands modèles de langage (LLM) avec KubeRay sur des TPU, et comment cela peut vous aider à améliorer les performances de vos modèles.
Accélération du chargement des données d'IA/ML avec Hyperdisk ML
Découvrez comment simplifier et accélérer le chargement des pondérations de modèles d'IA/ML sur GKE à l'aide d'Hyperdisk ML.
Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch
Découvrez comment diffuser un LLM à l'aide de Tensor Processing Units (TPU) sur GKE avec JetStream via PyTorch.
Bonnes pratiques pour optimiser l'inférence LLM avec des GPU sur GKE
Découvrez les bonnes pratiques pour optimiser les performances d'inférence des LLM avec des GPU sur GKE à l'aide des frameworks de diffusion vLLM et Text Generation Inference (TGI).
Gérer la pile de GPU avec l'opérateur GPU NVIDIA sur GKE
Découvrez quand utiliser l'opérateur GPU NVIDIA et comment l'activer sur GKE.
Configurer l'autoscaling pour les charges de travail LLM sur les TPU
Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma à l'aide de JetStream à hôte unique.
Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU sur GKE
Découvrez comment affiner un LLM Gemma à l'aide de GPU sur GKE avec la bibliothèque Hugging Face Transformers.
Déployer une application Ray Serve avec un modèle Stable Diffusion sur GKE avec des TPU
Découvrez comment déployer et diffuser un modèle Stable Diffusion sur GKE à l'aide de TPU, de Ray Serve et du module complémentaire Ray Operator.
Configurer l'autoscaling pour les charges de travail LLM sur les GPU avec GKE
Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma avec le framework de diffusion de l'interface de génération de texte (TGI) de Hugging Face.
Entraîner Llama2 avec Megatron-LM sur des machines virtuelles A3 Mega
Découvrez comment exécuter une charge de travail PyTorch Megatron-LM basée sur un conteneur sur A3 Mega.
Déployer des charges de travail GPU dans Autopilot
Découvrez comment demander des accélérateurs matériels (GPU) dans vos charges de travail GKE Autopilot.
Diffuser un LLM avec plusieurs GPU dans GKE
Découvrez comment diffuser Llama 2 70B ou Falcon 40B à l'aide de plusieurs GPU NVIDIA L4 avec GKE.
Premiers pas avec Ray sur GKE
Découvrez comment utiliser facilement Ray sur GKE en exécutant une charge de travail sur un cluster Ray.
Diffuser un LLM sur des GPU L4 avec Ray
Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.
Orchestrer des charges de travail TPU Multislice à l'aide de JobSet et de Kueue
Découvrez comment orchestrer une charge de travail Jax sur plusieurs tranches de TPU sur GKE à l'aide de JobSet et Kueue.
Surveiller les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA
Découvrez comment observer les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA.
Guide de démarrage rapide : Entraîner un modèle avec des GPU sur des clusters GKE Standard
Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans GKE et stocker les prédictions dans Cloud Storage.
Exécuter des modèles de machine learning à grande échelle sur GKE
Cette vidéo explique comment GKE permet de résoudre les problèmes courants liés à l'entraînement de modèles d'IA volumineux à grande échelle, ainsi que les bonnes pratiques concernant l'entraînement et la diffusion de modèles de machine learning à grande échelle sur GKE.
TensorFlow sur GKE Autopilot avec l'accélération GPU
Cet article de blog est un guide par étapes pour la création, l'exécution et la suppression d'un notebook Jupiter reposant sur Tensorflow.
Implémenter un système de mise en file d'attente de jobs avec un partage de quota entre espaces de noms dans GKE
Ce tutoriel utilise Kueue pour vous montrer comment mettre en œuvre un système de mise en file d'attente de tâches et configurer le partage des ressources et des quotas de charges de travail entre différents espaces de noms sur GKE.
Créer un chatbot RAG avec GKE et Cloud Storage
Ce tutoriel explique comment intégrer une application de grand modèle de langage basée sur la génération augmentée par récupération avec des fichiers PDF que vous importez dans un bucket Cloud Storage.
Analyser des données sur GKE à l'aide de BigQuery, Cloud Run et Gemma
Ce tutoriel vous explique comment analyser de grands ensembles de données sur GKE en tirant parti de BigQuery pour le stockage et le traitement des données, de Cloud Run pour la gestion des requêtes et d'un LLM Gemma pour l'analyse et les prédictions des données.
Prétraitement distribué des données avec GKE et Ray : mise à l'échelle pour l'entreprise
Découvrez comment utiliser GKE et Ray pour prétraiter efficacement de grands ensembles de données pour le machine learning.
Bonnes pratiques de chargement de données pour l'inférence d'IA/ML sur GKE
Découvrez comment accélérer les temps de chargement des données pour vos applications de machine learning sur Google Kubernetes Engine.
Économisez sur les GPU : autoscaling plus intelligent pour vos charges de travail d'inférence GKE
Découvrez comment optimiser vos coûts d'inférence GPU en affinant l'Autoscaler horizontal de pods de GKE pour une efficacité maximale.
Fournissez efficacement des modèles d'IA optimisés avec les microservices NVIDIA NIM sur GKE
Découvrez comment déployer facilement des microservices NVIDIA NIM de pointe sur GKE et accélérer vos charges de travail d'IA.
Accélérer Ray en production avec le nouvel opérateur Ray sur GKE
Découvrez comment Ray Operator sur GKE simplifie vos déploiements de production d'IA/de ML, en améliorant les performances et la scalabilité.
Maximiser le débit de diffusion de LLM pour les GPU sur GKE : guide pratique
Découvrez comment maximiser le débit de diffusion de grands modèles de langage (LLM) pour les GPU sur GKE, y compris les décisions d'infrastructure et les optimisations de serveur de modèle.
Bonnes pratiques pour l'exécution de charges de travail par lot sur GKE
Découvrez comment créer et optimiser des plates-formes de traitement par lot sur GKE.
Stockage de modèles d'IA et de ML hautes performances grâce à la compatibilité avec les disques SSD locaux sur GKE
Découvrez comment utiliser les disques SSD locaux pour fournir un stockage d'IA/ML hautes performances sur GKE.
Machine learning à l'aide de JAX sur Kubernetes avec des GPU NVIDIA
Découvrez comment exécuter des applications JAX multi-GPU et multinœuds sur GKE avec des GPU NVIDIA.
Des moteurs de recherche simplifiés : une approche low-code avec GKE et Vertex AI Agent Builder
Découvrez comment créer un moteur de recherche avec Google Cloud, à l'aide de Vertex AI Agent Builder, Vertex AI Search et GKE.
LiveX AI réduit les coûts du service client grâce à des agents d'IA entraînés et diffusés sur GKE et l'IA de NVIDIA
Découvrez comment LiveX AI utilise GKE pour créer des agents d'IA qui améliorent la satisfaction client et réduisent les coûts.
Infrastructure pour une application d'IA générative compatible avec RAG à l'aide de GKE et Cloud SQL
Architecture de référence pour l'exécution d'une application d'IA générative avec génération augmentée de récupération (RAG) à l'aide de GKE, Cloud SQL, Ray, Hugging Face et LangChain.
Architecture de référence pour une plate-forme de traitement par lot sur GKE
Architecture de référence pour une plate-forme de traitement par lot sur GKE en mode Standard utilisant Kueue pour gérer les quotas de ressources.
Innovation dans la recherche de brevets : comment IPRally exploite l'IA avec GKE et Ray
Découvrez comment IPRally utilise GKE et Ray pour créer une plate-forme de ML évolutive et efficace afin d'améliorer la vitesse et la précision des recherches de brevets.
Présentation détaillée des performances de Gemma sur Google Cloud
Utilisez Gemma sur les GPU Cloud et Cloud TPU pour améliorer l'efficacité d'inférence et d'entraînement sur GKE.
Présentation détaillée de Gemma sur GKE : de nouvelles innovations pour diffuser des modèles d'IA générative ouverts.
Utilisez les modèles ouverts Gemma de pointe pour créer des applications d'IA portables et personnalisables, puis les déployer sur GKE.
Planification avancée pour l'IA et le ML avec Ray et Kueue
Orchestrez des applications Ray dans GKE avec KubeRay et Kueue.
Sécuriser Ray sur Google Kubernetes Engine
Appliquez des insights de sécurité et des techniques de renforcement pour entraîner des charges de travail d'IA/de ML à l'aide de Ray sur GKE.
Choisir son stockage pour les charges de travail d'IA et de ML dans Google Cloud
Sélectionnez la meilleure combinaison d'options de stockage pour les charges de travail d'IA et de ML sur Google Cloud.
L'installation automatique des pilotes simplifie l'utilisation de GPU NVIDIA dans GKE
Installez automatiquement les pilotes de GPU Nvidia dans GKE.
Accélérez votre transition vers l'IA générative avec le framework NVIDIA NeMo sur GKEE
Entraînez des modèles d'IA générative à l'aide de GKE et du framework NVIDIA NeMo.
Pourquoi utiliser GKE pour vos charges de travail Ray AI ?
Améliorez l'évolutivité, la rentabilité, la tolérance aux pannes, l'isolation et la portabilité en utilisant GKE pour les charges de travail Ray.
Simplifier le MLOps à l'aide des pondérations et des biais avec Google Kubernetes Engine
Simplifiez le processus de développement et de déploiement de modèles à l'aide de Weights & Biases avec GKE.
Exécution de l'IA sur un service GKE entièrement géré, désormais avec de nouvelles options de calcul, de nouveaux tarifs et de nouvelles réservations de ressources
Bénéficiez d'une compatibilité GPU et de performances améliorées, ainsi que de tarifs réduits pour les charges de travail d'IA/de ML avec GKE Autopilot.
Comment SEEN a multiplié ses résultats par 89 et réduit ses coûts de GPU de 66 % grâce à GKE
Une startup adapte la sortie vidéo personnalisée à l'aide de GKE.
Comment Spotify libère le potentiel d'innovation en matière de ML avec Ray et GKE
Comment Ray transforme le développement de ML chez Spotify
Comment Ordaōs Bio exploite l'IA générative sur GKE
Ordaōs Bio, l'un des principaux accélérateurs d'IA pour la recherche et la découverte biomédicales, recherche des solutions à de nouvelles immunotherapies en oncologie et aux maladies inflammatoires chroniques.
GKE pour une start-up en pleine croissance grâce au ML
Découvrez comment Moloco, une start-up de la Silicon Valley, a exploité la puissance de GKE et de Tensor Flow Enterprise pour optimiser son infrastructure de machine learning (ML).
Améliorer le temps de lancement de Stable Diffusion sur GKE par quatre
Découvrez comment améliorer le temps de lancement de Stable Diffusion sur GKE.
Exemples Google Kubernetes Engine (GKE)
Affichez les exemples d'applications utilisés dans les tutoriels officiels sur les produits GKE.
Exemples GKE AI Labs
Consultez des exemples expérimentaux pour exploiter GKE et accélérer vos initiatives d'IA/ML.
Plates-formes accélérées GKE
Consultez les architectures de référence et les solutions pour déployer des charges de travail accélérées sur GKE.