À propos de l'inférence de modèles d'IA/ML sur GKE

Cette page décrit les principaux concepts, avantages et étapes pour exécuter des charges de travail d'inférence de modèles d'IA/ML générative sur Google Kubernetes Engine (GKE), à l'aide des fonctionnalités d'IA générative de GKE.

Le service d'inférence est essentiel pour déployer vos modèles d'IA générative dans des applications réelles. GKE fournit une plate-forme robuste et évolutive pour gérer vos charges de travail conteneurisées, ce qui en fait un choix intéressant pour diffuser vos modèles en développement ou en production. Avec GKE, vous pouvez utiliser les fonctionnalités de Kubernetes pour l'orchestration, le scaling et la haute disponibilité afin de déployer et de gérer efficacement vos services d'inférence.

Conscient des exigences spécifiques de l'inférence d'IA/ML, Google Cloud a introduit les fonctionnalités d'IA générative de GKE, une suite de fonctionnalités spécialement conçues pour améliorer et optimiser le service d'inférence sur GKE. Pour en savoir plus sur les fonctionnalités spécifiques, consultez Fonctionnalités d'IA générative de GKE.

Premiers pas avec l'inférence de modèles d'IA/de ML sur GKE

Vous pouvez commencer à explorer l'inférence de modèles d'IA/ML sur GKE en quelques minutes. Vous pouvez utiliser la version gratuite de GKE, qui vous permet de commencer à utiliser Kubernetes sans encourir les frais de gestion des clusters.

  1. Accéder à la page GKE AI/ML dans la Google Cloud console

  2. Suivez les étapes de la section Déployer des modèles pour déployer un modèle et un serveur de modèles conteneurisés.
  3. Consultez la présentation des bonnes pratiques d'inférence sur GKE, qui fournit des conseils et des ressources pour planifier et exécuter vos charges de travail d'inférence sur GKE.

Terminologie

Cette page utilise la terminologie suivante liée à l'inférence sur GKE :

  • Inférence : processus d'exécution d'un modèle d'IA générative, tel qu'un grand modèle linguistique ou un modèle de diffusion, dans un cluster GKE pour générer du texte, des embeddings ou d'autres sorties à partir de données d'entrée. L'inférence de modèle sur GKE utilise des accélérateurs pour gérer efficacement les calculs complexes pour le traitement en temps réel ou par lot.
  • Modèle : modèle d'IA générative qui a appris des schémas à partir de données et qui est utilisé pour l'inférence. Les modèles varient en taille et en architecture, des plus petits modèles spécifiques à un domaine aux réseaux de neurones massifs de plusieurs milliards de paramètres, optimisés pour diverses tâches linguistiques.
  • Serveur de modèle : service conteneurisé chargé de recevoir les requêtes d'inférence et de renvoyer les inférences. Ce service peut être une application Python ou une solution plus robuste comme vLLM, JetStream, TensorFlow Serving ou Triton Inference Server. Le serveur de modèle gère le chargement des modèles en mémoire et exécute les calculs sur les accélérateurs pour renvoyer efficacement les inférences.
  • Accélérateur : matériel spécialisé, tel que les processeurs graphiques (GPU) de NVIDIA et les Tensor Processing Units (TPU) de Google, qui peuvent être associés aux nœuds GKE pour accélérer les calculs, en particulier pour les tâches d'entraînement et d'inférence.
  • Quantification : technique utilisée pour réduire la taille des modèles d'IA/ML et améliorer la vitesse d'inférence en convertissant les pondérations et les activations des modèles de types de données de précision supérieure en types de données de précision inférieure.

Avantages de GKE pour l'inférence

L'inférence sur GKE présente plusieurs avantages :

  • Rapport prix/performances efficace : profitez de la valeur et de la vitesse dont vous avez besoin pour vos besoins de diffusion d'inférences. GKE vous permet de choisir parmi une gamme d'accélérateurs puissants (GPU et TPU). Vous ne payez donc que les performances dont vous avez besoin.
  • Déploiement plus rapide : accélérez votre délai de mise sur le marché grâce aux bonnes pratiques, aux qualifications et aux bonnes pratiques personnalisées fournies par les fonctionnalités d'IA générative de GKE.
  • Performances évolutives : effectuer un scaling horizontal les performances avec la surveillance prédéfinie en utilisant GKE Inference Gateway, l'autoscaling horizontal des pods (AHP) et des métriques personnalisées. Vous pouvez exécuter un éventail de modèles pré-entraînés ou personnalisés, allant de 8 milliards à 671 milliards de paramètres.
  • Portabilité complète : profitez d'une portabilité complète grâce à des normes ouvertes. Google contribue aux principales API Kubernetes, y compris Gateway et LeaderWorkerSet. Toutes les API sont portables avec les distributions Kubernetes.
  • Compatibilité avec l'écosystème : développez-vous sur l'écosystème robuste de GKE, qui est compatible avec des outils tels que Kueue pour la gestion et la mise en file d'attente avancées des ressources, et Ray pour le calcul distribué, afin de faciliter l'entraînement et l'inférence de modèles de manière évolutive et efficace.

Fonctionnement de l'inférence sur GKE

Cette section décrit, de manière générale, les étapes à suivre pour utiliser GKE pour le service d'inférence :

  1. Conteneurisez votre modèle : Conteneuriser une application consiste à créer une image de conteneur, qui est un package exécutable incluant tout ce qui est nécessaire à l'exécution de l'application : code, environnement d'exécution, outils système, bibliothèques système et paramètres. Une application simple peut être conteneurisée en une seule unité, tandis qu'une application plus complexe peut être divisée en plusieurs composants conteneurisés. Déployez un modèle en conteneurisant le serveur de modèle (tel que vLLM) et en chargeant les pondérations du modèle à partir de Cloud Storage ou d'un dépôt tel que Hugging Face. Lorsque vous utilisez le guide de démarrage rapide de GKE Inference, l'image conteneurisée est automatiquement gérée dans le fichier manifeste.

  2. Créez un cluster GKE : créez un cluster GKE pour héberger votre déploiement. Choisissez Autopilot pour une expérience gérée ou Standard pour la personnalisation. Configurez la taille du cluster, les types de nœuds et les accélérateurs. Pour une configuration optimisée, utilisez le guide de démarrage rapide sur l'inférence.

  3. Déployez votre modèle en tant que déploiement Kubernetes : créez un déploiement Kubernetes pour gérer votre service d'inférence. Un déploiement est un objet de l'API Kubernetes qui vous permet d'exécuter plusieurs instances dupliquées de pods répartis entre les nœuds d'un cluster. Spécifiez l'image Docker, les répliques et les paramètres. Kubernetes extrait l'image et exécute vos conteneurs sur les nœuds du cluster GKE. Configurez les pods avec votre serveur de modèle et votre modèle, y compris les adaptateurs LoRA si nécessaire.

  4. Exposez votre service d'inférence : rendez votre service d'inférence accessible en créant un service Kubernetes pour fournir un point de terminaison réseau à votre déploiement. Utilisez Inference Gateway pour un équilibrage de charge et un routage intelligents, spécialement conçus pour les charges de travail d'inférence d'IA générative. Utilisez Inference Gateway pour un équilibrage de charge intelligent adapté aux charges de travail d'IA générative, ou consultez la comparaison des stratégies d'équilibrage de charge pour choisir l'option la mieux adaptée à vos besoins.

  5. Gérer les requêtes d'inférence : envoyez les données des clients de votre application au point de terminaison de votre service, dans le format attendu (JSON, gRPC). Si vous utilisez un équilibreur de charge, il distribue les requêtes aux répliques de modèle. Le serveur de modèle traite la requête, exécute le modèle et renvoie l'inférence.

  6. Faites évoluer et surveillez votre déploiement d'inférence : faites évoluer l'inférence avec AHP pour ajuster automatiquement les répliques en fonction du processeur ou de la latence. L'autoscaler horizontal de pods (AHP, Horizontal Pod Autoscaler) est un contrôleur Kubernetes qui augmente ou diminue automatiquement le nombre de pods dans une charge de travail (comme un déploiement) en fonction de métriques observées, telles que l'utilisation du processeur ou des métriques personnalisées. Utilisez le guide de démarrage rapide sur l'inférence pour obtenir des recommandations de scaling générées automatiquement. Pour suivre les performances, utilisez Cloud Monitoring et Cloud Logging avec l'observabilité prédéfinie, y compris les tableaux de bord pour les serveurs de modèles populaires tels que vLLM.

Pour obtenir des exemples détaillés utilisant des modèles, des serveurs de modèles et des accélérateurs spécifiques, consultez Exemples d'inférence.

Fonctionnalités d'IA générative de GKE

Vous pouvez utiliser ces fonctionnalités ensemble ou individuellement pour relever les principaux défis liés à la diffusion de modèles d'IA générative et à l'amélioration de l'utilisation des ressources dans votre environnement GKE, sans frais supplémentaires.

Nom Description Avantages
Guide de démarrage rapide de GKE Inference

Analysez les performances et la rentabilité de vos charges de travail d'inférence. Spécifiez vos besoins commerciaux et obtenez des bonnes pratiques personnalisées pour la combinaison d'accélérateurs, de configurations de scaling et de stockage, et de serveurs de modèles qui répond le mieux à vos besoins. Vous pouvez accéder à ce service avec la gcloud CLI et la console Google Cloud .

Pour en savoir plus, consultez Analyser les performances et les coûts de la diffusion de modèles avec le guide de démarrage rapide GKE Inference.

  • Gagnez du temps en automatisant les étapes initiales de sélection et de configuration de votre infrastructure.
  • Vous permet de conserver un contrôle total sur votre configuration Kubernetes pour l'affiner davantage.
GKE Inference Gateway

Obtenez un routage basé sur des métriques, comme l'utilisation du cache KV, pour une meilleure latence.

Pour en savoir plus, consultez À propos de GKE Inference Gateway.

  • Partagez des modèles affinés qui utilisent des fichiers LoRA, avec une sélection de points de terminaison basée sur l'affinité pour une rentabilité optimale.
  • Obtenez une haute disponibilité en accédant de manière dynamique à la capacité des GPU et des TPU dans plusieurs régions.
  • Renforcez la sécurité de vos modèles grâce aux règles du module complémentaire Model Armor.
Accélérateurs de chargement des pondérations de modèle

Accédez rapidement aux données dans Cloud Storage à l'aide de Cloud Storage FUSE avec la mise en cache et les téléchargements parallèles. Pour en savoir plus sur l'utilisation de Cloud Storage FUSE pour les charges de travail d'IA/ML, consultez l'architecture de référence.

Google Cloud Managed Lustre est un système de fichiers parallèle entièrement géré et hautes performances, optimisé pour l'IA,qui peut être associé à 10 000 pods ou plus. Pour en savoir plus sur l'utilisation de Managed Lustre pour les charges de travail d'IA/ML, consultez l'architecture de référence.

Google Cloud Hyperdisk ML est un disque en réseau qui peut être associé à un maximum de 2 500 pods.

  • Optimisez le temps de démarrage de l'inférence en minimisant la latence de chargement du modèle de pondération sur GKE.
  • Pour les déploiements avec un scaling de nœuds limité, envisagez d'utiliser Cloud Storage FUSE pour installer les pondérations du modèle.
  • Pour les charges de travail d'inférence qui exigent des performances de effectuer un scaling horizontal cohérentes, Google Cloud Managed Lustre permet d'accéder aux fichiers à haut débit et à faible latence depuis plusieurs pods simultanément.
  • Pour les scénarios à grande échelle qui exigent un accès cohérent et à faible latence aux pondérations de grands modèles, Google Cloud Hyperdisk ML offre une solution de stockage par blocs dédiée.

Métriques de performances d'inférence

Pour optimiser vos charges de travail d'inférence, il est important de comprendre comment mesurer leurs performances. Le tableau suivant décrit les métriques clés pour évaluer les performances d'inférence sur GKE.

Indicateurs de benchmark Métrique (unité) Description
Latence Délai avant le premier jeton (TTFT) (ms) Temps nécessaire pour générer le premier jeton d'une requête.
Délai normalisé par jeton de sortie (NTPOT) (ms) Latence des requêtes normalisée par le nombre de jetons de sortie, mesurée en request_latency / total_output_tokens.
Temps par jeton de sortie (TPOT) (ms) Temps nécessaire pour générer un jeton de sortie, mesuré en (request_latency - time_to_first_token) / (total_output_tokens - 1).
Latence entre les jetons (ms) Mesure la latence entre deux générations de jetons de sortie. Contrairement à TPOT, qui mesure la latence pour l'ensemble de la requête, ITL mesure le temps nécessaire pour générer chaque jeton de sortie individuel. Ces mesures individuelles sont ensuite agrégées pour produire des valeurs moyennes, médianes et de centiles telles que p90.
Latence de la requête (ms) Temps de bout en bout pour traiter une demande.
Débit Requêtes par seconde Nombre total de requêtes que vous diffusez par seconde. Notez que cette métrique n'est peut-être pas un moyen fiable de mesurer le débit des LLM, car elle peut varier considérablement en fonction de la longueur du contexte.
Jetons de sortie par seconde Métrique courante mesurée sous la forme total_output_tokens_generated_by_server / elapsed_time_in_seconds.
Jetons d'entrée par seconde Mesuré en tant que total_input_tokens_generated_by_server / elapsed_time_in_seconds.
Jetons par seconde Mesuré en tant que total_tokens_generated_by_server / elapsed_time_in_seconds. Cette métrique comptabilise les jetons d'entrée et de sortie, ce qui vous aide à comparer les charges de travail avec des temps de préremplissage élevés par rapport à celles avec des temps de décodage élevés.

Planifier l'inférence

Pour déployer correctement l'inférence, vous devez planifier soigneusement plusieurs domaines clés, y compris la rentabilité, les performances et la disponibilité des ressources. Pour obtenir des recommandations détaillées sur la façon de créer une plate-forme d'inférence évolutive, performante et économique, consultez Présentation des bonnes pratiques d'inférence sur GKE.

Essayer des exemples d'inférence

Découvrez des exemples de déploiement GKE pour les modèles d'IA générative, les accélérateurs et les serveurs de modèles. Si vous débutez, nous vous recommandons de consulter le tutoriel Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec vLLM.

Vous pouvez également rechercher un tutoriel par mot clé :

Accélérateur Serveur de modèles Tutoriel
GPU vLLM Diffuser des LLM tels que DeepSeek-R1 671B ou Llama 3.1 405B sur GKE
GPU vLLM Diffuser des modèles ouverts Gemma à l'aide de GPU sur GKE avec vLLM
GPU vLLM Diffuser un LLM avec GKE Inference Gateway
GPU vLLM Diffuser des LLM ouverts sur GKE avec une architecture préconfigurée
GPU Ray Serve Diffuser un LLM sur des GPU L4 avec Ray
GPU TGI Diffuser un LLM avec plusieurs GPU dans GKE
GPU TorchServe Diffuser T5 sur GKE avec TorchServe
TPU vLLM Diffuser un LLM à l'aide de TPU Trillium sur GKE avec vLLM
TPU vLLM Diffuser un LLM à l'aide de TPU sur GKE avec KubeRay
TPU MaxDiffusion Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion
TPU vLLM Diffuser des LLM à l'aide de TPU multi-hôtes
TPU vLLM Diffuser des LLM ouverts sur des TPU avec une architecture préconfigurée

Étapes suivantes

  • Consultez le portail d'orchestration d'IA/ML sur GKE pour découvrir nos guides officiels, nos tutoriels et nos cas d'utilisation pour exécuter des charges de travail d'IA/ML sur GKE.
  • Explorez des exemples expérimentaux pour exploiter GKE et accélérer vos initiatives d'IA/ML dans GKE AI Labs.