Inférence Cloud TPU

La mise en service fait référence au processus de déploiement d'un modèle de machine learning entraîné dans un environnement de production, où il peut être utilisé pour l'inférence. L'inférence est compatible avec les TPU v5e et les versions ultérieures. Les SLO de latence sont une priorité pour la mise en service.

Ce document explique comment mettre en service un modèle sur un TPU à hôte unique. Les tranches TPU comportant huit puces ou moins disposent d'une VM ou d'un hôte TPU et sont appelées TPU à hôte unique. Pour en savoir plus sur l'inférence multi-hôtes, consultez Effectuer une inférence multi-hôtes à l'aide de Pathways.

Commencer

Vous avez besoin d'un compte Google Cloud et d'un projet pour utiliser Cloud TPU. Pour en savoir plus, consultez Configurer un environnement Cloud TPU.

Assurez-vous de disposer d'un quota suffisant pour le nombre de cœurs TPU que vous prévoyez d'utiliser pour l'inférence. Les TPU v5e utilisent des quotas distincts pour l'entraînement et la diffusion. Voici les quotas spécifiques à la mise en service pour les TPU v5e :

  • Ressources v5e à la demande : TPUv5 lite pod cores for serving per project per zone
  • Ressources v5e préemptives : Preemptible TPU v5 lite pod cores for serving per project per zone

Pour les autres versions de TPU, les charges de travail d'entraînement et de diffusion utilisent le même quota. Pour en savoir plus, consultez Quotas Cloud TPU.

Diffuser des LLM avec vLLM

vLLM est une bibliothèque Open Source conçue pour l'inférence et la mise en service rapides de grands modèles de langage (LLM). Cloud TPU s'intègre à vLLM à l'aide du plug-in tpu-inference, qui est compatible avec les modèles JAX et PyTorch. Pour en savoir plus, consultez le dépôt GitHub tpu-inference.

Pour obtenir des exemples d'utilisation de vLLM pour mettre en service un modèle sur des TPU, consultez les ressources suivantes :

Profilage

Une fois l'inférence configurée, vous pouvez utiliser des profileurs pour analyser les performances et l'utilisation des TPU. Pour en savoir plus sur le profilage, consultez les sections suivantes :