Diffuser des modèles ouverts à l'aide de vLLM TPU sur Cloud TPU

vLLM TPU est un framework de diffusion très efficace pour les grands modèles de langage (LLM) optimisé pour le matériel Cloud TPU. Il est optimisé par tpu-inference, un nouveau plug-in matériel expressif et puissant qui unifie JAX et PyTorch sous un même chemin d'abaissement.

Pour en savoir plus sur ce framework, consultez l'article de blog sur vLLM TPU.

vLLM TPU est disponible dans Model Garden via le déploiement en un clic et le notebook.

Premiers pas dans Model Garden

Le conteneur de diffusion vLLM TPU est intégré à Model Garden. Vous pouvez accéder à cette solution de diffusion via le déploiement en un clic et les exemples de notebooks Colab Enterprise pour divers modèles.

Utiliser le déploiement en un clic

Vous pouvez déployer un point de terminaison Vertex AI personnalisé avec vLLM TPU à l'aide de la fiche de modèle pour les modèles suivants :

Étapes :

  1. Accédez à la page de la fiche de modèle (par exemple, google/gemma-3-27b-it), puis cliquez sur Déployer le modèle pour ouvrir le panneau de déploiement.

  2. Sous ID de ressource, sélectionnez la variante de modèle que vous souhaitez déployer.

  3. Pour la variante de modèle que vous souhaitez déployer, cliquez sur Modifier les paramètres et sélectionnez l'option vLLM TPU sous Spécifications de la machine pour le déploiement.

  4. Cliquez sur Déployer en bas du panneau pour lancer le processus de déploiement. Vous recevrez une notification par e-mail lorsque le point de terminaison sera prêt.

Utiliser le notebook Colab Enterprise

Pour plus de flexibilité et de personnalisation, vous pouvez utiliser les exemples de notebooks Colab Enterprise pour déployer un point de terminaison Vertex AI avec vLLM TPU à l'aide du SDK Vertex AI pour Python.

  1. Ouvrez le notebook vLLM TPU dans Colab Enterprise.

  2. Parcourez le notebook pour déployer un modèle avec vLLM TPU et envoyez des requêtes de prédiction au point de terminaison.

Demander un quota Cloud TPU

Dans Model Garden, le quota par défaut est de 16 puces Cloud TPU v6e dans la région europe-west4. Ces quotas s'appliquent aux déploiements en un clic et aux déploiements de notebooks Colab Enterprise. Si votre quota par défaut est de 0 ou si vous souhaitez demander un quota plus élevé, consultez Demander un ajustement de quota.