Choisir une option de diffusion de modèle ouvert

Vertex AI propose plusieurs façons de diffuser des grands modèles de langage ouverts, y compris Llama, DeepSeek, Mistral et Qwen, dans Google Cloud. Ce document présente les offres Vertex AI pour la mise en service de modèles ouverts et vous aide à choisir l'option adaptée à votre cas d'utilisation.

Options de diffusion

Vertex AI propose les options suivantes pour la diffusion de modèles ouverts. Chacune de ces options offre une haute disponibilité et inclut les bonnes pratiques de sécurité Google Cloud par défaut :

Quand utiliser MaaS ?

Envisagez d'utiliser MaaS dans les cas suivants :

  • Développement et prototypage rapides : MaaS vous aide à intégrer rapidement les capacités des LLM dans les applications. Cela est particulièrement utile pour l'exploration initiale, le prototypage rapide et lorsque le délai de mise sur le marché est un objectif clé.
  • Réduction des coûts opérationnels : choisissez MaaS si votre équipe souhaite se concentrer sur la logique d'application plutôt que sur la gestion de l'infrastructure. Google gère l'ensemble du provisionnement, du scaling et de la maintenance des GPU/TPU, ce qui profite aux équipes axées sur le développement d'applications plutôt que sur le MLOps ou le DevOps.
  • Trafic variable : le modèle de paiement à l'utilisation est compatible avec les charges de travail ou les applications expérimentales présentant des schémas de trafic imprévisibles et irréguliers.
  • Utilisation prête à l'emploi : utilisez une API gérée pour les applications qui ont besoin de performances cohérentes, mais qui ne nécessitent pas de personnalisation approfondie du modèle sous-jacent ni de la pile de diffusion.
  • Sécurité et conformité : MaaS permet aux entreprises d'utiliser les fonctionnalités de sécurité et de conformité de niveau entreprise intégrées à Google Cloud.
  • Utilisation de modèles standards : utilisez MaaS lorsqu'un modèle de base standard et non personnalisé répond à vos besoins.

Quand utiliser des modèles déployés automatiquement dans Model Garden ?

Les options de déploiement automatique incluent le déploiement à partir de Model Garden à l'aide de conteneurs prédéfinis ou personnalisés. Envisagez le déploiement automatique dans les scénarios clés suivants :

  • Pondérations personnalisées et modèles affinés : le déploiement automatique est le meilleur choix lorsque votre application nécessite l'utilisation de pondérations personnalisées ou d'une version affinée d'un modèle. Il offre une plus grande flexibilité pour déployer des modèles adaptés à vos besoins spécifiques. Vous pouvez également créer et déployer vos propres conteneurs de service personnalisés. Par exemple, utilisez cette option lorsqu'un modèle nécessite une logique de prétraitement ou de post-traitement unique.
  • Charges de travail prévisibles et à volume élevé : le déploiement automatique est une option stratégique et économique pour les applications de production avec un trafic prévisible et à volume élevé. Bien qu'elle nécessite un investissement initial plus important en ingénierie, elle peut entraîner un coût total de possession (TCO) inférieur sur la durée de vie de l'application en raison de coûts par jeton optimisés à grande échelle.
  • Contrôle précis de l'infrastructure : utilisez le déploiement automatique lorsque vous avez besoin d'affiner les performances et le budget en choisissant des configurations matérielles spécifiques. Cela inclut la sélection de types de machines, de GPU (par exemple, NVIDIA L4 ou H100) ou de TPU exacts, ainsi que de frameworks de diffusion optimisés.
  • Sécurité et conformité strictes : cette approche est compatible avec les applications qui doivent respecter des règles spécifiques de résidence des données ou des réglementations strictes interdisant l'utilisation d'un service géré mutualisé. Il vous permet de déployer des modèles de manière sécurisée dans votre propre projet Google Cloud et réseau de cloud privé virtuel, ce qui vous offre un contrôle total sur le chemin des données.
  • Contrôle précis de l'emplacement : les points de terminaison dédiés vous permettent de déployer sur n'importe quel accélérateur Compute Engine dans Google Cloud , dans toutes les régions.

Quand utiliser des conteneurs prédéfinis

Envisagez d'utiliser des conteneurs prédéfinis Vertex AI dans les cas suivants :

  • Performances optimisées : Vertex AI optimise et personnalise les conteneurs prédéfinis pour les frameworks tels que vLLM afin d'améliorer les performances et la fiabilité, et de permettre une intégration fluide dans Google Cloud.
  • Facilité d'utilisation : diffusez des modèles à l'aide de frameworks de diffusion populaires tels que vLLM, Hex-LLM, SGLang, TGI ou TensorRT-LLM sans avoir à créer ni à gérer vos propres images de conteneurs.

Quand utiliser des conteneurs vLLM personnalisés ?

Envisagez de créer et d'utiliser votre propre conteneur personnalisé dans les scénarios suivants :

  • Flexibilité maximale : lorsque les options de diffusion et les conteneurs prédéfinis existants ne suffisent pas à vos besoins, et que vous avez besoin d'un contrôle total sur l'image de conteneur, y compris les dépendances et les configurations.
  • Logique de diffusion personnalisée : lorsque votre modèle nécessite des étapes de prétraitement ou de post-traitement uniques qui ne sont pas compatibles avec les conteneurs prédéfinis.

Étapes suivantes