Modèles Llama entièrement gérés


Les modèles Llama sur Vertex AI offrent des modèles entièrement gérés et sans serveur en tant qu'API. Pour utiliser un modèle Llama sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles Llama utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Modèles Llama disponibles

Les modèles Llama suivants sont disponibles depuis Meta et peuvent être utilisés dans Vertex AI. Pour accéder à un modèle Llama, accédez à la fiche de modèle Model Garden.

Les modèles en version bêta disposent également d'une option de déploiement automatique. Si vous avez besoin d'un service prêt pour la production, utilisez les modèles Llama à déployer vous-même.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E est le modèle Llama 4 le plus grand et le plus performant. Il offre des fonctionnalités de codage, de raisonnement et de traitement d'images. Il s'appuie sur une architecture MoE (Mixture of Experts) avec 17 milliards de paramètres actifs sur un total de 400 milliards de paramètres et 128 experts. Llama 4 Maverick 17B-128E utilise des couches denses et MoE alternées, où chaque jeton active un expert partagé plus l'un des 128 experts routés. Le modèle est préentraîné sur 200 langues et optimisé pour des interactions de chat de haute qualité grâce à un pipeline post-entraînement affiné.

Llama 4 Maverick 17B-128E est multimodal et convient à la légende d'image avancée, à l'analyse, à la compréhension précise des images, aux questions et réponses visuelles, à la génération de texte créatif, aux assistants d'IA à usage général et aux chatbots sophistiqués nécessitant une intelligence et une compréhension des images de premier ordre.

Remarques

  • Vous pouvez inclure jusqu'à trois images par requête.
  • Contrairement aux versions précédentes, le point de terminaison MaaS n'utilise pas Llama Guard. Pour utiliser Llama Guard, déployez-le depuis Model Garden, puis envoyez les requêtes et les réponses à ce point de terminaison. Toutefois, par rapport à Llama 4, LlamaGuard dispose d'un contexte plus limité (128 000) et ne peut traiter que les requêtes avec une seule image au début de la requête.
  • Les prédictions par lots ne sont pas prises en charge.

Accéder à la fiche de modèle Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre des résultats de pointe pour sa catégorie de taille, surpassant les générations Llama précédentes ainsi que d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Il présente une architecture MoE avec 17 milliards de paramètres actifs sur un total de 109 milliards de paramètres et 16 experts.

Llama 4 Scout 17B-16E est adapté aux tâches de récupération dans des contextes longs et aux tâches qui nécessitent un raisonnement sur de grandes quantités d'informations, comme la synthèse de plusieurs documents volumineux, l'analyse de journaux d'interaction utilisateur volumineux pour la personnalisation et le raisonnement sur de grandes bases de code.

Accéder à la fiche de modèle Llama 4

Remarques

  • Vous pouvez inclure jusqu'à trois images par requête.
  • Contrairement aux versions précédentes, le point de terminaison MaaS n'utilise pas Llama Guard. Pour utiliser Llama Guard, déployez-le depuis Model Garden, puis envoyez les requêtes et les réponses à ce point de terminaison. Toutefois, par rapport à Llama 4, LlamaGuard dispose d'un contexte plus limité (128 000) et ne peut traiter que les requêtes avec une seule image au début de la requête.
  • Les prédictions par lots ne sont pas prises en charge.

Accéder à la fiche de modèle Llama 4

Llama 3.3

Llama 3.3 est un modèle textuel de 70 milliards de paramètres adapté aux instructions. Il offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications textuelles.

Accéder à la fiche de modèle Llama 3.3 70B

Pendant la période de preview, vous êtes facturé à l'utilisation du modèle (paiement à l'usage). Pour le paiement à l'usage, consultez les tarifs des modèles Llama sur la page des tarifs de Vertex AI.

Llama 3.2

Llama 3.2 permet aux développeurs de créer et de déployer les derniers modèles d'IA générative et les applications qui utilisent les dernières fonctionnalités de Llama, comme le raisonnement par image. Llama 3.2 est également conçu pour être plus accessible aux applications sur l'appareil.

Accéder à la fiche de modèle Llama 3.2 90B

Aucuns frais ne sont facturés pendant la période bêta. Si vous avez besoin d'un service prêt pour la production, utilisez les modèles Llama auto-hébergés.

Remarques

Lorsque vous utilisez llama-3.2-90b-vision-instruct-maas, il n'y a aucune restriction lorsque vous envoyez des requêtes textuelles uniquement. Toutefois, si vous incluez une image dans votre requête, elle doit se situer au début de la requête, et vous ne pouvez inclure qu'une image. Vous ne pouvez pas, par exemple, inclure du texte, puis une image.

Llama 3.1

Llama 3.1 est un modèle de langage autorégressif qui utilise une architecture de transformateur optimisée. Les versions réglées utilisent le réglage supervisé (SFT) et l'apprentissage par renforcement qui utilise le feedback humain (RLHF) afin de s'aligner sur les préférences humaines pour l'utilité et la sécurité.

Llama 3.1 405B est disponible de manière générale. Vous êtes facturé à mesure que vous utilisez le modèle (paiement à l'usage). Pour connaître les tarifs de paiement à l'usage, consultez les tarifs des modèles Llama sur la page des tarifs de Vertex AI.

Les autres modèles Llama 3.1 sont en aperçu. Aucuns frais ne sont facturés pour les modèles Preview. Si vous avez besoin d'un service prêt pour la production, utilisez les modèles Llama auto-hébergés.

Accéder à la fiche de modèle Llama 3.1

Étapes suivantes

Découvrez comment utiliser les modèles Llama.