Modèles Llama entièrement gérés


Les modèles Llama sont disponibles en tant qu'API gérées et modèles auto-déployés sur Vertex AI. Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Modèles Llama gérés

Les modèles Llama offrent des modèles entièrement gérés et sans serveur en tant qu'API. Pour utiliser un modèle Llama sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Lorsque vous utilisez des modèles Llama en tant qu'API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Les modèles Llama suivants sont disponibles et peuvent être utilisés dans Vertex AI. Pour accéder à un modèle Llama, accédez à la fiche de modèle Model Garden.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E est le modèle Llama 4 le plus grand et le plus performant. Il offre des fonctionnalités de codage, de raisonnement et de traitement d'images. Il utilise une architecture Mixture-of-Experts (MoE) avec 17 milliards de paramètres actifs sur un total de 400 milliards de paramètres et 128 experts. Llama 4 Maverick 17B-128E utilise des couches denses et MoE alternées, où chaque jeton active un expert partagé plus l'un des 128 experts routés. Le modèle est préentraîné sur 200 langues et optimisé pour des interactions de chat de haute qualité grâce à un pipeline post-entraînement affiné.

Llama 4 Maverick 17B-128E est multimodal et convient à la légende d'image avancée, à l'analyse, à la compréhension précise des images, aux questions et réponses visuelles, à la génération de texte créatif, aux assistants d'IA à usage général et aux chatbots sophistiqués nécessitant une intelligence et une compréhension des images de premier ordre.

Remarques

  • Vous pouvez inclure jusqu'à trois images par requête.
  • Contrairement aux versions précédentes, le point de terminaison MaaS n'utilise pas Llama Guard. Pour utiliser Llama Guard, déployez-le depuis Model Garden, puis envoyez les requêtes et les réponses à ce point de terminaison. Toutefois, par rapport à Llama 4, LlamaGuard a un contexte plus limité (128 000) et ne peut traiter que les requêtes avec une seule image au début de la requête.
  • Les prédictions par lots ne sont pas prises en charge.

Accéder à la fiche de modèle Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre des résultats de pointe pour sa catégorie de taille, surpassant les générations Llama précédentes ainsi que d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Il présente une architecture MoE avec 17 milliards de paramètres actifs sur un total de 109 milliards de paramètres et 16 experts.

Llama 4 Scout 17B-16E est adapté aux tâches de récupération dans des contextes longs et aux tâches qui nécessitent un raisonnement sur de grandes quantités d'informations, comme la synthèse de plusieurs documents volumineux, l'analyse de journaux d'interaction utilisateur volumineux pour la personnalisation et le raisonnement sur de grandes bases de code.

Accéder à la fiche de modèle Llama 4

Remarques

  • Vous pouvez inclure jusqu'à trois images par requête.
  • Contrairement aux versions précédentes, le point de terminaison MaaS n'utilise pas Llama Guard. Pour utiliser Llama Guard, déployez-le depuis Model Garden, puis envoyez les requêtes et les réponses à ce point de terminaison. Toutefois, par rapport à Llama 4, LlamaGuard a un contexte plus limité (128 000) et ne peut traiter que les requêtes avec une seule image au début de la requête.
  • Les prédictions par lots ne sont pas prises en charge.

Accéder à la fiche de modèle Llama 4

Llama 3.3

Llama 3.3 est un modèle textuel de 70 milliards de paramètres adapté aux instructions. Il offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications uniquement textuelles.

Accéder à la fiche de modèle Llama 3.3 70B

Utiliser des modèles Llama

Pour les modèles gérés, vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI à l'aide des noms de modèles suivants. Pour savoir comment effectuer des appels en flux continu et non en flux continu aux modèles Llama, consultez Appeler des API de modèles ouverts.

Pour utiliser un modèle Vertex AI déployé automatiquement :

  1. Accédez à la console Model Garden.
  2. Trouvez le modèle Vertex AI approprié.
  3. Cliquez sur Activer et remplissez le formulaire fourni pour obtenir les licences d'utilisation commerciale nécessaires.

Pour en savoir plus sur le déploiement et l'utilisation de modèles partenaires, consultez Déployer un modèle partenaire et envoyer des requêtes de prédiction.

Étapes suivantes

Découvrez comment utiliser les modèles Llama.