Vertex AI est compatible avec une sélection de modèles développés par des partenaires Google. Les modèles partenaires peuvent être utilisés avec Vertex AI sous forme de modèle en tant que service (MaaS) et sont proposés en tant qu'API gérée. Lorsque vous utilisez un modèle partenaire, vous continuez à envoyer vos requêtes aux points de terminaison Vertex AI. Les modèles partenaires sont sans serveur. Vous n'avez donc pas besoin de provisionner ni de gérer l'infrastructure.
Vous pouvez découvrir des modèles partenaires sur la plate-forme Model Garden, et également y déployer des modèles. Pour en savoir plus, consultez Explorer les modèles d'IA dans Model Garden. Bien que des informations sur chaque modèle partenaire disponible soient accessibles sur la fiche de modèle dédiée à chacun d'eux dans Model Garden, seuls les modèles tiers opérant comme un modèle MaaS avec Vertex AI sont documentés dans ce guide.
Les modèles Claude d'Anthropic et Mistral sont des exemples de modèles gérés tiers disponibles sur Vertex AI.
Modèles de partenaires
Les modèles partenaires suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :
Nom du modèle | Modalité | Description | Guide de démarrage rapide |
---|---|---|---|
Claude Sonnet 4.5 | Langage, vision | Modèle de taille moyenne d'Anthropic pour alimenter les agents du monde réel, avec des capacités de codage, d'utilisation de l'ordinateur, de cybersécurité et de travail avec des fichiers Office tels que des feuilles de calcul. | fiche de modèle |
Claude Opus 4.1 | Langage, vision | Un leader du secteur en matière de programmation. Il offre des performances soutenues pour les tâches de longue durée qui nécessitent un effort concentré et des milliers d'étapes, ce qui élargit considérablement les problèmes que les agents d'IA peuvent résoudre. Idéal pour alimenter les produits et fonctionnalités des agents de pointe. | fiche de modèle |
Claude Haiku 4.5 | Langage, vision | Claude Haiku 4.5 offre des performances quasi optimales pour un large éventail de cas d'utilisation. Il se distingue comme l'un des meilleurs modèles de codage au monde, avec la vitesse et le coût adaptés pour alimenter les produits gratuits et les expériences utilisateur à volume élevé. | fiche de modèle |
Claude Opus 4 | Langage, vision | Claude Opus 4 offre des performances durables pour les tâches longues qui nécessitent un effort concentré et des milliers d'étapes, ce qui élargit considérablement les problèmes que les agents d'IA peuvent résoudre. | fiche de modèle |
Claude Sonnet 4 | Langage, vision | Modèle intermédiaire d'Anthropic doté d'une intelligence supérieure pour les utilisations à volume élevé, comme le codage, la recherche approfondie et les agents. | fiche de modèle |
Claude 3.7 Sonnet d'Anthropic | Langage, vision | Modèle de pointe pour le codage et l'alimentation des agents d'IA, et premier modèle Claude à proposer une réflexion étendue. | fiche de modèle |
Claude 3.5 Sonnet v2 d'Anthropic | Langage, vision | La version améliorée de Claude 3.5 Sonnet est un modèle de pointe pour les tâches d'ingénierie logicielle et les capacités agentives en conditions réelles. Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur. | fiche de modèle |
Claude 3.5 Haiku d'Anthropic | Langage, vision | Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la rapidité et le prix sont importants. | fiche de modèle |
Claude 3 Haiku d'Anthropic | Langue | Modèle de vision et de texte le plus rapide d'Anthropic qui permet d'obtenir des réponses quasi instantanées pour des requêtes simples et est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines. | fiche de modèle |
Claude 3.5 Sonnet d'Anthropic | Langue | Claude 3.5 Sonnet surpasse Claude 3 Opus d'Anthropic sur un large éventail d'évaluations d'Anthropic, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet. | fiche de modèle |
Jamba 1.5 Large (preview) | Langue | Le modèle Jamba 1.5 Large d'AI21 Labs est conçu pour offrir des réponses de qualité supérieure, un débit élevé et un prix compétitif par rapport aux autres modèles de sa catégorie. | fiche de modèle |
Jamba 1.5 Mini (preview) | Langue | Le Jamba 1.5 Mini d'AI21 Labs est bien équilibré en termes de qualité, de débit et de coût. | fiche de modèle |
Mistral Medium 3 | Langue | Mistral Medium 3 est un modèle polyvalent conçu pour un large éventail de tâches, y compris la programmation, le raisonnement mathématique, la compréhension de longs documents, la synthèse et le dialogue. | fiche de modèle |
Mistral OCR (25.05) | Langage, vision | Mistral OCR (25.05) est une API de reconnaissance optique des caractères pour la compréhension des documents. Le modèle comprend chaque élément des documents, comme les éléments multimédias, le texte, les tableaux et les équations. | fiche de modèle |
Mistral Small 3.1 (25.03) | Langue | Mistral Small 3.1 (25.03) est la dernière version du modèle Small de Mistral. Elle offre des capacités multimodales et une longueur de contexte étendue. | fiche de modèle |
Mistral Large (24.11) | Langue | Mistral Large (24.11) est la prochaine version du modèle Mistral Large (24.07). Il offre désormais des capacités de raisonnement et d'appel de fonction améliorées. | fiche de modèle |
Codestral 2 | Langue, code | Codestral 2 est le modèle spécialisé dans la génération de code de Mistral. Il est conçu spécifiquement pour la complétion FIM (fill-in-the-middle) de haute précision, qui aide les développeurs à écrire du code et à interagir avec lui grâce à un point de terminaison d'API partagé pour les instructions et la complétion. | fiche de modèle |
Codestral (25.01) | Code | Modèle de pointe conçu pour la génération de code, y compris la méthode fill-in-the-middle et la complétion de code. | fiche de modèle |
Tarifs des modèles partenaires Vertex AI avec assurance de capacité
Google propose un débit provisionné pour les modèles partenaires, qui réserve une capacité de débit pour vos modèles à un tarif fixe. Vous déterminez la capacité de débit et les régions dans lesquelles vous souhaitez réserver cette capacité. Étant donné que les requêtes de débit provisionné sont prioritaires par rapport aux requêtes standards avec paiement à l'utilisation, le débit provisionné offre une disponibilité accrue. Lorsque le système est surchargé, vos requêtes peuvent toujours être traitées tant que le débit reste inférieur à votre capacité de débit réservée. Pour en savoir plus ou pour vous abonner au service, contactez le service commercial.
Points de terminaison régionaux et mondiaux
Pour les points de terminaison régionaux, les requêtes sont traitées à partir de la région que vous avez spécifiée. Si vous avez des exigences de résidence des données ou si un modèle n'est pas compatible avec le point de terminaison mondial, utilisez les points de terminaison régionaux.
Lorsque vous utilisez le point de terminaison mondial, Google peut traiter et répondre à vos requêtes depuis n'importe quelle région compatible avec le modèle que vous utilisez, ce qui peut entraîner une latence plus élevée dans certains cas. Le point de terminaison global permet d'améliorer la disponibilité globale et de réduire les erreurs.
Il n'y a pas de différence de prix avec les points de terminaison régionaux lorsque vous utilisez le point de terminaison mondial. Toutefois, les quotas et les capacités des modèles compatibles du point de terminaison mondial peuvent différer de ceux des points de terminaison régionaux. Pour en savoir plus, consultez la page du modèle tiers concerné.
Spécifier le point de terminaison global
Pour utiliser le point de terminaison mondial, définissez la région sur global
.
Par exemple, l'URL de requête d'une commande curl utilise le format suivant :
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Pour le SDK Vertex AI, un point de terminaison régional est défini par défaut. Définissez la région sur GLOBAL
pour utiliser le point de terminaison mondial.
Modèles compatibles
Le point de terminaison global est disponible pour les modèles suivants :
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
Restreindre l'utilisation des points de terminaison d'API mondiaux
Pour appliquer l'utilisation de points de terminaison régionaux, utilisez la contrainte de règle d'administration constraints/gcp.restrictEndpointUsage
afin de bloquer les requêtes envoyées au point de terminaison d'API mondial. Pour en savoir plus, consultez Restreindre l'utilisation des points de terminaison.
Accorder aux utilisateurs l'accès aux modèles partenaires
Pour que vous puissiez activer des modèles partenaires et envoyer une requête, un administrateur Google Clouddoit définir les autorisations requises et vérifier que la règle d'administration autorise l'utilisation des API requises.
Définir les autorisations requises pour utiliser des modèles partenaires
Vous devez disposer des rôles et autorisations suivants pour utiliser des modèles partenaires :
Vous devez disposer du rôle IAM (Identity and Access Management) de gestionnaire des droits d'approvisionnement des consommateurs. Toute personne disposant de ce rôle peut activer des modèles partenaires dans Model Garden.
Vous devez disposer de l'autorisation
aiplatform.endpoints.predict
. Cette autorisation est incluse dans le rôle IAM "Utilisateur Vertex AI". Pour en savoir plus, consultez les sections Utilisateur Vertex AI et Contrôle des accès.
Console
Pour attribuer les rôles IAM "Gestionnaire des droits d'approvisionnement des consommateurs" à un utilisateur, accédez à la page IAM.
Dans la colonne Compte principal, recherchez le compte principal d'utilisateur pour lequel vous souhaitez activer l'accès aux modèles partenaires, puis cliquez sur Modifier le compte principal sur cette ligne.
Dans le volet Modifier les accès, cliquez sur
Ajouter un autre rôle.Dans Sélectionner un rôle, sélectionnez Gestionnaire des droits d'approvisionnement des consommateurs.
Dans le volet Modifier les accès, cliquez sur
Ajouter un autre rôle.Dans le champ Sélectionner un rôle, sélectionnez Utilisateur Vertex AI.
Cliquez sur Enregistrer.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Attribuez le rôle de gestionnaire des droits d'approvisionnement des consommateurs requis pour activer les modèles partenaires dans Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Attribuez le rôle d'utilisateur Vertex AI qui inclut l'autorisation
aiplatform.endpoints.predict
requise pour effectuer des requêtes :gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Remplacez
PRINCIPAL
par l'identifiant du compte principal. L'identifiant se présente sous la formeuser|group|serviceAccount:email
oudomain:domain
(par exemple,user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
oudomain:example.domain.com
.Le résultat est une liste de liaisons de stratégie qui incluent les éléments suivants :
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Pour plus d'informations, consultez les sections Attribuer un seul rôle et
gcloud projects add-iam-policy-binding
.
Définir la règle d'organisation pour l'accès au modèle partenaire
Pour activer les modèles partenaires, votre règle d'administration doit autoriser l'API suivante : API Cloud Commerce Consumer Procurement – cloudcommerceconsumerprocurement.googleapis.com
Si votre organisation définit une règle d'administration pour restreindre l'utilisation des services, un administrateur de l'organisation doit vérifier que cloudcommerceconsumerprocurement.googleapis.com
est autorisé en définissant la règle d'administration.
De plus, si vous disposez d'une règle d'administration qui limite l'utilisation des modèles dans Model Garden, elle doit autoriser l'accès aux modèles partenaires. Pour en savoir plus, consultez la section Contrôler l'accès au modèle.
Conformité réglementaire du modèle partenaire
Les certifications pour l'IA générative sur Vertex AI continuent de s'appliquer lorsque les modèles partenaires sont utilisés en tant qu'API gérée avec Vertex AI. Si vous avez besoin d'informations sur les modèles eux-mêmes, vous pouvez en trouver d'autres dans la fiche modèle correspondante ou contacter l'éditeur du modèle concerné.
Vos données sont stockées au repos dans la région ou la multirégion sélectionnée pour les modèles partenaires sur Vertex AI, mais la régionalisation du traitement des données peut varier. Pour obtenir la liste détaillée des engagements de traitement des données des modèles partenaires, consultez Résidence des données pour les modèles partenaires.
Les requêtes client et les réponses du modèle ne sont pas partagées avec des tiers lorsque vous utilisez l'API Vertex AI, y compris les modèles partenaires. Google ne traite les Données client que selon les instructions du Client, comme décrit plus en détail dans notre Avenant relatif au traitement des données dans le cloud.