Cette page a été traduite par l'API Cloud Translation.

Modèles partenaires Vertex AI pour MaaS

Vertex AI est compatible avec une sélection de modèles développés par des partenaires Google. Les modèles partenaires peuvent être utilisés avec Vertex AI sous forme de modèle en tant que service (MaaS) et sont proposés en tant qu'API gérée. Lorsque vous utilisez un modèle partenaire, vous continuez à envoyer vos requêtes aux points de terminaison Vertex AI. Les modèles partenaires sont sans serveur. Vous n'avez donc pas besoin de provisionner ni de gérer l'infrastructure.

Vous pouvez découvrir des modèles partenaires sur la plate-forme Model Garden, et également y déployer des modèles. Pour en savoir plus, consultez Explorer les modèles d'IA dans Model Garden. Bien que des informations sur chaque modèle partenaire disponible soient accessibles sur la fiche de modèle dédiée à chacun d'eux dans Model Garden, seuls les modèles tiers opérant comme un modèle MaaS avec Vertex AI sont documentés dans ce guide.

Les modèles Claude d'Anthropic et Mistral sont des exemples de modèles gérés tiers disponibles sur Vertex AI.

Modèles de partenaires

Les modèles partenaires suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :

Nom du modèle	Modalité	Description	Guide de démarrage rapide
Claude Opus 4.5	Langage, vision	Claude Opus 4.5, la nouvelle génération du modèle le plus intelligent d'Anthropic, est un leader du secteur en matière de codage, d'agents, d'utilisation de l'ordinateur et de workflows d'entreprise.	fiche de modèle
Claude Sonnet 4.5	Langage, vision	Modèle de taille moyenne d'Anthropic pour alimenter les agents du monde réel, avec des capacités de codage, d'utilisation de l'ordinateur, de cybersécurité et de travail avec des fichiers Office comme les feuilles de calcul.	fiche de modèle
Claude Opus 4.1	Langage, vision	Un leader du secteur en matière de programmation. Il offre des performances soutenues pour les tâches de longue durée qui nécessitent un effort concentré et des milliers d'étapes, ce qui élargit considérablement les problèmes que les agents d'IA peuvent résoudre. Idéal pour alimenter les produits et fonctionnalités des agents de pointe.	fiche de modèle
Claude Haiku 4.5	Langage, vision	Claude Haiku 4.5 offre des performances quasi optimales pour un large éventail de cas d'utilisation. Il se distingue comme l'un des meilleurs modèles de codage au monde, avec la vitesse et le coût adaptés pour alimenter les produits gratuits et les expériences utilisateur à volume élevé.	fiche de modèle
Claude Opus 4	Langage, vision	Claude Opus 4 offre des performances durables pour les tâches longues qui nécessitent un effort concentré et des milliers d'étapes, ce qui élargit considérablement les problèmes que les agents d'IA peuvent résoudre.	fiche de modèle
Claude Sonnet 4	Langage, vision	Modèle de taille moyenne d'Anthropic offrant une intelligence supérieure pour les utilisations à volume élevé comme le codage, la recherche approfondie et les agents.	fiche de modèle
Claude 3.5 Sonnet v2 d'Anthropic	Langage, vision	La version améliorée de Claude 3.5 Sonnet est un modèle de pointe pour les tâches d'ingénierie logicielle et les capacités agentives en conditions réelles. Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur.	fiche de modèle
Claude 3.5 Haiku d'Anthropic	Langage, vision	Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la rapidité et le prix sont importants.	fiche de modèle
Claude 3 Haiku d'Anthropic	Langue	Modèle de vision et de texte le plus rapide d'Anthropic qui permet d'obtenir des réponses quasi instantanées pour des requêtes simples et est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines.	fiche de modèle
Claude 3.5 Sonnet d'Anthropic	Langue	Claude 3.5 Sonnet surpasse Claude 3 Opus d'Anthropic sur un large éventail d'évaluations d'Anthropic, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet.	fiche de modèle
Jamba 1.5 Large (preview)	Langue	Le modèle Jamba 1.5 Large d'AI21 Labs est conçu pour offrir des réponses de qualité supérieure, un débit élevé et un prix compétitif par rapport aux autres modèles de sa catégorie.	fiche de modèle
Jamba 1.5 Mini (preview)	Langue	Le Jamba 1.5 Mini d'AI21 Labs est bien équilibré en termes de qualité, de débit et de coût.	fiche de modèle
Mistral Medium 3	Langue	Mistral Medium 3 est un modèle polyvalent conçu pour un large éventail de tâches, y compris la programmation, le raisonnement mathématique, la compréhension de longs documents, la synthèse et le dialogue.	fiche de modèle
Mistral OCR (25.05)	Langage, vision	Mistral OCR (25.05) est une API de reconnaissance optique des caractères pour la compréhension des documents. Le modèle comprend chaque élément des documents, comme les contenus multimédias, le texte, les tableaux et les équations.	fiche de modèle
Mistral Small 3.1 (25.03)	Langue	Mistral Small 3.1 (25.03) est la dernière version du modèle Small de Mistral. Elle offre des capacités multimodales et une longueur de contexte étendue.	fiche de modèle
Mistral Large (24.11)	Langue	Mistral Large (24.11) est la prochaine version du modèle Mistral Large (24.07). Il offre désormais des capacités de raisonnement et d'appel de fonction améliorées.	fiche de modèle
Codestral 2	Langue, code	Codestral 2 est le modèle spécialisé dans la génération de code de Mistral. Il est conçu spécifiquement pour la complétion FIM (fill-in-the-middle) de haute précision, qui aide les développeurs à écrire du code et à interagir avec lui grâce à un point de terminaison d'API partagé pour les instructions et la complétion.	fiche de modèle
Codestral (25.01)	Code	Modèle de pointe conçu pour la génération de code, y compris la méthode fill-in-the-middle et la complétion de code.	fiche de modèle

Tarifs des modèles partenaires Vertex AI avec assurance de capacité

Google propose un débit provisionné pour les modèles partenaires, qui réserve une capacité de débit pour vos modèles à un tarif fixe. Vous déterminez la capacité de débit et les régions dans lesquelles vous souhaitez réserver cette capacité. Étant donné que les requêtes de débit provisionné sont prioritaires par rapport aux requêtes standards avec paiement à l'utilisation, le débit provisionné offre une disponibilité accrue. Lorsque le système est surchargé, vos requêtes peuvent toujours être traitées tant que le débit reste inférieur à votre capacité de débit réservée. Pour en savoir plus ou pour vous abonner au service, contactez le service commercial.

Points de terminaison régionaux et mondiaux

Pour les points de terminaison régionaux, les requêtes sont traitées à partir de la région que vous avez spécifiée. Si vous avez des exigences de résidence des données ou si un modèle n'est pas compatible avec le point de terminaison mondial, utilisez les points de terminaison régionaux.

Lorsque vous utilisez le point de terminaison mondial, Google peut traiter et diffuser vos requêtes depuis n'importe quelle région compatible avec le modèle que vous utilisez, ce qui peut entraîner une latence plus élevée dans certains cas. Le point de terminaison global permet d'améliorer la disponibilité globale et de réduire les erreurs.

Il n'y a pas de différence de prix avec les points de terminaison régionaux lorsque vous utilisez le point de terminaison mondial. Toutefois, les quotas et les capacités de modèle compatibles du point de terminaison mondial peuvent différer de ceux des points de terminaison régionaux. Pour en savoir plus, consultez la page du modèle tiers concerné.

Spécifier le point de terminaison global

Pour utiliser le point de terminaison mondial, définissez la région sur global.

Par exemple, l'URL de la requête pour une commande curl utilise le format suivant : https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Pour le SDK Vertex AI, un point de terminaison régional est défini par défaut. Définissez la région sur GLOBAL pour utiliser le point de terminaison mondial.

Modèles compatibles

Le point de terminaison global est disponible pour les modèles suivants :

Restreindre l'utilisation des points de terminaison d'API mondiaux

Pour appliquer l'utilisation de points de terminaison régionaux, utilisez la contrainte de règle d'administration constraints/gcp.restrictEndpointUsage afin de bloquer les requêtes envoyées au point de terminaison d'API mondial. Pour en savoir plus, consultez Restreindre l'utilisation des points de terminaison.

Accorder aux utilisateurs l'accès aux modèles partenaires

Pour que vous puissiez activer des modèles partenaires et envoyer une requête, un administrateur Google Clouddoit définir les autorisations requises et vérifier que la règle d'administration autorise l'utilisation des API requises.

Définir les autorisations requises pour utiliser des modèles partenaires

Vous devez disposer des rôles et autorisations suivants pour utiliser des modèles partenaires :

Vous devez disposer du rôle IAM (Identity and Access Management) de gestionnaire des droits d'approvisionnement des consommateurs. Toute personne disposant de ce rôle peut activer des modèles partenaires dans Model Garden.
Vous devez disposer de l'autorisation aiplatform.endpoints.predict. Cette autorisation est incluse dans le rôle IAM "Utilisateur Vertex AI". Pour en savoir plus, consultez les sections Utilisateur Vertex AI et Contrôle des accès.

Console

Pour attribuer les rôles IAM "Gestionnaire des droits d'approvisionnement des consommateurs" à un utilisateur, accédez à la page IAM.

Accéder à IAM
Dans la colonne Compte principal, recherchez le compte principal d'utilisateur pour lequel vous souhaitez activer l'accès aux modèles partenaires, puis cliquez sur Modifier le compte principal sur cette ligne.
Dans le volet Modifier les accès, cliquez sur Ajouter un autre rôle.
Dans Sélectionner un rôle, sélectionnez Gestionnaire des droits d'approvisionnement des consommateurs.
Dans le volet Modifier les accès, cliquez sur Ajouter un autre rôle.
Dans le champ Sélectionner un rôle, sélectionnez Utilisateur Vertex AI.
Cliquez sur Enregistrer.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell
Attribuez le rôle de gestionnaire des droits d'approvisionnement des consommateurs requis pour activer les modèles partenaires dans Model Garden
```
gcloud projects add-iam-policy-binding  PROJECT_ID \
--member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
```
Attribuez le rôle d'utilisateur Vertex AI qui inclut l'autorisation aiplatform.endpoints.predict requise pour effectuer des requêtes :
```
gcloud projects add-iam-policy-binding  PROJECT_ID \
--member=PRINCIPAL --role=roles/aiplatform.user
```
Remplacez PRINCIPAL par l'identifiant du compte principal. L'identifiant se présente sous la forme user|group|serviceAccount:email ou domain:domain (par exemple, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com ou domain:example.domain.com.

Le résultat est une liste de liaisons de stratégie qui incluent les éléments suivants :
```
-   members:
  -   user:PRINCIPAL
  role: roles/roles/consumerprocurement.entitlementManager
```
Pour plus d'informations, consultez les sections Attribuer un seul rôle et gcloud projects add-iam-policy-binding.

Définir la règle d'organisation pour l'accès au modèle partenaire

Pour activer les modèles partenaires, votre règle d'administration doit autoriser l'API suivante : API Cloud Commerce Consumer Procurement – cloudcommerceconsumerprocurement.googleapis.com

Si votre organisation définit une règle d'administration pour restreindre l'utilisation des services, un administrateur de l'organisation doit vérifier que cloudcommerceconsumerprocurement.googleapis.com est autorisé en définissant la règle d'administration.

De plus, si vous disposez d'une règle d'administration qui limite l'utilisation des modèles dans Model Garden, elle doit autoriser l'accès aux modèles partenaires. Pour en savoir plus, consultez la section Contrôler l'accès au modèle.

Conformité réglementaire du modèle partenaire

Les certifications pour l'IA générative sur Vertex AI continuent de s'appliquer lorsque les modèles partenaires sont utilisés en tant qu'API gérée avec Vertex AI. Si vous avez besoin d'informations sur les modèles eux-mêmes, vous pouvez en trouver d'autres dans la fiche modèle correspondante ou contacter l'éditeur du modèle concerné.

Vos données sont stockées au repos dans la région ou la multirégion sélectionnée pour les modèles partenaires sur Vertex AI, mais la régionalisation du traitement des données peut varier. Pour obtenir la liste détaillée des engagements de traitement des données des modèles partenaires, consultez Résidence des données pour les modèles partenaires.

Les requêtes des clients et les réponses des modèles ne sont pas partagées avec des tiers lorsque vous utilisez l'API Vertex AI, y compris les modèles partenaires. Google ne traite les Données client que selon les instructions du Client, comme décrit plus en détail dans notre Avenant relatif au traitement des données dans le cloud.