Modèles Mistral AI

Les modèles Mistral AI sur Gemini Enterprise Agent Platform offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle Mistral AI sur Agent Platform, envoyez une requête directement au point de terminaison de l'API Agent Platform. Étant donné que les modèles Mistral AI utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Les modèles Mistral AI vous sont facturés à l'utilisation (paiement à l'usage). Pour le paiement à l'usage, consultez les tarifs des modèles Mistral AI sur la page des tarifs de Gemini Enterprise Agent Platform.

page.

Modèles Mistral AI disponibles

Les modèles suivants sont disponibles auprès de Mistral AI pour une utilisation dans Gemini Enterprise Agent Platform. Pour accéder à un modèle Mistral AI, accédez à sa fiche de modèle Model Garden.

Mistral Medium 3

Mistral Medium 3 est un modèle polyvalent conçu pour un large éventail de tâches, y compris la programmation, le raisonnement mathématique, la compréhension de longs documents, la synthèse et le dialogue. Il excelle dans les tâches complexes nécessitant des capacités de raisonnement avancées, une compréhension visuelle ou un haut niveau de spécialisation (par exemple, l'écriture créative, les workflows agentiques, la génération de code).

Il possède des capacités multimodales, ce qui lui permet de traiter les entrées visuelles, et prend en charge des dizaines de langues, dont plus de 80 langages de programmation. De plus, il propose l'appel de fonction et les workflows agentiques.

Mistral Medium 3 est optimisé pour l'inférence à nœud unique, en particulier pour les applications à contexte long. Sa taille lui permet d'atteindre un débit élevé sur un seul nœud.

Accéder à la fiche de modèle Mistral Medium 3

Mistral OCR (25.05)

Mistral OCR (25.05) est une API de reconnaissance optique des caractères pour la compréhension des documents. Mistral OCR (25.05) excelle dans la compréhension des éléments complexes des documents, y compris les images entrelacées, les expressions mathématiques, les tableaux et les mises en page avancées telles que le format LaTeX. Le modèle permet de mieux comprendre les documents riches tels que les articles scientifiques contenant des graphiques, des équations et des figures.

Mistral OCR (25.05) est un modèle idéal à utiliser en combinaison avec un système RAG qui prend en entrée des documents multimodaux (tels que des diapositives ou des PDF complexes).

Vous pouvez associer Mistral OCR (25.05) à d'autres modèles Mistral pour reformater les résultats. Cette combinaison garantit que le contenu extrait est non seulement précis, mais aussi présenté de manière structurée et cohérente, ce qui le rend adapté à diverses applications et analyses en aval.

Accéder à la fiche de modèle Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) offre des capacités multimodales et un contexte allant jusqu'à 128 000. Le modèle peut traiter et comprendre des entrées visuelles et des documents longs, ce qui élargit encore son éventail d'applications par rapport au modèle Mistral AI Small précédent. Mistral Small 3.1 (25.03) est un modèle polyvalent conçu pour diverses tâches telles que la programmation, le raisonnement mathématique, la compréhension de documents et le dialogue. Mistral Small 3.1 (25.03) est conçu pour les applications à faible latence afin d'offrir la meilleure efficacité de sa catégorie par rapport aux modèles de même qualité.

Mistral Small 3.1 (25.03) a subi un processus de post-entraînement complet pour aligner le modèle sur les préférences et les besoins humains. Il est donc utilisable prêt à l'emploi pour les applications qui nécessitent un chat ou un suivi précis des instructions.

Accéder à la fiche de modèle Mistral Small 3.1 (25.03)

Codestral 2

Codestral 2 est un modèle spécialisé dans la génération de code, conçu par Mistral spécifiquement pour la complétion FIM (fill-in-the-middle) de haute précision. Il aide les développeurs à écrire du code et à interagir avec lui grâce à un point de terminaison d'API partagé pour les instructions et la complétion. Comme il maîtrise le code et peut également converser dans différentes langues, il peut être utilisé pour concevoir des applications d'IA avancées pour les développeurs de logiciels.

La dernière version de Codestral 2 offre des améliorations mesurables par rapport à la version précédente de Codestral (25.01) :

  • Augmentation de 30% des tâches accomplies acceptées.
  • 10% de code conservé en plus après la suggestion.
  • 50% de générations incontrôlables en moins, ce qui améliore la confiance dans les modifications plus longues.

Amélioration des performances sur les benchmarks académiques pour la complétion FIM à contexte court et long.

  • Génération de code : complétion, suggestions et traduction de code.
  • Compréhension et documentation du code : résumé et explication du code.
  • Qualité du code : revue de code, refactoring, correction des bugs et génération de scénarios de test.
  • Remplissage de code : les utilisateurs peuvent définir le point de départ du code à l'aide d'une requête, et le point d'arrivée du code à l'aide d'un suffixe et d'un arrêt facultatifs. Le modèle Codestral génère ensuite le code qui s'insère entre les deux, ce qui le rend idéal pour les tâches qui nécessitent la génération d'un code spécifique.

Accéder à la fiche de modèle Codestral 2

Utiliser des modèles Mistral AI

Vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Gemini Enterprise Agent Platform à l'aide des noms de modèles suivants :

  • Pour Mistral Medium 3, utilisez mistral-medium-3.
  • Pour Mistral OCR (25.05), utilisez mistral-ocr-2505.
  • Pour Mistral Small 3.1 (25.03), utilisez mistral-small-2503.
  • Pour Codestral 2, utilisez codestral-2

Pour en savoir plus sur l'utilisation du SDK Mistral AI, consultez la documentation Mistral AI Gemini Enterprise Agent Platform.

Avant de commencer

Pour utiliser les modèles Mistral AI avec Gemini Enterprise Agent Platform, vous devez suivre les étapes ci-dessous. L'API Agent Platform (aiplatform.googleapis.com) doit être activée pour utiliser Gemini Enterprise Agent Platform. Si vous disposez déjà d'un projet avec l'API Agent Platform activée, vous pouvez l'utiliser au lieu d'en créer un.

  1. Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Gemini Enterprise Agent Platform API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Gemini Enterprise Agent Platform API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Accédez à l'une des fiches de modèle Model Garden suivantes, puis cliquez sur Activer :

Effectuer un appel en flux continu à un modèle Mistral AI

L'exemple suivant effectue un appel en flux continu à un modèle Mistral AI.

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Mistral AI.
  • MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
  • CONTENT : contenu du message user ou assistant (du texte, par exemple).
  • MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Effectuer un appel unaire à un modèle Mistral AI

L'exemple suivant effectue un appel unaire à un modèle Mistral AI.

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Mistral AI.
  • MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
  • CONTENT : contenu du message user ou assistant (du texte, par exemple).
  • MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Disponibilité et quotas des régions d'un modèle Mistral AI

Pour les modèles Mistral AI, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.

Modèle Région Quotas Longueur du contexte
Mistral Medium 3
us-central1
  • QPM : 90
  • TPM : 315 000
128 000
europe-west4
  • QPM : 90
  • TPM : 315 000
128 000
Mistral OCR (25.05)
us-central1
  • RPM : 30
  • Pages par requête : 30 (1 page = 1 million de jetons d'entrée et 1 million de jetons de sortie)
30 pages
europe-west4
  • RPM : 30
  • Pages par requête : 30 (1 page = 1 million de jetons d'entrée et 1 million de jetons de sortie)
30 pages
Mistral Small 3.1 (25.03)
us-central1
  • QPM : 60
  • TPM : 200 000
128 000
europe-west4
  • QPM : 60
  • TPM : 200 000
128 000
Codestral 2
us-central1
  • QPM : 1 100
  • TPM d'entrée : 1 100 000
  • TPM de sortie : 110 000
128 000 jetons
europe-west4
  • QPM : 1 100
  • TPM d'entrée : 1 100 000
  • TPM de sortie : 110 000
128 000 jetons

Si vous souhaitez augmenter vos quotas pour l'IA générative sur la plate-forme d'agents Gemini Enterprise, vous pouvez en faire la demande via la console Google Cloud . Pour en savoir plus sur les quotas, consultez la présentation des quotas Cloud.