Modelos de Mistral AI

Los modelos de Mistral AI en Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo de Mistral AI en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos de Mistral AI usan una API gestionada, no es necesario aprovisionar ni gestionar ninguna infraestructura.

Puedes transmitir tus respuestas para reducir la latencia que perciben los usuarios finales. Una respuesta en streaming usa eventos enviados por el servidor (SSE) para enviar la respuesta de forma incremental.

Pagas por los modelos de Mistral AI a medida que los usas (pago por uso). Para consultar los precios de pago por uso, consulta los precios de los modelos de Mistral AI en la página de precios de Vertex AI.

page.

Modelos de Mistral AI disponibles

Los siguientes modelos de Mistral AI están disponibles para usarse en Vertex AI. Para acceder a un modelo de Mistral AI, ve a su tarjeta de modelo de Model Garden.

Mistral Medium 3

Mistral Medium 3 es un modelo versátil diseñado para una amplia gama de tareas, como programación, razonamiento matemático, comprensión de documentos largos, resumen y diálogo. Destaca en tareas complejas que requieren capacidades de razonamiento avanzadas, comprensión visual o un alto nivel de especialización (por ejemplo, escritura creativa, flujos de trabajo de agentes o generación de código).

Cuenta con funciones multimodales, lo que le permite procesar entradas visuales, y admite decenas de idiomas, incluidos más de 80 lenguajes de programación. Además, incluye llamadas a funciones y flujos de trabajo con agentes.

Mistral Medium 3 se ha optimizado para la inferencia de un solo nodo, especialmente para aplicaciones de contexto largo. Su tamaño le permite alcanzar un alto rendimiento en un solo nodo.

Ir a la tarjeta del modelo Mistral Medium 3

Mistral OCR (25.05)

Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para interpretar documentos. Mistral OCR (25.05) destaca por su capacidad para comprender elementos complejos de documentos, como imágenes intercaladas, expresiones matemáticas, tablas y diseños avanzados, como el formato LaTeX. El modelo permite comprender mejor documentos complejos, como artículos científicos con gráficos, ecuaciones y cifras.

Mistral OCR (25.05) es un modelo ideal para usar en combinación con un sistema RAG que toma documentos multimodales (como presentaciones o PDFs complejos) como entrada.

Puedes combinar Mistral OCR (25.05) con otros modelos de Mistral para reformatear los resultados. Esta combinación asegura que el contenido extraído no solo sea preciso, sino que también se presente de forma estructurada y coherente, lo que lo hace adecuado para diversas aplicaciones y análisis posteriores.

Ir a la tarjeta de modelo de Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) ofrece funciones multimodales y un contexto de hasta 128.000. El modelo puede procesar y comprender entradas visuales y documentos largos, lo que amplía aún más su gama de aplicaciones en comparación con el modelo Small anterior de Mistral AI. Mistral Small 3.1 (25.03) es un modelo versátil diseñado para diversas tareas, como programación, razonamiento matemático, comprensión de documentos y diálogo. Mistral Small 3.1 (25.03) se ha diseñado para aplicaciones de baja latencia y ofrece la mejor eficiencia de su categoría en comparación con modelos de la misma calidad.

Mistral Small 3.1 (25.03) se ha sometido a un proceso completo de post-entrenamiento para alinear el modelo con las preferencias y las necesidades de los humanos, lo que permite usarlo directamente en aplicaciones que requieren chat o instrucciones precisas.

Ir a la tarjeta del modelo Mistral Small 3.1 (25.03)

Codestral 2

Codestral 2 es el modelo especializado de Mistral para la generación de código, creado específicamente para completar con alta precisión la parte que falta (FIM). Ayuda a los desarrolladores a escribir e interactuar con el código a través de un punto de conexión de API de instrucciones y finalizaciones compartido. Como domina el código y también puede conversar en varios idiomas, se puede usar para diseñar aplicaciones de IA avanzadas para desarrolladores de software.

La última versión de Codestral 2 ofrece mejoras significativas con respecto a la versión anterior de Codestral (25.01):

Aumento del 30% en las finalizaciones aceptadas.
Un 10% más de código retenido después de la sugerencia.
Se reduce en un 50% el número de generaciones descontroladas, lo que mejora la confianza en las ediciones más largas.

Mejora del rendimiento en las comparativas académicas para la finalización de FIM de contexto corto y largo.

Generación de código: finalización, sugerencias y traducción de código.
Comprensión y documentación del código: resumen y explicación del código.
Calidad del código: revisión del código, refactorización, corrección de errores y generación de casos de prueba.
Rellenar el código: los usuarios pueden definir el punto de inicio del código mediante una petición y el punto final del código mediante un sufijo opcional y una parada opcional. El modelo Codestral generará el código que encaje entre ellos, por lo que es ideal para tareas que requieren que se genere un fragmento de código específico.

Ir a la tarjeta del modelo Codestral 2

Usar modelos de Mistral AI

Puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:

Para Mistral Medium 3, usa mistral-medium-3
Para Mistral OCR (25.05), usa mistral-ocr-2505
Para Mistral Small 3.1 (25.03), usa mistral-small-2503
Para Codestral 2, usa codestral-2

Para obtener más información sobre cómo usar el SDK de Mistral AI, consulta la documentación de Mistral AI en Vertex AI.

Antes de empezar

Para usar los modelos de Mistral AI con Vertex AI, debes seguir estos pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto con la API Vertex AI habilitada, puedes usarlo en lugar de crear uno nuevo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Ve a una de las siguientes tarjetas de modelo de Model Garden y haz clic en Habilitar:

Hacer una llamada de streaming a un modelo de Mistral AI

En el siguiente ejemplo se hace una llamada de streaming a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

LOCATION: una región que admita modelos de Mistral AI.
MODEL: el nombre del modelo que quieras usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: el rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con turnos alternos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo.
STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como true para transmitir la respuesta y false para devolver la respuesta de una vez.
CONTENT: el contenido, como el texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Número máximo de tokens que se pueden generar en la respuesta. Un token tiene una longitud aproximada de 3,5 caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.
Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: En el siguiente comando se presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login , o bien usando Cloud Shell, que inicia sesión automáticamente en la CLI de gcloud . Para comprobar la cuenta activa, ejecuta el comando gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Nota: El siguiente comando presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login . Para comprobar la cuenta activa, ejecuta el comando gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la siguiente.

Respuesta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Hacer una llamada unaria a un modelo de Mistral AI

En el siguiente ejemplo se hace una llamada unaria a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

LOCATION: una región que admita modelos de Mistral AI.
MODEL: el nombre del modelo que quieras usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: el rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con turnos alternos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo.
STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como true para transmitir la respuesta y false para devolver la respuesta de una vez.
CONTENT: el contenido, como el texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Número máximo de tokens que se pueden generar en la respuesta. Un token tiene una longitud aproximada de 3,5 caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.
Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la siguiente.

Respuesta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidad y cuotas de las regiones de los modelos de Mistral AI

En el caso de los modelos de Mistral AI, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y de salida.

Modelo	Región	Cuotas	Longitud del contexto
Mistral Medium 3
	`us-central1`	QPM: 90 TPM: 315.000	128.000
	`europe-west4`	QPM: 90 TPM: 315.000	128.000
Mistral OCR (25.05)
	`us-central1`	QPM: 30 Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)	30 páginas
	`europe-west4`	QPM: 30 Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)	30 páginas
Mistral Small 3.1 (25.03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Codestral 2
	`us-central1`	QPM: 1100 Introducción de TPM: 1.100.000 Producción de TPM: 110.000	128.000 tokens
	`europe-west4`	QPM: 1100 Introducción de TPM: 1.100.000 Producción de TPM: 110.000	128.000 tokens

Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta la descripción general de las cuotas de Cloud.

Modelos de Mistral AI Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Modelos de Mistral AI disponibles

Mistral Medium 3

Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Codestral 2

Usar modelos de Mistral AI

Antes de empezar

Hacer una llamada de streaming a un modelo de Mistral AI

REST

curl

PowerShell

Respuesta

Hacer una llamada unaria a un modelo de Mistral AI

REST

curl

PowerShell

Respuesta

Disponibilidad y cuotas de las regiones de los modelos de Mistral AI

Modelos de Mistral AI