Modelos de Mistral AI

Los modelos de Mistral AI en la plataforma de agentes de Gemini Enterprise ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de IA de Mistral en Agent Platform, envía una solicitud directamente al extremo de API de Agent Platform. Debido a que los modelos de Mistral AI usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de Mistral AI a medida que los usas (pago por uso). Para conocer los precios del pago por uso, consulta los precios de los modelos de Mistral AI en la página de precios de Gemini Enterprise Agent Platform.

página

Modelos de IA de Mistral disponibles

Los siguientes modelos están disponibles en Mistral AI para usarse en Gemini Enterprise Agent Platform. Para acceder a un modelo de Mistral AI, ve a su ficha del modelo de Model Garden.

Mistral Medium 3

Mistral Medium 3 es un modelo versátil diseñado para una amplia variedad de tareas, como programación, razonamiento matemático, comprensión de documentos extensos, resumen y diálogo. Se destaca en tareas complejas que requieren capacidades de razonamiento avanzadas, comprensión visual o un alto nivel de especialización (p.ej., escritura creativa, flujos de trabajo basados en agentes, generación de código).

Cuenta con capacidades multimodales, lo que le permite procesar entradas visuales, y admite docenas de idiomas, incluidos más de 80 lenguajes de programación. Además, incluye llamadas a funciones y flujos de trabajo de agentes.

Mistral Medium 3 está optimizado para la inferencia de un solo nodo, en especial para aplicaciones de contexto largo. Su tamaño le permite alcanzar una alta capacidad de procesamiento en un solo nodo.

Ir a la ficha del modelo de Mistral Medium 3

OCR de Mistral (25/05)

Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El OCR de Mistral (25.05) se destaca por comprender elementos complejos de documentos, como imágenes intercaladas, expresiones matemáticas, tablas y diseños avanzados, como el formato LaTeX. El modelo permite comprender mejor los documentos enriquecidos, como los artículos científicos con gráficos, ecuaciones y figuras.

El OCR de Mistral (25.05) es un modelo ideal para usar en combinación con un sistema de RAG que toma documentos multimodales (como diapositivas o PDFs complejos) como entrada.

Puedes combinar el OCR de Mistral (25.05) con otros modelos de Mistral para reformatear los resultados. Esta combinación garantiza que el contenido extraído no solo sea preciso, sino que también se presente de manera estructurada y coherente, lo que lo hace adecuado para diversas aplicaciones y análisis posteriores.

Ir a la ficha del modelo de Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

Mistral Small 3.1 (25/3) cuenta con capacidades multimodales y un contexto de hasta 128,000. El modelo puede procesar y comprender entradas visuales y documentos extensos, lo que amplía aún más su rango de aplicaciones en comparación con el modelo anterior Mistral AI Small. Mistral Small 3.1 (25/3) es un modelo versátil diseñado para diversas tareas, como programación, razonamiento matemático, comprensión de documentos y diálogo. Mistral Small 3.1 (25/3) está diseñado para aplicaciones de baja latencia y ofrece la mejor eficiencia de su clase en comparación con modelos de la misma calidad.

Mistral Small 3.1 (25/3) se sometió a un proceso completo posterior al entrenamiento para alinear el modelo con las preferencias y necesidades humanas, lo que lo hace utilizable de inmediato para aplicaciones que requieren chat o seguimiento preciso de instrucciones.

Ir a la ficha del modelo de Mistral Small 3.1 (25.03)

Codestral 2

Codestral 2 es el modelo especializado en generación de código de Mistral, creado específicamente para la finalización de relleno en el medio (FIM) de alta precisión. Ayuda a los desarrolladores a escribir código y a interactuar con él a través de un extremo de API compartido de instrucciones y finalización. Como domina el código y también puede conversar en una variedad de idiomas, se puede usar para diseñar aplicaciones avanzadas de IA para desarrolladores de software.

La versión más reciente de Codestral 2 ofrece mejoras significativas en comparación con la versión anterior de Codestral (25.01):

  • Aumento del 30% en las finalizaciones aceptadas.
  • Se retiene un 10% más de código después de la sugerencia.
  • Se redujo en un 50% la cantidad de generaciones descontroladas, lo que mejora la confianza en las ediciones más largas.

Se mejoró el rendimiento en las comparativas académicas para la finalización de FIM de contexto corto y largo.

  • Generación de código: Finalización, sugerencias y traducción de código
  • Comprensión y documentación del código: resumen y explicación del código
  • Calidad del código: revisión de código, refactorización, corrección de errores y generación de casos de prueba
  • Completar código en el medio: Los usuarios pueden definir el punto de partida del código con una instrucción y el punto final del código con un sufijo opcional y una detención opcional. Luego, el modelo Codestral generará el código que se ajuste entre ambos, lo que lo hace ideal para tareas que requieren que se genere un fragmento de código específico.

Ir a la ficha del modelo de Codestral 2

Cómo usar los modelos de IA de Mistral

Puedes usar comandos curl para enviar solicitudes al extremo de Gemini Enterprise Agent Platform con los siguientes nombres de modelos:

  • Para Mistral Medium 3, usa mistral-medium-3
  • Para el OCR de Mistral (25.05), usa mistral-ocr-2505.
  • Para Mistral Small 3.1 (25.03), usa mistral-small-2503.
  • Para Codestral 2, usa codestral-2.

Si deseas obtener más información para usar el SDK de Mistral AI, consulta la documentación de Mistral AI Gemini Enterprise Agent Platform.

Antes de comenzar

Para usar los modelos de Mistral AI con Gemini Enterprise Agent Platform, debes realizar los siguientes pasos. La API de Agent Platform (aiplatform.googleapis.com) debe estar habilitada para usar Gemini Enterprise Agent Platform. Si ya tienes un proyecto existente con la API de Agent Platform habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

  1. Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Gemini Enterprise Agent Platform API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Gemini Enterprise Agent Platform API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en Habilitar:

Realiza una llamada de transmisión a un modelo de Mistral AI

En el siguiente ejemplo, se realiza una llamada de transmisión a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Mistral AI.
  • MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
  • CONTENT: el contenido, como texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Realiza una llamada unaria a un modelo de Mistral AI

En el siguiente ejemplo, se realiza una llamada unaria a un modelo de Mistral AI.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Mistral AI.
  • MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
  • CONTENT: el contenido, como texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Disponibilidad y cuotas de la región del modelo de IA de Mistral

En el caso de los modelos de Mistral AI, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

Modelo Región Cuotas Longitud del contexto
Mistral Medium 3
us-central1
  • QPM: 90
  • TPM: 315,000
128,000
europe-west4
  • QPM: 90
  • TPM: 315,000
128,000
OCR de Mistral (25/05)
us-central1
  • QPM: 30
  • Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)
30 páginas
europe-west4
  • QPM: 30
  • Páginas por solicitud: 30 (1 página = 1 millón de tokens de entrada y 1 millón de tokens de salida)
30 páginas
Mistral Small 3.1 (25/03)
us-central1
  • QPM: 60
  • TPM: 200,000
128,000
europe-west4
  • QPM: 60
  • TPM: 200,000
128,000
Codestral 2
us-central1
  • QPM: 1,100
  • TPM de entrada: 1,100,000
  • TPM de salida: 110,000
128,000 tokens
europe-west4
  • QPM: 1,100
  • TPM de entrada: 1,100,000
  • TPM de salida: 110,000
128,000 tokens

Si quieres aumentar cualquiera de tus cuotas para la IA generativa en Gemini Enterprise Agent Platform, puedes usar la Google Cloud consola para solicitar un aumento de cuota. Para obtener más información sobre las cuotas, consulta la descripción general de cuotas de Cloud.