Modelli Mistral AI

I modelli Mistral AI su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Mistral AI su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Mistral AI utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.

Paghi i modelli Mistral AI man mano che li utilizzi (pagamento a consumo). Per i prezzi pay-as-you-go, consulta i prezzi dei modelli Mistral AI nella pagina Prezzi di Vertex AI.

page.

Modelli Mistral AI disponibili

I seguenti modelli sono disponibili da Mistral AI per l'utilizzo in Vertex AI. Per accedere a un modello di Mistral AI, vai alla relativa scheda del modello in Model Garden.

Mistral Medium 3

Mistral Medium 3 è un modello versatile progettato per un'ampia gamma di attività, tra cui programmazione, ragionamento matematico, comprensione di documenti lunghi, riepilogo e dialogo. È eccellente in attività complesse che richiedono capacità di ragionamento avanzate, comprensione visiva o un alto livello di specializzazione (ad es. scrittura creativa, workflow con agente, generazione di codice).

Vanta funzionalità multimodali, che gli consentono di elaborare input visivi e supporta decine di lingue, tra cui oltre 80 linguaggi di programmazione. Inoltre, offre la chiamata di funzioni e i workflow agentici.

Mistral Medium 3 è ottimizzato per l'inferenza a nodo singolo, in particolare per le applicazioni con contesto lungo. Le sue dimensioni gli consentono di ottenere una velocità effettiva elevata su un singolo nodo.

Vai alla scheda del modello Mistral Medium 3

Mistral OCR (25/05)

Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Mistral OCR (25.05) eccelle nella comprensione di elementi complessi dei documenti, tra cui immagini intercalate, espressioni matematiche, tabelle e layout avanzati come la formattazione LaTeX. Il modello consente una comprensione più approfondita di documenti complessi come articoli scientifici con grafici, equazioni e figure.

Mistral OCR (25.05) è un modello ideale da utilizzare in combinazione con un sistema RAG che accetta come input documenti multimodali (come slide o PDF complessi).

Puoi accoppiare Mistral OCR (25.05) con altri modelli Mistral per riformattare i risultati. Questa combinazione garantisce che i contenuti estratti non siano solo accurati, ma anche presentati in modo strutturato e coerente, rendendoli adatti a varie applicazioni e analisi downstream.

Vai alla scheda del modello OCR Mistral (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25/03) offre funzionalità multimodali e un contesto fino a 128.000. Il modello può elaborare e comprendere input visivi e documenti lunghi, ampliando ulteriormente la sua gamma di applicazioni rispetto al precedente modello Mistral AI Small. Mistral Small 3.1 (25/03) è un modello versatile progettato per varie attività come programmazione, ragionamento matematico, comprensione di documenti e dialoghi. Mistral Small 3.1 (25/03) è progettato per applicazioni a bassa latenza per offrire un'efficienza migliore rispetto ai modelli della stessa qualità.

Mistral Small 3.1 (25/03) è stato sottoposto a un processo di post-addestramento completo per allineare il modello alle preferenze e alle esigenze umane, rendendolo utilizzabile immediatamente per applicazioni che richiedono chat o istruzioni precise.

Vai alla scheda del modello Mistral Small 3.1 (25/03)

Codestral 2

Codestral 2 è il modello specializzato di generazione di codice di Mistral creato appositamente per il completamento FIM (fill-in-the-middle) di alta precisione. Aiuta gli sviluppatori a scrivere e interagire con il codice tramite un endpoint API di istruzioni e completamento condiviso. Poiché padroneggia il codice e può anche conversare in una varietà di lingue, può essere utilizzato per progettare applicazioni AI avanzate per sviluppatori di software.

L'ultima release di Codestral 2 offre miglioramenti misurabili rispetto alla versione precedente di Codestral (25.01):

Aumento del 30% dei completamenti accettati.
10% di codice in più mantenuto dopo il suggerimento.
Il 50% in meno di generazioni incontrollate, migliorando l'affidabilità delle modifiche più lunghe.

Prestazioni migliorate nei benchmark accademici per il completamento di FIM con contesto breve e lungo.

Generazione di codice: completamento, suggerimenti e traduzione del codice.
Comprensione e documentazione del codice: riepilogo e spiegazione del codice.
Qualità del codice: revisione del codice, refactoring, correzione di bug e generazione di scenari di test.
Completamento del codice: gli utenti possono definire il punto di partenza del codice utilizzando un prompt e il punto di arrivo del codice utilizzando un suffisso facoltativo e un arresto facoltativo. Il modello Codestral genererà quindi il codice che si adatta tra i due, rendendolo ideale per le attività che richiedono la generazione di un codice specifico.

Vai alla scheda del modello Codestral 2

Utilizzare i modelli Mistral AI

Puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli:

Per Mistral Medium 3, utilizza mistral-medium-3
Per Mistral OCR (25.05), utilizza mistral-ocr-2505
Per Mistral Small 3.1 (25/03), utilizza mistral-small-2503
Per Codestral 2, utilizza codestral-2

Per ulteriori informazioni sull'utilizzo dell'SDK Mistral AI, consulta la documentazione di Mistral AI Vertex AI.

Prima di iniziare

Per utilizzare i modelli Mistral AI con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere abilitata per utilizzare Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzare questo progetto anziché crearne uno nuovo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Vai a una delle seguenti schede del modello Model Garden, poi fai clic su Attiva:

Fai una chiamata di streaming a un modello Mistral AI

L'esempio seguente esegue una chiamata di streaming a un modello Mistral AI.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:

LOCATION: una regione che supporta i modelli di Mistral AI.
MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
ROLE: Il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo parametro per vincolare una parte della risposta del modello.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Fai una chiamata unaria a un modello Mistral AI

L'esempio seguente esegue una chiamata unaria a un modello Mistral AI.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:

LOCATION: una regione che supporta i modelli di Mistral AI.
MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
ROLE: Il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo parametro per vincolare una parte della risposta del modello.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere in streaming la risposta e su false per restituire la risposta tutta in una volta.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilità e quote per la regione del modello Mistral AI

Per i modelli Mistral AI, si applica una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). TPM include sia i token di input che di output.

Modello	Regione	Quote	Lunghezza del contesto
Mistral Medium 3
	`us-central1`	QPM: 90 TPM: 315.000	128.000
	`europe-west4`	QPM: 90 TPM: 315.000	128.000
Mistral OCR (25/05)
	`us-central1`	QPM: 30 Pagine per richiesta: 30 (1 pagina = 1 milione di token di input e 1 milione di token di output)	30 pagine
	`europe-west4`	QPM: 30 Pagine per richiesta: 30 (1 pagina = 1 milione di token di input e 1 milione di token di output)	30 pagine
Mistral Small 3.1 (25.03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Codestral 2
	`us-central1`	QPM: 1100 Input TPM: 1.100.000 Output TPM: 110.000	128.000 token
	`europe-west4`	QPM: 1100 Input TPM: 1.100.000 Output TPM: 110.000	128.000 token

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta la panoramica delle quote di Cloud.

Modelli Mistral AI Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli Mistral AI disponibili

Mistral Medium 3

Mistral OCR (25/05)

Mistral Small 3.1 (25.03)

Codestral 2

Utilizzare i modelli Mistral AI

Prima di iniziare

Fai una chiamata di streaming a un modello Mistral AI

REST

curl

PowerShell

Risposta

Fai una chiamata unaria a un modello Mistral AI

REST

curl

PowerShell

Risposta

Disponibilità e quote per la regione del modello Mistral AI

Modelli Mistral AI