Mistral AI-Modelle

Mistral AI-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Mistral AI-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Mistral AI-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Sie zahlen für Mistral AI-Modelle, sobald Sie sie verwenden (Pay-as-you-go). Die „Pay-as-you-go“-Preise finden Sie in den Preisen des Mistral AI-Modells auf der Preisseite für Vertex AI.

Seite:

Verfügbare Mistral AI-Modelle

Die folgenden Modelle sind von Mistral AI zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Mistral AI-Modell zuzugreifen.

Mistral Medium 3

Mistral Medium 3 ist ein vielseitiges Modell, das für eine Vielzahl von Aufgaben entwickelt wurde, darunter Programmierung, mathematisches Denken, das Verstehen langer Dokumente, Zusammenfassung und Dialog. Es eignet sich hervorragend für komplexe Aufgaben, die fortgeschrittene Logikfähigkeiten, visuelles Verständnis oder ein hohes Maß an Spezialisierung erfordern (z.B. kreatives Schreiben, Agent-Workflows, Codegenerierung).

Es bietet multimodale Funktionen, mit denen visuelle Eingaben verarbeitet werden können, und unterstützt Dutzende von Sprachen, darunter über 80 Programmiersprachen. Außerdem bietet sie Funktionsaufrufe und Agent-basierte Workflows.

Mistral Medium 3 ist für die Inferenz auf einem einzelnen Knoten optimiert, insbesondere für Anwendungen mit langem Kontext. Aufgrund seiner Größe kann auf einem einzelnen Knoten ein hoher Durchsatz erzielt werden.

Zur Modellkarte für Mistral Medium 3

Mistral OCR (25.05)

Mistral OCR (25.05) ist eine API zur optischen Zeichenerkennung (Optical Character Recognition, OCR) für das Verständnis von Dokumenten. Mistral OCR (25.05) zeichnet sich durch das Verständnis komplexer Dokumentelemente aus, darunter verschachtelte Bilder, mathematische Ausdrücke, Tabellen und erweiterte Layouts wie die LaTeX-Formatierung. Das Modell ermöglicht ein besseres Verständnis von umfangreichen Dokumenten wie wissenschaftlichen Artikeln mit Diagrammen, Grafiken, Gleichungen und Abbildungen.

Mistral OCR (25.05) ist ein ideales Modell für die Verwendung in Kombination mit einem RAG-System, das multimodale Dokumente (z. B. Folien oder komplexe PDFs) als Eingabe verwendet.

Sie können Mistral OCR (25.05) mit anderen Mistral-Modellen kombinieren, um die Ergebnisse neu zu formatieren. Diese Kombination sorgt dafür, dass die extrahierten Inhalte nicht nur korrekt sind, sondern auch strukturiert und kohärent präsentiert werden, sodass sie für verschiedene Downstream-Anwendungen und Analysen geeignet sind.

Zur Modellkarte „Mistral OCR“ (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) bietet multimodale Funktionen und einen Kontext von bis zu 128.000 Tokens. Das Modell kann visuelle Eingaben und lange Dokumente verarbeiten und verstehen. Dadurch wird der Anwendungsbereich im Vergleich zum vorherigen Mistral AI Small-Modell noch erweitert. Mistral Small 3.1 (25.03) ist ein vielseitiges Modell, das für verschiedene Aufgaben wie Programmierung, mathematisches Denken, Dokumentverständnis und Dialog entwickelt wurde. Mistral Small 3.1 (25.03) wurde für Anwendungen mit niedriger Latenz entwickelt und bietet im Vergleich zu Modellen mit derselben Qualität eine erstklassige Effizienz.

Mistral Small 3.1 (25.03) wurde einem vollständigen Post-Training-Prozess unterzogen, um das Modell an menschliche Präferenzen und Bedürfnisse anzupassen. Dadurch ist es sofort für Anwendungen nutzbar, die Chat oder die genaue Befolgung von Anweisungen erfordern.

Zur Modellkarte „Mistral Small 3.1“ (25.03)

Codestral 2

Codestral 2 ist das auf Codegenerierung spezialisierte Modell von Mistral, das speziell für die hochpräzise Vervollständigung von FIM (Fill-in-the-Middle) entwickelt wurde. Sie hilft Entwicklern, Code über einen gemeinsamen API-Endpunkt für Anweisungen und Vervollständigungen zu schreiben und mit ihm zu interagieren. Da es Code beherrscht und sich auch in einer Vielzahl von Sprachen unterhalten kann, lässt es sich verwenden, um fortschrittliche KI-Anwendungen für Softwareentwickler zu entwickeln.

Die aktuelle Version von Codestral 2 bietet messbare Verbesserungen gegenüber der vorherigen Version Codestral (25.01):

30% mehr akzeptierte Vervollständigungen.
10% mehr beibehaltene Codezeilen nach dem Vorschlag.
50% weniger Ausreißer-Generationen, was die Zuverlässigkeit bei längeren Bearbeitungen verbessert.

Verbesserte Leistung bei akademischen Benchmarks für FIM-Vervollständigung mit kurzem und langem Kontext.

Code generieren: Codevervollständigung, Vorschläge, Übersetzung.
Code verstehen und dokumentieren: Code zusammenfassen und erklären.
Codequalität: Code Review, Refactoring, Fehlerbehebung und Generierung von Testläufen.
Code-Fill-in-the-Middle: Nutzer können den Startpunkt des Codes mit einem Prompt und den Endpunkt des Codes mit einem optionalen Suffix und einem optionalen Stopp definieren. Das Codestral-Modell generiert dann den Code, der dazwischen passt. Das ist ideal für Aufgaben, bei denen ein bestimmter Codeabschnitt generiert werden muss.

Zur Codestral 2-Modellkarte

Mistral AI-Modelle verwenden

Sie können curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:

Verwenden Sie für Mistral Medium 3 mistral-medium-3.
Verwenden Sie für Mistral OCR (25.05) mistral-ocr-2505.
Verwenden Sie für Mistral Small 3.1 (25.03) mistral-small-2503.
Für Codestral 2 verwenden Sie codestral-2.

Weitere Informationen zur Verwendung des Mistral AI SDK finden Sie in der Dokumentation zu Mistral AI Vertex AI.

Hinweise

Führen Sie die folgenden Schritte aus, um Mistral AI-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:

Streaming-Aufruf an ein Mistral AI-Modell senden

Im folgenden Beispiel wird ein Streaming-Aufruf an ein Mistral AI-Modell gesendet.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

JSON-Text der Anfrage:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt haben, die Sie automatisch in der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Unären Aufruf an ein Mistral AI-Modell senden

Im folgenden Beispiel wird ein unärer Aufruf an ein Mistral AI-Modell ausgeführt.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON-Text der Anfrage:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Verfügbarkeit und Kontingente der Mistral AI-Modellregion

Bei Mistral AI-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.

Modell	Region	Kontingente	Kontextlänge
Mistral Medium 3
	`us-central1`	QPM: 90 TPM: 315.000	128.000
	`europe-west4`	QPM: 90 TPM: 315.000	128.000
Mistral OCR (25.05)
	`us-central1`	QPM: 30 Seiten pro Anfrage: 30 (1 Seite = 1 Million Eingabetokens und 1 Million Ausgabetokens)	30 Seiten
	`europe-west4`	QPM: 30 Seiten pro Anfrage: 30 (1 Seite = 1 Million Eingabetokens und 1 Million Ausgabetokens)	30 Seiten
Mistral Small 3.1 (25.03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Codestral 2
	`us-central1`	Abfragen pro Minute: 1.100 Eingabe-TPM: 1.100.000 Ausgabe-TPM: 110.000	128.000 Token
	`europe-west4`	Abfragen pro Minute: 1.100 Eingabe-TPM: 1.100.000 Ausgabe-TPM: 110.000	128.000 Token

Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Cloud-Kontingente – Übersicht.

Mistral AI-Modelle Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Verfügbare Mistral AI-Modelle

Mistral Medium 3

Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Codestral 2

Mistral AI-Modelle verwenden

Hinweise

Streaming-Aufruf an ein Mistral AI-Modell senden

REST

curl

PowerShell

Antwort

Unären Aufruf an ein Mistral AI-Modell senden

REST

curl

PowerShell

Antwort

Verfügbarkeit und Kontingente der Mistral AI-Modellregion

Mistral AI-Modelle