Halaman ini diterjemahkan oleh Cloud Translation API.

Model Mistral AI

Model Mistral AI di Vertex AI menawarkan model terkelola sepenuhnya dan serverless sebagai API. Untuk menggunakan model Mistral AI di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Mistral AI menggunakan API terkelola, tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Anda membayar model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Mistral AI di halaman harga Vertex AI

page.

Model Mistral AI yang tersedia

Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model Mistral AI, buka kartu model Model Garden-nya.

Mistral Medium 3

Mistral Medium 3 adalah model serbaguna yang dirancang untuk berbagai tugas, termasuk pemrograman, penalaran matematika, pemahaman dokumen panjang, peringkasan, dan dialog. Gemini Advanced unggul dalam tugas kompleks yang memerlukan kemampuan penalaran tingkat lanjut, pemahaman visual, atau tingkat spesialisasi yang tinggi (misalnya, penulisan kreatif, alur kerja agentic, pembuatan kode).

Gemini memiliki kemampuan multi-modal, sehingga dapat memproses input visual, dan mendukung puluhan bahasa, termasuk lebih dari 80 bahasa coding. Selain itu, fitur ini memiliki panggilan fungsi dan alur kerja agentik.

Mistral Medium 3 dioptimalkan untuk inferensi satu node, terutama untuk aplikasi konteks panjang. Ukurannya memungkinkan untuk mencapai throughput tinggi pada satu node.

Buka kartu model Mistral Medium 3

Mistral OCR (25.05)

Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Mistral OCR (25.05) unggul dalam memahami elemen dokumen yang kompleks, termasuk gambar yang disisipkan, ekspresi matematika, tabel, dan tata letak lanjutan seperti pemformatan LaTeX. Model ini memungkinkan pemahaman yang lebih mendalam tentang dokumen kaya konten seperti makalah ilmiah dengan diagram, grafik, persamaan, dan gambar.

Mistral OCR (25.05) adalah model ideal untuk digunakan bersama dengan sistem RAG yang menggunakan dokumen multimodal (seperti slide atau PDF kompleks) sebagai input.

Anda dapat menggabungkan Mistral OCR (25.05) dengan model Mistral lainnya untuk memformat ulang hasilnya. Kombinasi ini memastikan bahwa konten yang diekstrak tidak hanya akurat, tetapi juga disajikan secara terstruktur dan koheren, sehingga cocok untuk berbagai aplikasi dan analisis hilir.

Buka kartu model Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) memiliki kemampuan multimodal dan konteks hingga 128.000. Model ini dapat memproses dan memahami input visual dan dokumen panjang, sehingga memperluas jangkauan penerapannya dibandingkan dengan model Mistral AI Small sebelumnya. Mistral Small 3.1 (25.03) adalah model serbaguna yang dirancang untuk berbagai tugas seperti pemrograman, penalaran matematika, pemahaman dokumen, dan dialog. Mistral Small 3.1 (25.03) dirancang untuk aplikasi latensi rendah guna memberikan efisiensi terbaik di kelasnya dibandingkan dengan model dengan kualitas yang sama.

Mistral Small 3.1 (25.03) telah menjalani proses pasca-pelatihan penuh untuk menyelaraskan model dengan preferensi dan kebutuhan manusia, sehingga dapat langsung digunakan untuk aplikasi yang memerlukan chat atau mengikuti petunjuk yang tepat.

Buka kartu model Mistral Small 3.1 (25.03)

Codestral 2

Codestral 2 adalah model khusus pembuatan kode Mistral yang dibuat khusus untuk penyelesaian isi di tengah (FIM) dengan presisi tinggi. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan instruksi bersama. Karena menguasai kode dan juga dapat melakukan percakapan dalam berbagai bahasa, Gemini dapat digunakan untuk mendesain aplikasi AI canggih bagi developer software.

Rilis terbaru Codestral 2 memberikan peningkatan terukur dibandingkan Codestral versi sebelumnya (25.01):

Peningkatan 30% dalam penyelesaian yang diterima.
10% lebih banyak kode yang dipertahankan setelah saran.
50% lebih sedikit generasi yang tidak terkendali, sehingga meningkatkan keyakinan dalam pengeditan yang lebih panjang.

Peningkatan performa pada tolok ukur akademis untuk penyelesaian FIM konteks pendek dan panjang.

Pembuatan kode: penyelesaian, saran, terjemahan kode.
Pemahaman dan dokumentasi kode: perangkuman dan penjelasan kode.
Kualitas kode: peninjauan kode, refaktorisasi, perbaikan bug, dan pembuatan kasus pengujian.
Pengisian kode di tengah: pengguna dapat menentukan titik awal kode menggunakan perintah, dan titik akhir kode menggunakan akhiran opsional dan penghentian opsional. Model Codestral kemudian akan menghasilkan kode yang sesuai di antaranya, sehingga ideal untuk tugas yang memerlukan pembuatan potongan kode tertentu.

Buka kartu model Codestral 2

Menggunakan model AI Mistral

Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:

Untuk Mistral Medium 3, gunakan mistral-medium-3
Untuk Mistral OCR (25.05), gunakan mistral-ocr-2505
Untuk Mistral Small 3.1 (25.03), gunakan mistral-small-2503
Untuk Codestral 2, gunakan codestral-2

Untuk mengetahui informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat dokumentasi Mistral AI Vertex AI.

Sebelum memulai

Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:

Melakukan panggilan streaming ke model AI Mistral

Contoh berikut melakukan panggilan streaming ke model AI Mistral.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model Mistral AI.
MODEL: Nama model yang ingin Anda gunakan. Di isi permintaan, kecualikan nomor versi model @.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Meminta isi JSON:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login, atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Melakukan panggilan unary ke model Mistral AI

Contoh berikut melakukan panggilan unary ke model Mistral AI.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model Mistral AI.
MODEL: Nama model yang ingin Anda gunakan. Di isi permintaan, kecualikan nomor versi model @.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Meminta isi JSON:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Ketersediaan dan kuota region model AI Mistral

Untuk model AI Mistral, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.

Model	Wilayah	Kuota	Panjang konteks
Mistral Medium 3
	`us-central1`	QPM: 90 TPM: 315.000	128.000
	`europe-west4`	QPM: 90 TPM: 315.000	128.000
Mistral OCR (25.05)
	`us-central1`	QPM: 30 Halaman per permintaan: 30 (1 halaman = 1 juta token input dan 1 juta token output)	30 halaman
	`europe-west4`	QPM: 30 Halaman per permintaan: 30 (1 halaman = 1 juta token input dan 1 juta token output)	30 halaman
Mistral Small 3.1 (25.03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Codestral 2
	`us-central1`	QPM: 1.100 Input TPM: 1.100.000 Output TPM: 110.000	128.000 token
	`europe-west4`	QPM: 1.100 Input TPM: 1.100.000 Output TPM: 110.000	128.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut kuota, lihat Ringkasan Kuota Cloud.

Model Mistral AI Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Model Mistral AI yang tersedia

Mistral Medium 3

Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Codestral 2

Menggunakan model AI Mistral

Sebelum memulai

Melakukan panggilan streaming ke model AI Mistral

REST

curl

PowerShell

Respons

Melakukan panggilan unary ke model Mistral AI

REST

curl

PowerShell

Respons

Ketersediaan dan kuota region model AI Mistral

Model Mistral AI