Model Mistral AI di Vertex AI menawarkan model terkelola sepenuhnya dan tanpa server sebagai API. Untuk menggunakan model Mistral AI di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Mistral AI menggunakan API terkelola, tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Anda membayar model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Mistral AI di halaman harga Vertex AI
Model Mistral AI yang tersedia
Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model AI Mistral, buka kartu model Model Garden-nya.
Mistral Medium 3
Mistral Medium 3 adalah model serbaguna yang dirancang untuk berbagai tugas, termasuk pemrograman, penalaran matematika, pemahaman dokumen panjang, peringkasan, dan dialog. Gemini unggul dalam tugas kompleks yang memerlukan kemampuan penalaran tingkat lanjut, pemahaman visual, atau tingkat spesialisasi yang tinggi (misalnya, penulisan kreatif, alur kerja agentic, pembuatan kode).
Gemini memiliki kemampuan multi-modal, sehingga dapat memproses input visual, dan mendukung puluhan bahasa, termasuk lebih dari 80 bahasa coding. Selain itu, model ini memiliki kemampuan panggilan fungsi dan alur kerja berbasis agen.
Mistral Medium 3 dioptimalkan untuk inferensi satu node, terutama untuk aplikasi konteks panjang. Ukuran ini memungkinkannya mencapai throughput tinggi pada satu node.
Buka kartu model Mistral Medium 3
Mistral OCR (25.05)
Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Mistral OCR (25.05) unggul dalam memahami elemen dokumen yang kompleks, termasuk gambar yang disisipkan, ekspresi matematika, tabel, dan tata letak lanjutan seperti pemformatan LaTeX. Model ini memungkinkan pemahaman yang lebih mendalam tentang dokumen lengkap seperti makalah ilmiah dengan diagram, grafik, persamaan, dan gambar.
Mistral OCR (25.05) adalah model ideal untuk digunakan bersama dengan sistem RAG yang menggunakan dokumen multimodal (seperti slide atau PDF kompleks) sebagai input.
Anda dapat menggabungkan Mistral OCR (25.05) dengan model Mistral lainnya untuk memformat ulang hasilnya. Kombinasi ini memastikan bahwa konten yang diekstrak tidak hanya akurat, tetapi juga disajikan secara terstruktur dan koheren, sehingga cocok untuk berbagai aplikasi dan analisis hilir.
Buka kartu model Mistral OCR (25.05)
Mistral Small 3.1 (25.03)
Mistral Small 3.1 (25.03) memiliki kemampuan multimodal dan konteks hingga 128.000. Model ini dapat memproses dan memahami input visual serta dokumen panjang, sehingga memperluas jangkauan penerapannya dibandingkan dengan model Mistral AI Small sebelumnya. Mistral Small 3.1 (25.03) adalah model serbaguna yang dirancang untuk berbagai tugas seperti pemrograman, penalaran matematika, pemahaman dokumen, dan dialog. Mistral Small 3.1 (25.03) dirancang untuk aplikasi latensi rendah guna memberikan efisiensi terbaik di kelasnya dibandingkan dengan model dengan kualitas yang sama.
Mistral Small 3.1 (25.03) telah menjalani proses pasca-pelatihan penuh untuk menyelaraskan model dengan preferensi dan kebutuhan manusia, sehingga dapat langsung digunakan untuk aplikasi yang memerlukan chat atau mengikuti petunjuk yang tepat.
Buka kartu model Mistral Small 3.1 (25.03)
Mistral Large (24.11)
Mistral Large (24.11) adalah versi terbaru model Large dari Mistral AI yang kini memiliki kemampuan penalaran dan panggilan fungsi yang lebih baik.
- Berfokus pada agen: kemampuan agen terbaik di kelasnya dengan panggilan fungsi bawaan dan output JSON.
- Dirancang untuk berbagai bahasa: mendukung puluhan bahasa, termasuk Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda, dan Polandia
- Mahir dalam coding: dilatih dengan lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih dengan bahasa yang lebih spesifik seperti Swift dan Fortran
- Penalaran tingkat lanjut: kemampuan matematika dan penalaran canggih.
Buka kartu model Mistral Large (24.11)
Codestral 2
Codestral 2 adalah model khusus pembuatan kode Mistral yang dibuat khusus untuk penyelesaian isi di tengah (FIM) dengan presisi tinggi. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan petunjuk bersama. Karena menguasai kode dan juga dapat melakukan percakapan dalam berbagai bahasa, Gemini dapat digunakan untuk mendesain aplikasi AI canggih bagi developer software.
Rilis terbaru Codestral 2 memberikan peningkatan terukur dibandingkan Codestral versi sebelumnya (25.01):
- Peningkatan penyelesaian yang diterima sebesar 30%.
- 10% lebih banyak kode yang dipertahankan setelah saran.
- 50% lebih sedikit generasi yang tidak terkendali, sehingga meningkatkan keyakinan dalam pengeditan yang lebih panjang.
Peningkatan performa pada tolok ukur akademis untuk penyelesaian FIM konteks pendek dan panjang.
- Pembuatan kode: penyelesaian, saran, terjemahan kode.
- Pemahaman dan dokumentasi kode: perangkuman dan penjelasan kode.
- Kualitas kode: peninjauan kode, refaktorisasi, perbaikan bug, dan pembuatan kasus pengujian.
- Pengisian kode di tengah: pengguna dapat menentukan titik awal kode menggunakan perintah, dan titik akhir kode menggunakan akhiran opsional dan penghentian opsional. Model Codestral kemudian akan menghasilkan kode yang sesuai di antaranya, sehingga ideal untuk tugas yang memerlukan pembuatan potongan kode tertentu.
Codestral (25.01)
Codestral (25.01) dirancang untuk tugas pembuatan kode. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan petunjuk bersama. Karena menguasai kode bersama dengan kemampuannya untuk berkomunikasi dalam berbagai bahasa, Anda dapat menggunakan Codestral (25.01) untuk mendesain aplikasi AI canggih bagi developer software.
- Codestral (25.01) fasih dalam lebih dari 80 bahasa pemrograman, termasuk Python, Java, C, C++, JavaScript, dan Bash. Model ini juga berperforma baik pada bahasa yang lebih spesifik seperti Swift dan Fortran.
- Codestral (25.01) membantu meningkatkan produktivitas developer dan mengurangi error: Codestral (25.01) dapat menyelesaikan fungsi coding, menulis pengujian, dan menyelesaikan kode parsial menggunakan mekanisme pengisian di tengah.
- Codestral (25.01) memberikan standar baru dalam ruang performa dan latensi hanya dengan parameter 24B dan jendela konteks 128.000.
Codestral (25.01) dioptimalkan untuk kasus penggunaan berikut:
- Membuat kode dan memberikan penyelesaian, saran, dan terjemahan kode.
- Menambahkan kode di antara titik awal dan akhir yang ditentukan pengguna, sehingga ideal untuk tugas yang memerlukan pembuatan kode tertentu.
- Merangkum dan menjelaskan kode Anda.
- Meninjau kualitas kode Anda dengan membantu memfaktorkan ulang kode, memperbaiki bug, dan membuat kasus pengujian.
Buka kartu model Codestral (25.01)
Menggunakan model AI Mistral
Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk Mistral Medium 3, gunakan
mistral-medium-3
- Untuk Mistral OCR (25.05), gunakan
mistral-ocr-2505
- Untuk Mistral Small 3.1 (25.03), gunakan
mistral-small-2503
- Untuk Mistral Large (24.11), gunakan
mistral-large-2411
- Untuk Codestral 2, gunakan
codestral-2
- Untuk Codestral (25.01), gunakan
codestral-2501
Untuk mengetahui informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat dokumentasi Mistral AI Vertex AI.
Sebelum memulai
Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan untuk menggunakan
Vertex AI. Jika sudah memiliki project dengan
Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat
project baru.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
- LOCATION: Region yang mendukung model Mistral AI.
- MODEL: Nama model yang ingin Anda gunakan. Di
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi bagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- LOCATION: Region yang mendukung model Mistral AI.
- MODEL: Nama model yang ingin Anda gunakan. Di
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi bagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- QPM: 90
- TPM: 315.000
- QPM: 90
- TPM: 315.000
- QPM: 30
- Halaman per permintaan: 30 (1 halaman = 1 juta token input dan 1 juta token output)
- QPM: 30
- Halaman per permintaan: 30 (1 halaman = 1 juta token input dan 1 juta token output)
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 1.100
- Input TPM: 1.100.000
- Output TPM: 110.000
- QPM: 1.100
- Input TPM: 1.100.000
- Output TPM: 110.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
Melakukan panggilan streaming ke model AI Mistral
Contoh berikut melakukan panggilan streaming ke model AI Mistral.
REST
Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan unary ke model Mistral AI
Contoh berikut melakukan panggilan unary ke model Mistral AI.
REST
Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan dan kuota region model AI Mistral
Untuk model AI Mistral, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.
Model | Wilayah | Kuota | Panjang konteks |
---|---|---|---|
Mistral Medium 3 | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral OCR (25.05) | |||
us-central1 |
|
30 halaman | |
europe-west4 |
|
30 halaman | |
Mistral Small 3.1 (25.03) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Large (24.11) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Codestral 2 | |||
us-central1 |
|
128.000 token | |
europe-west4 |
|
128.000 token | |
Codestral (25.01) | |||
us-central1 |
|
32.000 | |
europe-west4 |
|
32.000 |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut kuota, lihat Ringkasan Cloud Quotas.