Model MiniMax di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan serverless. Untuk menggunakan model MiniMax di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model MiniMax menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk mengalirkan respons secara bertahap.
Model MiniMax yang tersedia
Model berikut tersedia dari MiniMax untuk digunakan di Vertex AI. Untuk mengakses model MiniMax, buka kartu modelnya di Model Garden.
MiniMax M2
MiniMax M2 adalah model dari MiniMax yang dirancang untuk tugas-tugas terkait kode dan agentik. Alat ini dibuat untuk alur kerja pengembangan menyeluruh dan memiliki kemampuan yang kuat dalam merencanakan dan menjalankan tugas panggilan alat yang kompleks. Model ini dioptimalkan untuk memberikan keseimbangan antara performa, biaya, dan kecepatan inferensi.
Menggunakan model MiniMax
Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk MiniMax M2, gunakan
minimax-m2-maas
Untuk mempelajari cara melakukan panggilan streaming dan non-streaming ke model MiniMax, lihat Memanggil API model terbuka.
Ketersediaan wilayah dan kuota model MiniMax
Untuk model MiniMax, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).
| Model | Wilayah | Kuota | Panjang konteks | Output maks |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196.608 | 4.096 |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut kuota, lihat Ringkasan Kuota Cloud.
Langkah berikutnya
- Pelajari cara Memanggil API model terbuka.