Model Kimi di Vertex AI menawarkan model yang terkelola sepenuhnya dan serverless sebagai API. Untuk menggunakan model Kimi di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Kimi menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk mengalirkan respons secara bertahap.
Model Kimi yang tersedia
Model berikut tersedia dari Kimi untuk digunakan di Vertex AI. Untuk mengakses model Kimi, buka kartu modelnya di Model Garden.
Kimi K2 Thinking
Kimi K2 Thinking adalah model pemikiran dari Kimi yang unggul dalam pemecahan masalah yang kompleks dan penalaran yang mendalam.
Buka kartu model Kimi K2 Thinking
Menggunakan model Kimi
Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk Penalaran Kimi K2, gunakan
kimi-k2-thinking-maas
Untuk mempelajari cara melakukan panggilan streaming dan non-streaming ke model Kimi, lihat Memanggil API model terbuka.
Ketersediaan wilayah dan kuota model Kimi
Untuk model Kimi, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).
| Model | Wilayah | Kuota | Panjang konteks |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut kuota, lihat Ringkasan Kuota Cloud.
Langkah berikutnya
- Pelajari cara Memanggil API model terbuka.