Model xAI Grok tersedia untuk digunakan sebagai API terkelola di Gemini Enterprise Agent Platform. Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Model xAI terkelola
Model berikut tersedia dari xAI untuk digunakan di Gemini Enterprise Agent Platform. Untuk mengakses model xAI, buka kartu model Model Garden-nya.
Grok 4.3
Grok 4.3 adalah model unggulan xAI.
Grok 4.20 (Penalaran)
Grok 4.20 (Penalaran) adalah model unggulan xAI, yang memiliki tingkat halusinasi rendah yang terkemuka di industri. Unggul dalam tugas pemahaman dokumen dan panggilan alat agentic cakrawala panjang.
Buka kartu model Grok 4.20 (Penalaran)
Grok 4.20 (Non-penalaran)
Grok 4.20 (Non-penalaran) adalah model non-pemikiran unggulan xAI, yang memiliki tingkat halusinasi rendah yang terkemuka di industri. Unggul dalam kasus penggunaan yang sensitif terhadap latensi seperti dukungan dan kategorisasi pelanggan.
Buka kartu model Grok 4.20 (Non-penalaran)
Grok 4.1 Cepat (Penalaran)
Grok 4.1 Cepat (Penalaran) adalah model xAI yang paling hemat biaya, yang memiliki kemampuan panggilan alat yang kuat dan sintesis basis pengetahuan yang efisien. Unggul dalam tugas penelusuran yang melibatkan data web dan alat basis pengetahuan internal.
Buka kartu model Grok 4.1 Cepat (Penalaran)
Grok 4.1 Cepat (Non-penalaran)
Grok 4.1 Cepat (Non-penalaran) adalah model non-pemikiran xAI yang paling hemat biaya, yang dioptimalkan untuk performa latensi rendah. Unggul dalam tugas bervolume tinggi seperti perangkuman dan kategorisasi.
Buka kartu model Grok 4.1 Cepat (Non-penalaran)
Menggunakan model xAI
Untuk model terkelola, Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Gemini Enterprise Agent Platform menggunakan nama model berikut. Untuk mempelajari cara melakukan panggilan streaming dan non-streaming ke model xAI, lihat Memanggil API model terbuka.
Untuk model terkelola, Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Gemini Enterprise Agent Platform menggunakan nama model berikut:
- Untuk Grok 4.3, gunakan
grok-4.3 - Untuk Grok 4.20 (Penalaran), gunakan
grok-4.20-reasoning - Untuk Grok 4.20 (Non-penalaran), gunakan
grok-4.20-non-reasoning - Untuk Grok 4.1 Cepat (Penalaran), gunakan
grok-4.1-fast-reasoning - Untuk Grok 4.1 Cepat (Non-penalaran), gunakan
grok-4.1-fast-non-reasoning
Kuota Grok
Model Grok memiliki kuota global. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.
Untuk mempertahankan performa layanan secara keseluruhan dan penggunaan yang dapat diterima, kuota maksimum dapat bervariasi menurut akun dan, dalam beberapa kasus, akses mungkin dibatasi. Lihat kuota project Anda di halaman Kuota & Batas Sistem di Google Cloud konsol. Anda juga harus memiliki kuota berikut:
global_generate_content_requests_per_minute_per_project_per_base_modelmenentukan kuota QPM Anda.Untuk TPM, ada dua nilai kuota yang berlaku untuk model tertentu:
global_generate_content_input_tokens_per_minute_per_base_modelmenentukan kuota TPM input danglobal_generate_content_output_tokens_per_minute_per_base_modelmenentukan kuota TPM output.
Untuk melihat model mana yang menghitung token input dan output secara terpisah, lihat halaman model tertentu.
Langkah berikutnya
- Pelajari cara Memanggil API model terbuka.
- Pelajari cara Memanggil API Respons.