Model Grok xAI

Model xAI Grok tersedia untuk digunakan sebagai API terkelola di Gemini Enterprise Agent Platform. Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Model xAI terkelola

Model berikut tersedia dari xAI untuk digunakan di Gemini Enterprise Agent Platform. Untuk mengakses model xAI, buka kartu model Model Garden-nya.

Grok 4.3

Grok 4.3 adalah model unggulan xAI.

Buka kartu model Grok 4.3

Grok 4.20 (Penalaran)

Grok 4.20 (Penalaran) adalah model unggulan xAI, yang memiliki tingkat halusinasi rendah yang terkemuka di industri. Unggul dalam tugas pemahaman dokumen dan panggilan alat agentic cakrawala panjang.

Buka kartu model Grok 4.20 (Penalaran)

Grok 4.20 (Non-penalaran)

Grok 4.20 (Non-penalaran) adalah model non-pemikiran unggulan xAI, yang memiliki tingkat halusinasi rendah yang terkemuka di industri. Unggul dalam kasus penggunaan yang sensitif terhadap latensi seperti dukungan dan kategorisasi pelanggan.

Buka kartu model Grok 4.20 (Non-penalaran)

Grok 4.1 Cepat (Penalaran)

Grok 4.1 Cepat (Penalaran) adalah model xAI yang paling hemat biaya, yang memiliki kemampuan panggilan alat yang kuat dan sintesis basis pengetahuan yang efisien. Unggul dalam tugas penelusuran yang melibatkan data web dan alat basis pengetahuan internal.

Buka kartu model Grok 4.1 Cepat (Penalaran)

Grok 4.1 Cepat (Non-penalaran)

Grok 4.1 Cepat (Non-penalaran) adalah model non-pemikiran xAI yang paling hemat biaya, yang dioptimalkan untuk performa latensi rendah. Unggul dalam tugas bervolume tinggi seperti perangkuman dan kategorisasi.

Buka kartu model Grok 4.1 Cepat (Non-penalaran)

Menggunakan model xAI

Untuk model terkelola, Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Gemini Enterprise Agent Platform menggunakan nama model berikut. Untuk mempelajari cara melakukan panggilan streaming dan non-streaming ke model xAI, lihat Memanggil API model terbuka.

Untuk model terkelola, Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Gemini Enterprise Agent Platform menggunakan nama model berikut:

  • Untuk Grok 4.3, gunakan grok-4.3
  • Untuk Grok 4.20 (Penalaran), gunakan grok-4.20-reasoning
  • Untuk Grok 4.20 (Non-penalaran), gunakan grok-4.20-non-reasoning
  • Untuk Grok 4.1 Cepat (Penalaran), gunakan grok-4.1-fast-reasoning
  • Untuk Grok 4.1 Cepat (Non-penalaran), gunakan grok-4.1-fast-non-reasoning

Kuota Grok

Model Grok memiliki kuota global. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.

Untuk mempertahankan performa layanan secara keseluruhan dan penggunaan yang dapat diterima, kuota maksimum dapat bervariasi menurut akun dan, dalam beberapa kasus, akses mungkin dibatasi. Lihat kuota project Anda di halaman Kuota & Batas Sistem di Google Cloud konsol. Anda juga harus memiliki kuota berikut:

  • global_generate_content_requests_per_minute_per_project_per_base_model menentukan kuota QPM Anda.

  • Untuk TPM, ada dua nilai kuota yang berlaku untuk model tertentu: global_generate_content_input_tokens_per_minute_per_base_model menentukan kuota TPM input dan global_generate_content_output_tokens_per_minute_per_base_model menentukan kuota TPM output.

Untuk melihat model mana yang menghitung token input dan output secara terpisah, lihat halaman model tertentu.

Langkah berikutnya