I modelli xAI Grok sono disponibili per l'utilizzo come API gestite su Gemini Enterprise Agent Platform. Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming la risposta in modo incrementale.
Modelli xAI gestiti
I seguenti modelli sono disponibili da xAI per l'utilizzo in Gemini Enterprise Agent Platform. Per accedere a un modello xAI, vai alla relativa scheda del modello Model Garden.
Grok 4.20 (Reasoning)
Grok 4.20 (Reasoning) è il modello di punta di xAI, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle nelle attività di comprensione dei documenti e nelle chiamate di strumenti agentici a lungo termine.
Vai alla scheda del modello Grok 4.20 (Reasoning)
Grok 4.20 (senza ragionamento)
Grok 4.20 (Non-Reasoning) è il modello non di pensiero di punta di xAI, caratterizzato da un tasso di allucinazione basso e leader del settore. Eccelle in casi d'uso sensibili alla latenza come l'assistenza clienti e la categorizzazione.
Vai alla scheda del modello Grok 4.20 (senza ragionamento)
Grok 4.1 Fast (ragionamento)
Grok 4.1 Fast (Reasoning) è il modello più conveniente di xAI, con solide funzionalità di chiamata degli strumenti e sintesi efficiente della knowledge base. Eccelle nelle attività di ricerca che coinvolgono dati web e strumenti della knowledge base interna.
Vai alla scheda del modello Grok 4.1 Fast (Reasoning)
Grok 4.1 Fast (Non-Reasoning)
Grok 4.1 Fast (Non-Reasoning) è il modello non pensante più conveniente di xAI, ottimizzato per prestazioni a bassa latenza. Eccelle in attività con volumi elevati come riassunto e categorizzazione.
Vai alla scheda del modello Grok 4.1 Fast (Non-Reasoning)
Utilizzare i modelli xAI
Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint Gemini Enterprise Agent Platform utilizzando i seguenti nomi di modelli. Per scoprire come effettuare chiamate di streaming e non di streaming ai modelli xAI, consulta Chiamare le API dei modelli aperti.
Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint Gemini Enterprise Agent Platform utilizzando i seguenti nomi di modelli:
- Per Grok 4.20 (Reasoning), utilizza
grok-4.20-reasoning - Per Grok 4.20 (Non-Reasoning), utilizza
grok-4.20-non-reasoning - Per Grok 4.1 Fast (Reasoning), utilizza
grok-4.1-fast-reasoning - Per Grok 4.1 Fast (Non-Reasoning), utilizza
grok-4.1-fast-non-reasoning
Quote di Grok
I modelli Grok hanno una quota globale. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). TPM include sia i token di input che di output.
Per mantenere le prestazioni complessive del servizio e un utilizzo accettabile, le quote massime possono variare in base all'account e, in alcuni casi, l'accesso potrebbe essere limitato. Visualizza le quote del tuo progetto nella pagina Quote e limiti di sistema della console Google Cloud . Devi anche disporre delle seguenti quote:
global_generate_content_requests_per_minute_per_project_per_base_modeldefinisce la quota di QPM.Per TPM, esistono due valori di quota che si applicano a modelli particolari:
global_generate_content_input_tokens_per_minute_per_base_modeldefinisce la quota TPM di input eglobal_generate_content_output_tokens_per_minute_per_base_modeldefinisce la quota TPM di output.
Per scoprire quali modelli conteggiano separatamente i token di input e output, consulta le pagine dei modelli specifici.
Passaggi successivi
- Scopri come chiamare API open model.