I modelli xAI Grok sono disponibili per l'utilizzo come API gestite su Vertex AI. Puoi eseguire lo streaming delle risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.
Modelli xAI gestiti
I seguenti modelli sono disponibili da xAI per l'utilizzo in Vertex AI. Per accedere a un modello xAI, vai alla scheda del modello in Model Garden.
Grok 4.20 (Reasoning)
Grok 4.20 (Reasoning) è il modello di punta di xAI, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle nelle attività di comprensione dei documenti e nelle chiamate di strumenti agentici a lungo termine.
Vai alla scheda del modello Grok 4.20 (Reasoning)
Grok 4.20 (Non-Reasoning)
Grok 4.20 (Non-Reasoning) è il modello di punta di xAI senza ragionamento, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle nei casi d'uso sensibili alla latenza, come l'assistenza clienti e la categorizzazione.
Vai alla scheda del modello Grok 4.20 (Non-Reasoning)
Grok 4.1 Fast (Reasoning)
Grok 4.1 Fast (Reasoning) è il modello più conveniente di xAI, caratterizzato da solide funzionalità di chiamata degli strumenti e da una sintesi efficiente della knowledge base. Eccelle nelle attività di ricerca che coinvolgono dati web e strumenti di knowledge base interni.
Vai alla scheda del modello Grok 4.1 Fast (Reasoning)
Grok 4.1 Fast (Non-Reasoning)
Grok 4.1 Fast (Non-Reasoning) è il modello senza ragionamento più conveniente di xAI, ottimizzato per prestazioni a bassa latenza. Eccelle nelle attività ad alto volume come il riassunto e la categorizzazione.
Vai alla scheda del modello Grok 4.1 Fast (Non-Reasoning)
Utilizzare i modelli xAI
Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli. Per scoprire come effettuare chiamate in streaming e non in streaming ai modelli xAI, consulta Chiamare le API dei modelli aperti.
Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all' endpoint Vertex AI utilizzando i seguenti nomi di modelli:
- Per Grok 4.20 (Reasoning), utilizza
grok-4.20-reasoning - Per Grok 4.20 (Non-Reasoning), utilizza
grok-4.20-non-reasoning - Per Grok 4.1 Fast (Reasoning), utilizza
grok-4.1-fast-reasoning - Per Grok 4.1 Fast (Non-Reasoning), utilizza
grok-4.1-fast-non-reasoning
Quote di Grok
I modelli Grok hanno una quota globale. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). TPM include sia i token di input che di output.
Per mantenere le prestazioni complessive del servizio e un utilizzo accettabile, le quote massime potrebbero variare in base all'account e, in alcuni casi, l'accesso potrebbe essere limitato. Visualizza le quote del tuo progetto nella pagina Quote e limiti di sistema della console. Google Cloud Devi anche avere a disposizione le seguenti quote:
global_generate_content_requests_per_minute_per_project_per_base_modeldefinisce la quota QPM.Per TPM, esistono due valori di quota che si applicano a modelli specifici:
global_generate_content_input_tokens_per_minute_per_base_modeldefinisce la quota TPM di input eglobal_generate_content_output_tokens_per_minute_per_base_modeldefinisce la quota TPM di output.
Per vedere quali modelli contano separatamente i token di input e di output, consulta le pagine dei modelli specifici.
Passaggi successivi
- Scopri come chiamare le API dei modelli aperti.