Les modèles xAI Grok sont disponibles en tant qu'API gérées sur Gemini Enterprise Agent Platform. Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en streaming utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.
Modèles xAI gérés
Les modèles suivants sont disponibles auprès de xAI pour être utilisés dans Gemini Enterprise Agent Platform. Pour accéder à un modèle xAI, accédez à sa fiche de modèle dans Model Garden.
Grok 4.3
Grok 4.3 est le modèle phare de xAI.
Accéder à la fiche de modèle Grok 4.3
Grok 4.20 (raisonnement)
Grok 4.20 (raisonnement) est le modèle phare de xAI, offrant l'un des taux d'hallucination les plus bas du secteur. Il excelle dans les tâches de compréhension de documents et l'appel d'outils agentiques à long terme.
Accéder à la fiche de modèle Grok 4.20 (raisonnement)
Grok 4.20 (sans raisonnement)
Grok 4.20 (sans raisonnement) est le modèle sans raisonnement phare de xAI, offrant l'un des taux d'hallucination les plus bas du secteur. Il excelle dans les cas d'utilisation sensibles à la latence, comme l'assistance client et la catégorisation.
Accéder à la fiche de modèle Grok 4.20 (sans raisonnement)
Grok 4.1 Fast (raisonnement)
Grok 4.1 Fast (raisonnement) est le modèle le plus économique de xAI, bénéficiant de solides capacités d'appel d'outils et permettant une synthèse efficace des bases de connaissances. Il excelle dans les tâches de recherche impliquant des données Web et des outils de base de connaissances internes.
Accéder à la fiche de modèle Grok 4.1 Fast (raisonnement)
Grok 4.1 Fast (sans raisonnement)
Grok 4.1 Fast (sans raisonnement) est le modèle sans raisonnement le plus économique de xAI, optimisé pour offrir de bonnes performances et une faible latence. Il excelle dans les tâches à volume élevé, comme la synthèse et la catégorisation.
Accéder à la fiche de modèle Grok 4.1 Fast (sans raisonnement)
Utiliser des modèles xAI
Pour les modèles gérés, vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Gemini Enterprise Agent Platform à l'aide des noms de modèles suivants. Pour savoir comment effectuer des appels en streaming et sans streaming vers des modèles xAI, consultez Appeler des API de modèle ouvert.
Pour les modèles gérés, vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Gemini Enterprise Agent Platform à l'aide des noms de modèles suivants :
- Pour Grok 4.3, utilisez
grok-4.3 - Pour Grok 4.20 (raisonnement), utilisez
grok-4.20-reasoning - Pour Grok 4.20 (sans raisonnement), utilisez
grok-4.20-non-reasoning - Pour Grok 4.1 Fast (raisonnement), utilisez
grok-4.1-fast-reasoning - Pour Grok 4.1 Fast (sans raisonnement), utilisez
grok-4.1-fast-non-reasoning
Quotas Grok
Les modèles Grok disposent d'un quota global. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.
Dans l'optique de maintenir les performances globales du service et une utilisation acceptable, les quotas maximaux peuvent varier en fonction du compte et, dans certains cas, l'accès peut être limité. Consultez les quotas de votre projet sur la page Quotas et limites du système de la console Google Cloud . Vous devez également disposer des quotas suivants :
global_generate_content_requests_per_minute_per_project_per_base_modeldéfinit votre quota de RPM.Pour les TPM, deux valeurs de quota s'appliquent à des modèles spécifiques :
global_generate_content_input_tokens_per_minute_per_base_modeldéfinit le quota de TPM d'entrée etglobal_generate_content_output_tokens_per_minute_per_base_modeldéfinit le quota de TPM de sortie.
Pour savoir quels modèles comptabilisent les jetons d'entrée et de sortie séparément, consultez les pages de modèle spécifiques.
Étape suivante
- Découvrez comment Appeler des API de modèle ouvert.
- Découvrez comment Appeler l'API Responses.