xAI Grok 모델은 Gemini Enterprise 에이전트 플랫폼에서 관리형 API로 사용할 수 있습니다. 대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트 (SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.
관리형 xAI 모델
다음 모델은 Gemini Enterprise 에이전트 플랫폼에서 사용할 수 있도록 xAI에서 제공됩니다. xAI 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
Grok 4.3
Grok 4.3은 xAI의 대표 모델입니다.
Grok 4.20 (추론)
Grok 4.20 (추론)은 업계 최고 수준의 낮은 할루시네이션 비율을 제공하는 xAI의 대표 모델입니다. 문서 이해 태스크와 장기 에이전트 도구 호출에 탁월합니다.
Grok 4.20 (비추론)
Grok 4.20 (비추론)은 업계 최고 수준의 낮은 할루시네이션 비율을 제공하는 xAI의 대표적인 비사고 모델입니다. 고객 지원 및 분류와 같이 지연 시간에 민감한 사용 사례에 탁월합니다.
Grok 4.1 Fast (추론)
Grok 4.1 Fast (추론)은 강력한 도구 호출 기능과 효율적인 기술 자료 합성을 제공하는 xAI의 가장 비용 효율적인 모델입니다. 웹 데이터 및 내부 기술 자료 도구와 관련된 검색 태스크에 탁월합니다.
Grok 4.1 Fast (비추론)
Grok 4.1 Fast (비추론)은 지연 시간이 짧은 성능에 최적화된 xAI의 가장 비용 효율적인 비사고 모델입니다. 요약 및 분류와 같은 대용량 태스크에 탁월합니다.
xAI 모델 사용
관리형 모델의 경우 다음 모델 이름을 사용하여 curl 명령어로 Gemini Enterprise Agent Platform 엔드포인트에 요청을 보낼 수 있습니다. xAI 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참조하세요.
관리형 모델의 경우 다음 모델 이름을 사용하여 curl 명령어로 Gemini Enterprise 에이전트 플랫폼 엔드포인트에 요청을 보낼 수 있습니다.
- Grok 4.3의 경우
grok-4.3을 사용합니다. - Grok 4.20 (추론)의 경우
grok-4.20-reasoning을 사용합니다. - Grok 4.20 (비추론)의 경우
grok-4.20-non-reasoning을 사용합니다. - Grok 4.1 Fast (추론)의 경우
grok-4.1-fast-reasoning을 사용합니다. - Grok 4.1 Fast (비추론)의 경우
grok-4.1-fast-non-reasoning을 사용합니다.
Grok 할당량
Grok 모델에는 전역 할당량이 있습니다. 할당량은 분당 쿼리 수 (QPM) 및 분당 토큰 수 (TPM)로 지정됩니다. TPM에는 입력 및 출력 토큰이 모두 포함됩니다.
전반적인 서비스 성능과 서비스이용(정책)을 유지하기 위해 최대 할당량은 계정에 따라 다를 수 있으며 경우에 따라 액세스가 제한될 수도 있습니다. Google Cloud 콘솔의 할당량 및 시스템 한도 페이지에서 프로젝트 할당량을 봅니다. 또한 다음 할당량을 사용할 수 있어야 합니다.
global_generate_content_requests_per_minute_per_project_per_base_model은 QPM 할당량을 정의합니다.TPM의 경우 특정 모델에 적용되는 두 가지 할당량 값이 있습니다.
global_generate_content_input_tokens_per_minute_per_base_model은 입력 TPM 할당량을 정의하고global_generate_content_output_tokens_per_minute_per_base_model은 출력 TPM 할당량을 정의합니다.
입력 토큰과 출력 토큰을 별도로 집계하는 모델을 확인하려면 특정 모델 페이지를 참고하세요.
다음 단계
- 개방형 모델 API를 호출하는 방법을 알아보세요.
- 응답 API를 호출하는 방법을 알아보세요.