xAI Grok 모델은 Gemini Enterprise Agent Platform에서 관리 API로 사용할 수 있습니다. 대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트 (SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.
관리형 xAI 모델
Gemini Enterprise Agent Platform에서 사용할 수 있는 xAI 모델은 다음과 같습니다. xAI 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
Grok 4.20 (추론)
Grok 4.20 (Reasoning)은 업계 최고 수준의 낮은 할루시네이션 발생률을 자랑하는 xAI의 플래그십 모델입니다. 문서 이해 작업과 장기 에이전트 도구 호출에 탁월합니다.
Grok 4.20 (추론 없음)
Grok 4.20 (비추론)은 업계 최고 수준의 낮은 할루시네이션 비율을 자랑하는 xAI의 대표적인 비사고 모델입니다. 고객 지원 및 분류와 같은 지연 시간에 민감한 사용 사례에 탁월합니다.
Grok 4.1 Fast (추론)
Grok 4.1 Fast (추론)는 xAI의 가장 비용 효율적인 모델로, 강력한 도구 호출 기능과 효율적인 기술 자료 합성 기능을 갖추고 있습니다. 웹 데이터 및 내부 기술 자료 도구와 관련된 검색 작업에 능숙합니다.
Grok 4.1 Fast (비추론)
Grok 4.1 Fast (Non-Reasoning)는 xAI의 가장 비용 효율적인 비사고 모델로, 짧은 지연 시간 성능에 최적화되어 있습니다. 요약 및 분류와 같은 대량 작업을 능숙하게 처리합니다.
Grok 4.1 Fast (추론 불가) 모델 카드로 이동
xAI 모델 사용
관리형 모델의 경우 curl 명령어를 사용하여 다음 모델 이름으로 Gemini Enterprise Agent Platform 엔드포인트에 요청을 보낼 수 있습니다. xAI 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.
관리형 모델의 경우 curl 명령어를 사용하여 다음 모델 이름으로 Gemini Enterprise 에이전트 플랫폼 엔드포인트에 요청을 보낼 수 있습니다.
- Grok 4.20 (Reasoning)의 경우
grok-4.20-reasoning사용 - Grok 4.20 (추론 없음)의 경우
grok-4.20-non-reasoning사용 - Grok 4.1 Fast (Reasoning)의 경우
grok-4.1-fast-reasoning사용 - Grok 4.1 Fast (추론 없음)의 경우
grok-4.1-fast-non-reasoning사용
Grok 할당량
Grok 모델에는 전역 할당량이 있습니다. 할당량은 분당 쿼리 수(QPM) 및 분당 토큰 수(TPM)로 지정됩니다. TPM에는 입력 및 출력 토큰이 모두 포함됩니다.
전반적인 서비스 성능과 서비스이용(정책)을 유지하기 위해 최대 할당량은 계정에 따라 다를 수 있으며 경우에 따라 액세스가 제한될 수도 있습니다. Google Cloud 콘솔의 할당량 및 시스템 한도 페이지에서 프로젝트 할당량을 봅니다. 또한 다음 할당량을 사용할 수 있어야 합니다.
global_generate_content_requests_per_minute_per_project_per_base_model은 QPM 할당량을 정의합니다.TPM의 경우 특정 모델에 적용되는 할당량 값 2개가 있습니다.
global_generate_content_input_tokens_per_minute_per_base_model는 입력 TPM 할당량을 정의하고global_generate_content_output_tokens_per_minute_per_base_model는 출력 TPM 할당량을 정의합니다.
입력 토큰과 출력 토큰을 별도로 집계하는 모델을 확인하려면 특정 모델 페이지를 참고하세요.
다음 단계
- 개방형 모델 API를 호출하는 방법을 알아보세요.