Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

xAI Grok モデル

xAI Grok モデルは、Gemini Enterprise Agent Platform でマネージド API として使用できます。レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミングレスポンスでは、サーバー送信イベント（SSE）を使用してレスポンスを段階的にストリーミングします。

マネージド xAI モデル

Gemini Enterprise Agent Platform で使用できる xAI のモデルは次のとおりです。xAI モデルにアクセスするには、Model Garden のモデルカードに移動します。

Grok 4.3

Grok 4.3 は xAI のフラッグシップモデルです。

Grok 4.3 モデルカードに移動

Grok 4.20（推論）

Grok 4.20（推論）は xAI のフラッグシップモデルで、業界をリードする低いハルシネーション率を特長としています。ドキュメント理解タスクと長期間のエージェントツール呼び出しに優れています。

Grok 4.20（Reasoning）モデルカードに移動

Grok 4.20（非推論）

Grok 4.20（非推論）は、xAI のフラッグシップの非思考モデルで、業界をリードする低いハルシネーション率を特長としています。カスタマーサポートや分類など、レイテンシの影響を受けやすいユースケースに優れています。

Grok 4.20（非推論）モデルカードに移動

Grok 4.1 Fast（推論）

Grok 4.1 Fast（推論）は、xAI の最も費用対効果の高いモデルで、強力なツール呼び出し機能と効率的なナレッジベース合成機能を備えています。ウェブデータと内部ナレッジベースツールを含む検索タスクに優れています。

Grok 4.1 Fast（Reasoning）モデルカードに移動

Grok 4.1 Fast（非推論）

Grok 4.1 Fast（非推論）は、xAI の最も費用対効果の高い非思考モデルで、低レイテンシのパフォーマンスに最適化されています。要約や分類などの大量のタスクに優れています。

Grok 4.1 Fast（非推論）モデルカードに移動

xAI モデルを使用する

マネージドモデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。xAI モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。

マネージドモデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。

Grok 4.3 の場合は grok-4.3 を使用します。
Grok 4.20（Reasoning）の場合は、grok-4.20-reasoning を使用します
Grok 4.20（非推論）の場合は、grok-4.20-non-reasoning を使用します
Grok 4.1 Fast（Reasoning）の場合は、grok-4.1-fast-reasoning を使用します
Grok 4.1 Fast（非推論）の場合は、grok-4.1-fast-non-reasoning を使用します

Grok の割り当て

Grok モデルにはグローバル割り当てがあります。割り当ては、1 分あたりのクエリ数（QPM）と 1 分あたりのトークン数（TPM）で指定されます。TPM には、入力トークンと出力トークンの両方が含まれます。

サービスの全体的なパフォーマンスと利用規定を維持するために、割り当て上限はアカウントによって異なる場合があります。また、アクセスが制限される場合もあります。自身のプロジェクトの割り当ては、 Google Cloud コンソールの [Quotas & Systems Limits] ページで確認してください。また、次の割り当ても使用可能である必要があります。

global_generate_content_requests_per_minute_per_project_per_base_model は、QPM 割り当てを定義します。
TPM には、特定のモデルに適用される 2 つの割り当て値があります。global_generate_content_input_tokens_per_minute_per_base_model は入力 TPM 割り当てを定義し、global_generate_content_output_tokens_per_minute_per_base_model は出力 TPM 割り当てを定義します。

入力トークンと出力トークンを別々にカウントするモデルについては、特定のモデルのページをご覧ください。

次のステップ

オープンモデル API を呼び出す方法を確認する。
Responses API を呼び出す方法を確認する。