xAI Grok モデル

xAI Grok モデルは、Gemini Enterprise Agent Platform でマネージド API として使用できます。レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミング レスポンスでは、サーバー送信イベント(SSE)を使用してレスポンスを段階的にストリーミングします。

マネージド xAI モデル

Gemini Enterprise Agent Platform で使用できる xAI のモデルは次のとおりです。xAI モデルにアクセスするには、Model Garden のモデルカードに移動します。

Grok 4.3

Grok 4.3 は xAI のフラッグシップ モデルです。

Grok 4.3 モデルカードに移動

Grok 4.20(推論)

Grok 4.20(推論)は xAI のフラッグシップ モデルで、業界をリードする低いハルシネーション率を特長としています。ドキュメント理解タスクと長期間のエージェント ツール呼び出しに優れています。

Grok 4.20(Reasoning)モデルカードに移動

Grok 4.20(非推論)

Grok 4.20(非推論)は、xAI のフラッグシップの非思考モデルで、業界をリードする低いハルシネーション率を特長としています。カスタマー サポートや分類など、レイテンシの影響を受けやすいユースケースに優れています。

Grok 4.20(非推論)モデルカードに移動

Grok 4.1 Fast(推論)

Grok 4.1 Fast(推論)は、xAI の最も費用対効果の高いモデルで、強力なツール呼び出し機能と効率的なナレッジベース合成機能を備えています。ウェブデータと内部ナレッジベース ツールを含む検索タスクに優れています。

Grok 4.1 Fast(Reasoning)モデルカードに移動

Grok 4.1 Fast(非推論)

Grok 4.1 Fast(非推論)は、xAI の最も費用対効果の高い非思考モデルで、低レイテンシのパフォーマンスに最適化されています。要約や分類などの大量のタスクに優れています。

Grok 4.1 Fast(非推論)モデルカードに移動

xAI モデルを使用する

マネージド モデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。xAI モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。

マネージド モデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。

  • Grok 4.3 の場合は grok-4.3 を使用します。
  • Grok 4.20(Reasoning)の場合は、grok-4.20-reasoning を使用します
  • Grok 4.20(非推論)の場合は、grok-4.20-non-reasoning を使用します
  • Grok 4.1 Fast(Reasoning)の場合は、grok-4.1-fast-reasoning を使用します
  • Grok 4.1 Fast(非推論)の場合は、grok-4.1-fast-non-reasoning を使用します

Grok の割り当て

Grok モデルにはグローバル割り当てがあります。割り当ては、1 分あたりのクエリ数(QPM)と 1 分あたりのトークン数(TPM)で指定されます。TPM には、入力トークンと出力トークンの両方が含まれます。

サービスの全体的なパフォーマンスと利用規定を維持するために、割り当て上限はアカウントによって異なる場合があります。また、アクセスが制限される場合もあります。自身のプロジェクトの割り当ては、 Google Cloud コンソールの [Quotas & Systems Limits] ページで確認してください。また、次の割り当ても使用可能である必要があります。

  • global_generate_content_requests_per_minute_per_project_per_base_model は、QPM 割り当てを定義します。

  • TPM には、特定のモデルに適用される 2 つの割り当て値があります。global_generate_content_input_tokens_per_minute_per_base_model は入力 TPM 割り当てを定義し、global_generate_content_output_tokens_per_minute_per_base_model は出力 TPM 割り当てを定義します。

入力トークンと出力トークンを別々にカウントするモデルについては、特定のモデルのページをご覧ください。

次のステップ