Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

MaaS 用の Gemini Enterprise Agent Platform オープンモデル

Gemini Enterprise Agent Platform は、オープンモデルのキュレーションリストをマネージドモデルとしてサポートしています。これらのオープンモデルは、Gemini Enterprise Agent Platform で Model as a Service（MaaS）として使用でき、マネージド API として提供されます。マネージドオープンモデルを使用する場合、リクエストは引き続き Gemini Enterprise Agent Platform エンドポイントに送信されます。マネージドオープンモデルはサーバーレスであるため、インフラストラクチャをプロビジョニングしたり、管理したりする必要はありません。

マネージドオープンモデルは Model Garden で見つけることができます。Model Garden を使用してモデルをデプロイすることもできます。詳細については、Model Garden で AI モデルを探すをご覧ください。

オープンモデルを使用する前に、オープンモデルへのユーザーアクセス権を付与する必要があります。

オープンモデル

Gemini Enterprise Agent Platform Model Garden（MaaS）では次のオープンモデルがマネージド API として提供されます。

モデル名	モダリティ	説明	クイックスタート
DeepSeek-OCR	言語、ビジョン	複雑なドキュメントを分析して理解する包括的な光学式文字認識（OCR）モデル。難しい OCR タスクに優れています。	モデルカード
DeepSeek R1（0528）	言語	DeepSeek の DeepSeek R1 モデルのバージョン。	モデルカード
DeepSeek-V3.1	言語	思考モードと非思考モードの両方をサポートする DeepSeek のハイブリッドモデル。	モデルカード
DeepSeek-V3.2	言語	高い計算効率と優れた推論およびエージェントのパフォーマンスを調和させた DeepSeek のモデル。	モデルカード
Gemma 4 26B A4B IT	言語	Google DeepMind が構築した Google のオープンモデルのファミリー。	モデルカード
GLM 4.7	言語、コード	コアまたはバイブコーディング、ツール使用、複雑な推論用に設計された GLM のモデル。	モデルカード
GLM 5	言語、コード	複雑なシステムエンジニアリングと長期的なエージェントタスクを対象とする GLM のモデル。	モデルカード
gpt-oss 120B	言語	推論タスクで高いパフォーマンスを発揮する 120B モデル。	モデルカード
gpt-oss 20B	言語	消費者やエッジ用ハードウェア上での効率とデプロイに最適化された 20B モデル。	モデルカード
Kimi K2 思考モード	言語	ステップごとに推論し、ツールを使用して複雑な問題を解決するオープンソースの思考モードエージェントモデル。	モデルカード
Llama 3.3	言語	Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。また、一部のアプリケーションでは、Llama 3.3 70B のパフォーマンスが Llama 3.1 405B に近づきます。	モデルカード
Llama 4 Maverick 17B-128E	言語、ビジョン	コーディング、推論、画像処理の機能を備えた、最大かつ最高性能の Llama 4 モデル。Llama 4 Maverick 17B-128E は、Mixture of Experts（MoE）アーキテクチャと早期融合を使用するマルチモーダルモデルです。	モデルカード
Llama 4 Scout 17B-16E	言語、ビジョン	Llama 4 Scout 17B-16E は、そのサイズクラスで高パフォーマンスの結果を提供し、複数のベンチマークで他のオープンモデルや独自のモデルを上回っています。Llama 4 Scout 17B-16E は、Mixture-of-Experts（MoE）アーキテクチャと早期融合を使用するマルチモーダルモデルです。	モデルカード
MiniMax M2	言語、コード	エージェントタスクとコード関連タスク向けに設計されており、複雑なツール呼び出しタスクの計画と実行に優れた機能を発揮します。	モデルカード
Qwen3 235B	言語	体系的な推論と迅速な会話を切り替える「ハイブリッド思考」機能を備えたオープンウェイトモデル。	モデルカード
Qwen3 Coder	言語、コード	高度なソフトウェア開発タスク用に開発されたオープンウェイトモデル。	モデルカード
Qwen3-Next-80B Instruct	言語、コード	特定のコマンドに従うことに特化した Qwen3-Next ファミリーのモデル。	モデルカード
Qwen3-Next-80B Thinking	言語、コード	複雑な問題解決と深い推論に特化した Qwen3-Next モデルファミリーのモデル。	モデルカード

Gemini Enterprise Agent Platform Model Garden（MaaS）では次のオープンエンベディングモデルがマネージド API として提供されます。

モデル名	説明	出力のサイズ	シーケンスの最大長	サポートされているテキスト言語	クイックスタート
multilingual-e5-small	E5 ファミリーのテキストエンベディングモデルの一部。Small バリアントには 12 個のレイヤが含まれています。	最大 384	512 トークン	サポートされている言語	モデルカード
multilingual-e5-large	E5 ファミリーのテキストエンベディングモデルの一部。Large バリアントには 24 レイヤが含まれています。	最大 1,024	512 トークン	サポートされている言語	モデルカード

オープンモデルの規制遵守

Gemini Enterprise Agent Platform を使用してオープンモデルをマネージド API として使用する場合も、Gemini Enterprise Agent Platform の生成 AI の認定は引き続き適用されます。モデル自体について詳しくお知りになりたい場合は、それぞれのモデルカードで詳細情報を確認するか、それぞれのモデルのパブリッシャーにお問い合わせください。

データは、Gemini Enterprise Agent Platform のオープンモデル用に選択されたリージョンまたはマルチリージョン内に保存されますが、データ処理のリージョン化は異なる場合があります。オープンモデルのデータ処理に関するコミットメントの詳細なリストについては、オープンモデルのデータ所在地をご覧ください。

オープンモデルを含む Gemini Enterprise API を使用する場合、お客様のプロンプトとモデルのレスポンスは第三者と共有されません。Google は、お客様の指示によってのみ顧客データを処理します。詳細については、Cloud のデータ処理に関する追加条項をご覧ください。

コンテキストのキャッシュ保存

コンテキストキャッシュ保存は、繰り返されるコンテンツを含む Open Models へのリクエストの費用とレイテンシを削減するのに役立ちます。これは従量課金制トラフィックの使用中にのみ有効になり、プロビジョンドスループットやバッチなどの他のトラフィックタイプはサポートしていません。

サポートされているキャッシュ保存のタイプは暗黙的なキャッシュ保存です。これは、すべての Google Cloud プロジェクトでデフォルトで有効になっている自動キャッシュ保存です。キャッシュヒットが発生すると、キャッシュに保存されたトークンの費用は、標準の入力トークンと比較して 90% 削減されます。このタイプのキャッシュ保存では、キャッシュを明示的に定義して呼び出すことはありません。代わりに、繰り返しコンテキストが検出されると、バックエンドがこれらのキャッシュから取得します。

サポートされているモデル

qwen3-coder-480b-a35b-instruct-maas
kimi-k2-thinking-maas
minimax-m2-maas
gpt-oss-20b-maas
deepseek-v3.1-maas
deepseek-v3.2-maas
gemma-4-26b-a4b-it-maas

レスポンスのメタデータの cachedContentTokenCount フィールドは、入力のキャッシュに保存された部分のトークン数を示します。キャッシュ保存リクエストには、少なくとも 4,096 個のトークンが含まれている必要があります（この最小値はプレビュー期間中に変更される可能性があります）。

有効にすると、暗黙的なキャッシュヒットによる費用の削減が自動的に適用されます。キャッシュヒットは保証されず、送信されたリクエストやその他の要因によって異なります。暗黙的なキャッシュヒットの可能性を高めるには、次の方法をお試しください。

大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
類似した接頭辞を含むリクエストを短時間で送信します。

次のステップ

オープンモデルを使用する前に、ユーザーにオープンモデルへのアクセス権を付与します。
オープンモデル API を呼び出す方法を確認する。