Gemini Enterprise Agent Platform は、オープンモデルのキュレーション リストをマネージド モデルとしてサポートしています。これらのオープンモデルは、Gemini Enterprise Agent Platform で Model as a Service(MaaS)として使用でき、マネージド API として提供されます。マネージド オープンモデルを使用する場合、リクエストは引き続き Gemini Enterprise Agent Platform エンドポイントに送信されます。マネージド オープンモデルはサーバーレスであるため、インフラストラクチャをプロビジョニングしたり、管理したりする必要はありません。
マネージド オープンモデルは Model Garden で見つけることができます。Model Garden を使用してモデルをデプロイすることもできます。詳細については、Model Garden で AI モデルを探すをご覧ください。
オープンモデルを使用する前に、オープンモデルへのユーザー アクセス権を付与する必要があります。
オープンモデル
Gemini Enterprise Agent Platform Model Garden(MaaS)では次のオープンモデルがマネージド API として提供されます。
| モデル名 | モダリティ | 説明 | クイックスタート |
|---|---|---|---|
| DeepSeek-OCR | 言語、ビジョン | 複雑なドキュメントを分析して理解する包括的な光学式文字認識(OCR)モデル。難しい OCR タスクに優れています。 | モデルカード |
| DeepSeek R1(0528) | 言語 | DeepSeek の DeepSeek R1 モデルのバージョン。 | モデルカード |
| DeepSeek-V3.1 | 言語 | 思考モードと非思考モードの両方をサポートする DeepSeek のハイブリッド モデル。 | モデルカード |
| DeepSeek-V3.2 | 言語 | 高い計算効率と優れた推論およびエージェントのパフォーマンスを調和させた DeepSeek のモデル。 | モデルカード |
| Gemma 4 26B A4B IT | 言語 | Google DeepMind が構築した Google のオープンモデルのファミリー。 | モデルカード |
| GLM 4.7 | 言語、コード | コアまたはバイブ コーディング、ツール使用、複雑な推論用に設計された GLM のモデル。 | モデルカード |
| GLM 5 | 言語、コード | 複雑なシステム エンジニアリングと長期的なエージェント タスクを対象とする GLM のモデル。 | モデルカード |
| gpt-oss 120B | 言語 | 推論タスクで高いパフォーマンスを発揮する 120B モデル。 | モデルカード |
| gpt-oss 20B | 言語 | 消費者やエッジ用ハードウェア上での効率とデプロイに最適化された 20B モデル。 | モデルカード |
| Kimi K2 思考モード | 言語 | ステップごとに推論し、ツールを使用して複雑な問題を解決するオープンソースの思考モード エージェント モデル。 | モデルカード |
| Llama 3.3 | 言語 | Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。また、一部のアプリケーションでは、Llama 3.3 70B のパフォーマンスが Llama 3.1 405B に近づきます。 | モデルカード |
| Llama 4 Maverick 17B-128E | 言語、ビジョン | コーディング、推論、画像処理の機能を備えた、最大かつ最高性能の Llama 4 モデル。Llama 4 Maverick 17B-128E は、Mixture of Experts(MoE)アーキテクチャと早期融合を使用するマルチモーダル モデルです。 | モデルカード |
| Llama 4 Scout 17B-16E | 言語、ビジョン | Llama 4 Scout 17B-16E は、そのサイズクラスで高パフォーマンスの結果を提供し、複数のベンチマークで他のオープンモデルや独自のモデルを上回っています。Llama 4 Scout 17B-16E は、Mixture-of-Experts(MoE)アーキテクチャと早期融合を使用するマルチモーダル モデルです。 | モデルカード |
| MiniMax M2 | 言語、コード | エージェント タスクとコード関連タスク向けに設計されており、複雑なツール呼び出しタスクの計画と実行に優れた機能を発揮します。 | モデルカード |
| Qwen3 235B | 言語 | 体系的な推論と迅速な会話を切り替える「ハイブリッド思考」機能を備えたオープンウェイト モデル。 | モデルカード |
| Qwen3 Coder | 言語、コード | 高度なソフトウェア開発タスク用に開発されたオープンウェイト モデル。 | モデルカード |
| Qwen3-Next-80B Instruct | 言語、コード | 特定のコマンドに従うことに特化した Qwen3-Next ファミリーのモデル。 | モデルカード |
| Qwen3-Next-80B Thinking | 言語、コード | 複雑な問題解決と深い推論に特化した Qwen3-Next モデル ファミリーのモデル。 | モデルカード |
Gemini Enterprise Agent Platform Model Garden(MaaS)では次のオープン エンベディング モデルがマネージド API として提供されます。
| モデル名 | 説明 | 出力のサイズ | シーケンスの最大長 | サポートされているテキスト言語 | クイックスタート |
|---|---|---|---|---|---|
| multilingual-e5-small | E5 ファミリーのテキスト エンベディング モデルの一部。Small バリアントには 12 個のレイヤが含まれています。 | 最大 384 | 512 トークン | サポートされている言語 | モデルカード |
| multilingual-e5-large | E5 ファミリーのテキスト エンベディング モデルの一部。Large バリアントには 24 レイヤが含まれています。 | 最大 1,024 | 512 トークン | サポートされている言語 | モデルカード |
オープンモデルの規制遵守
Gemini Enterprise Agent Platform を使用してオープンモデルをマネージド API として使用する場合も、Gemini Enterprise Agent Platform の生成 AI の認定は引き続き適用されます。モデル自体について詳しくお知りになりたい場合は、それぞれのモデルカードで詳細情報を確認するか、それぞれのモデルのパブリッシャーにお問い合わせください。
データは、Gemini Enterprise Agent Platform のオープンモデル用に選択されたリージョンまたはマルチリージョン内に保存されますが、データ処理のリージョン化は異なる場合があります。オープンモデルのデータ処理に関するコミットメントの詳細なリストについては、オープンモデルのデータ所在地をご覧ください。
オープンモデルを含む Gemini Enterprise API を使用する場合、お客様のプロンプトとモデルのレスポンスは第三者と共有されません。Google は、お客様の指示によってのみ顧客データを処理します。詳細については、Cloud のデータ処理に関する追加条項をご覧ください。
コンテキストのキャッシュ保存
コンテキスト キャッシュ保存は、繰り返されるコンテンツを含む Open Models へのリクエストの費用とレイテンシを削減するのに役立ちます。これは従量課金制トラフィックの使用中にのみ有効になり、プロビジョンド スループットやバッチなどの他のトラフィック タイプはサポートしていません。サポートされているキャッシュ保存のタイプは暗黙的なキャッシュ保存です。これは、すべての Google Cloud プロジェクトでデフォルトで有効になっている自動キャッシュ保存です。キャッシュ ヒットが発生すると、キャッシュに保存されたトークンの費用は、標準の入力トークンと比較して 90% 削減されます。このタイプのキャッシュ保存では、キャッシュを明示的に定義して呼び出すことはありません。代わりに、繰り返しコンテキストが検出されると、バックエンドがこれらのキャッシュから取得します。
サポートされているモデル
- qwen3-coder-480b-a35b-instruct-maas
- kimi-k2-thinking-maas
- minimax-m2-maas
- gpt-oss-20b-maas
- deepseek-v3.1-maas
- deepseek-v3.2-maas
- gemma-4-26b-a4b-it-maas
レスポンスのメタデータの cachedContentTokenCount フィールドは、入力のキャッシュに保存された部分のトークン数を示します。キャッシュ保存リクエストには、少なくとも 4,096 個のトークンが含まれている必要があります(この最小値はプレビュー期間中に変更される可能性があります)。
有効にすると、暗黙的なキャッシュ ヒットによる費用の削減が自動的に適用されます。キャッシュ ヒットは保証されず、送信されたリクエストやその他の要因によって異なります。暗黙的なキャッシュ ヒットの可能性を高めるには、次の方法をお試しください。
- 大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
- 類似した接頭辞を含むリクエストを短時間で送信します。
次のステップ
- オープンモデルを使用する前に、ユーザーにオープンモデルへのアクセス権を付与します。
- オープンモデル API を呼び出す方法を確認する。