Llama モデルは、Gemini Enterprise Agent Platform でマネージド API とセルフデプロイ モデルとして使用できます。レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミング レスポンスでは、サーバー送信イベント(SSE)を使用してレスポンスを段階的にストリーミングします。
マネージド Llama モデル
Llama モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Agent Platform で Llama モデルを使用するには、Agent Platform API エンドポイントにリクエストを直接送信します。Llama モデルをマネージド API として使用する場合、インフラストラクチャのプロビジョニングや管理は不要です。
Gemini Enterprise エージェント プラットフォームで使用できる Llama のモデルは次のとおりです。Llama モデルにアクセスするには、Model Garden のモデルカードに移動します。
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E は、コーディング、推論、画像処理の機能を備えた、最大かつ最も高性能な Llama 4 モデルです。このモデルは、総パラメータ数 4,000 億のうち 170 億のアクティブ パラメータと、128 のエキスパートを持つ Mixture-of-Experts(MoE)アーキテクチャを採用しています。Llama 4 Maverick 17B-128E は、密結合レイヤと MoE レイヤを交互に配置しており、各トークンが共有エキスパート 1 つと 128 のルーティングされたエキスパートから 1 つをアクティブにします。このモデルは 200 言語で事前トレーニングされ、洗練されたトレーニング後のパイプラインを通じて高品質のチャット インタラクションを実現するように最適化されています。
Llama 4 Maverick 17B-128E はマルチモーダルであり、高度な画像キャプション生成、分析、正確な画像理解、画像に基づく質問と回答、創造的なテキスト生成、汎用 AI アシスタント、最高レベルのインテリジェンスと画像理解を必要とする高度なチャットボットに適しています。
考慮事項
- リクエストごとに最大 3 つの画像を含めることができます。
- 以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的(128,000)であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
- バッチ予測はサポートされていません。
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルやプロプライエタリ モデルを上回っています。このモデルは、総パラメータ数 1,090 億のうち 170 億がアクティブになり、16 のエキスパートを持つ MoE アーキテクチャを採用しています。
Llama 4 Scout 17B-16E は、長大なコンテキスト内での検索タスクや、大量の情報を推論しながら扱うタスクに向いています。具体的には、複数の大規模なドキュメントの要約、パーソナライズのための広範なユーザー インタラクション ログの分析、大規模なコードベース全体をまたいだ推論などに適しています。
考慮事項
- リクエストごとに最大 3 つの画像を含めることができます。
- 以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的(128,000)であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
- バッチ予測はサポートされていません。
Llama 3.3
Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。
Llama モデルを使用する
マネージド モデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。Llama モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。
セルフデプロイされた Gemini Enterprise Agent Platform モデルを使用するには:
- Model Garden コンソールに移動します。
- 関連する Gemini Enterprise Agent Platform モデルを見つけます。
- [有効にする] をクリックし、表示されたフォームに記入して必要な商用利用ライセンスを取得します。
パートナー モデルのデプロイと使用の詳細については、パートナー モデルをデプロイして予測リクエストを行うをご覧ください。