Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

フルマネージド Llama モデル

Llama モデルは、Gemini Enterprise Agent Platform でマネージド API とセルフデプロイモデルとして使用できます。レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミングレスポンスでは、サーバー送信イベント（SSE）を使用してレスポンスを段階的にストリーミングします。

マネージド Llama モデル

Llama モデルは、API としてフルマネージドモデルとサーバーレスモデルを提供します。Agent Platform で Llama モデルを使用するには、Agent Platform API エンドポイントにリクエストを直接送信します。Llama モデルをマネージド API として使用する場合、インフラストラクチャをプロビジョニングまたは管理する必要はありません。

Gemini Enterprise Agent Platform で使用できる Llama のモデルは次のとおりです。Llama モデルにアクセスするには、Model Garden のモデルカードに移動します。

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E は、コーディング、推論、画像処理の機能を備えた、最大かつ最も高性能な Llama 4 モデルです。このモデルは、総パラメータ数 4,000 億のうち 170 億のアクティブパラメータと、128 のエキスパートを持つ Mixture-of-Experts（MoE）アーキテクチャを採用しています。密結合レイヤと MoE レイヤを交互に配置しており、各トークンが共有エキスパート 1 つと 128 の接続されたエキスパートから 1 つをアクティブにします。また、200 言語で事前トレーニングされ、洗練されたトレーニング後のパイプラインを通じて高品質のチャットインタラクションを実現するように最適化されています。

Llama 4 Maverick 17B-128E はマルチモーダルであり、高度な画像キャプション生成、分析、正確な画像理解、画像に基づく質問と回答、創造的なテキスト生成、汎用 AI アシスタント、最高レベルのインテリジェンスと画像理解を必要とする高度なチャットボットに適しています。

考慮事項

リクエストごとに最大 3 つの画像を含めることができます。
以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的（128,000）であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
バッチ予測はサポートされていません。

Llama 4 モデルカードに移動

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルやプロプライエタリモデルを上回っています。このモデルは、総パラメータ数 1,090 億のうち 170 億がアクティブになり、16 のエキスパートを持つ MoE アーキテクチャを採用しています。

Llama 4 Scout 17B-16E は、長大なコンテキスト内での検索タスクや、大量の情報を推論しながら扱うタスクに向いています。具体的には、複数の大規模なドキュメントの要約、パーソナライズのための広範なユーザーインタラクションログの分析、大規模なコードベース全体をまたいだ推論などに適しています。

Llama 4 モデルカードに移動

考慮事項

リクエストごとに最大 3 つの画像を含めることができます。
以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的（128,000）であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
バッチ予測はサポートされていません。

Llama 4 モデルカードに移動

Llama 3.3

Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。

Llama 3.3 70B モデルカードに移動

Llama モデルを使用する

マネージドモデルの場合は、curl コマンドを使用して、次のモデル名を使用して Gemini Enterprise Agent Platform エンドポイントにリクエストを送信できます。Llama モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。

セルフデプロイされた Gemini Enterprise Agent Platform モデルを使用するには:

Model Garden コンソールに移動します。
関連する Gemini Enterprise Agent Platform モデルを見つけます。
[有効にする] をクリックし、表示されたフォームに記入して必要な商用利用ライセンスを取得します。

パートナーモデルのデプロイと使用の詳細については、パートナーモデルをデプロイして予測リクエストを行うをご覧ください。

次のステップ

Llama モデルの使用方法を確認する。

フルマネージド Llama モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

マネージド Llama モデル

Llama 4 Maverick 17B-128E

考慮事項

Llama 4 Scout 17B-16E

考慮事項

Llama 3.3

Llama モデルを使用する

次のステップ

フルマネージド Llama モデル