フルマネージド Llama モデル

Vertex AI の Llama モデルは、API としてフルマネージドモデルとサーバーレスモデルを提供します。Vertex AI で Llama モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Llama モデルはマネージド API を使用します。インフラストラクチャをプロビジョニング、管理する必要はありません。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。レスポンスをストリーミングする際には、サーバー送信イベント（SSE）を使用してレスポンスを段階的にストリーミングします。

使用可能な Llama モデル

Vertex AI で使用できる Meta の Llama モデルは次のとおりです。Llama モデルにアクセスするには、Model Garden のモデルカードに移動します。

プレビュー版のモデルにもセルフデプロイオプションがあります。プロダクションレディなサービスが必要な場合は、セルフデプロイの Llama モデルを使用します。

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E は、コーディング、推論、画像処理の機能を備えた、最大かつ最も高性能な Llama 4 モデルです。このモデルは、総パラメータ数 4,000 億のうち 170 億のアクティブパラメータと、128 のエキスパートを持つ Mixture-of-Experts（MoE）アーキテクチャを採用しています。密結合レイヤと MoE レイヤを交互に配置しており、各トークンが共有エキスパート 1 つと 128 の接続されたエキスパートから 1 つをアクティブにします。また、200 言語で事前トレーニングされ、洗練されたトレーニング後のパイプラインを通じて高品質のチャットインタラクションを実現するように最適化されています。

Llama 4 Maverick 17B-128E はマルチモーダルであり、高度な画像キャプション生成、分析、正確な画像理解、画像に基づく質問と回答、創造的なテキスト生成、汎用 AI アシスタント、最高レベルのインテリジェンスと画像理解を必要とする高度なチャットボットに適しています。

考慮事項

リクエストごとに最大 3 つの画像を含めることができます。
以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的（128,000）であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
バッチ予測はサポートされていません。

Llama 4 モデルカードに移動

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルやプロプライエタリモデルを上回っています。このモデルは、総パラメータ数 1,090 億のうち 170 億がアクティブになり、16 のエキスパートを持つ MoE アーキテクチャを採用しています。

Llama 4 Scout 17B-16E は、長大なコンテキスト内での検索タスクや、大量の情報を推論しながら扱うタスクに向いています。具体的には、複数の大規模なドキュメントの要約、パーソナライズのための広範なユーザーインタラクションログの分析、大規模なコードベース全体をまたいだ推論などに適しています。

Llama 4 モデルカードに移動

考慮事項

リクエストごとに最大 3 つの画像を含めることができます。
以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより限定的（128,000）であり、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
バッチ予測はサポートされていません。

Llama 4 モデルカードに移動