フルマネージド Llama モデル


Vertex AI の Llama モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で Llama モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Llama モデルはマネージド API を使用します。インフラストラクチャをプロビジョニングしたり、管理する必要はありません。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミング レスポンスでは、サーバー送信イベント(SSE)を使用してレスポンスを段階的にストリーミングします。

使用可能な Llama モデル

Vertex AI で使用できる Meta の Llama モデルは次のとおりです。Llama モデルにアクセスするには、Model Garden のモデルカードに移動します。

プレビュー版のモデルにもセルフデプロイ オプションがあります。プロダクション レディなサービスが必要な場合は、セルフデプロイの Llama モデルを使用します。

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E は、コーディング、推論、画像処理の機能を備えた、最大かつ最高性能の Llama 4 モデルです。Mixture-of-Experts(MoE)アーキテクチャを採用しており、4,000 億のパラメータのうち 170 億のアクティブ パラメータと 128 のエキスパートを備えています。Llama 4 Maverick 17B-128E は、高密度レイヤと MoE レイヤを交互に使用します。各トークンは、共有エキスパートと 128 個のルーティングされたエキスパートの 1 つをアクティブにします。このモデルは 200 言語で事前トレーニングされており、洗練されたトレーニング後のパイプラインを通じて高品質のチャット インタラクションを実現するように最適化されています。

Llama 4 Maverick 17B-128E はマルチモーダルであり、高度な画像キャプション、分析、正確な画像理解、視覚的な質問と回答、クリエイティブなテキスト生成、汎用 AI アシスタント、最上位のインテリジェンスと画像理解を必要とする高度なチャットボットに適しています。

考慮事項

  • リクエストごとに最大 3 つの画像を含めることができます。
  • 以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより制限されており(128,000)、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
  • バッチ予測はサポートされていません。

Llama 4 モデルカードに移動

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルや独自のモデルを上回っています。MoE アーキテクチャを特徴とし、1,090 億の総パラメータのうち 170 億のアクティブ パラメータと 16 のエキスパートを備えています。

Llama 4 Scout 17B-16E は、長いコンテキスト内の取得タスクや、大量の情報に対する推論を必要とするタスクに適しています。たとえば、複数の大きなドキュメントの要約、広範なユーザー インタラクション ログの分析によるパーソナライズ、大規模なコードベースにわたる推論などです。

Llama 4 モデルカードに移動

考慮事項

  • リクエストごとに最大 3 つの画像を含めることができます。
  • 以前のバージョンとは異なり、MaaS エンドポイントは Llama Guard を使用しません。Llama Guard を使用するには、Model Garden から Llama Guard をデプロイし、プロンプトとレスポンスをそのエンドポイントに送信します。ただし、Llama 4 と比較すると、Llama Guard のコンテキストはより制限されており(128,000)、プロンプトの先頭に 1 つの画像を含むリクエストのみを処理できます。
  • バッチ予測はサポートされていません。

Llama 4 モデルカードに移動

Llama 3.3

Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。

Llama 3.3 70B モデルカードに移動

プレビュー期間中は、モデルの使用量に応じて料金が発生します(従量課金制)。従量課金制の料金については、Vertex AI の料金ページで Llama モデルの料金をご覧ください。

Llama 3.2

Llama 3.2 を使用すると、デベロッパーは最新の Llama の機能(画像推論など)を使用する最新の生成 AI モデルとアプリケーションを構築してデプロイできます。Llama 3.2 は、オンデバイス アプリケーションでよりアクセスしやすくなるように設計されています。

Llama 3.2 90B モデルカードに移動

プレビュー期間中は無料でご利用いただけます。プロダクション レディなサービスが必要な場合は、セルフホストの Llama モデルを使用します。

考慮事項

llama-3.2-90b-vision-instruct-maas を使用する場合、テキストのみのプロンプトを送信する際の制限はありません。ただし、プロンプトに画像を含める場合は、画像をプロンプトの先頭に配置する必要があります。また、画像は 1 つだけ含めることができます。テキストと画像を交互に配置することはできません。

Llama 3.1

Llama 3.1 は、最適化された Transformer アーキテクチャを使用する自動回帰言語モデルです。チューニング済みのバージョンでは、教師ありファインチューニング(SFT)と人間からのフィードバックを用いた強化学習(RLHF)を使用して、人間の好みに合わせて有用性と安全性を調整します。

Llama 3.1 405B は一般提供されています。モデルの使用量に応じて課金されます(従量課金制)。従量課金制の料金については、Vertex AI の料金ページで Llama モデルの料金をご覧ください。

他の Llama 3.1 モデルはプレビュー版です。プレビュー版モデルの利用に対する料金は発生しません。プロダクション レディなサービスが必要な場合は、セルフホストの Llama モデルを使用します。

Llama 3.1 モデルカードに移動

次のステップ

Llama モデルの使用方法を学習する