スループットの割り当て

Vertex AI には、生成 AI モデルのスループットを管理するさまざまな方法が用意されています。これにより、費用とパフォーマンスのバランスを取ることが可能です。このドキュメントでは、柔軟な従量課金制モデルと、予測可能なスループットのための予約済み容量という利用可能なオプションについて説明します。

マネージドモデルの割り当て

Vertex AI には、Vertex AI のマネージド生成 AI モデルのスループットを管理する 2 つの方法が用意されています。これにより、費用、柔軟性、パフォーマンスのバランスを取ることが可能になります。柔軟な従量課金制モデルを使用するか、一定量のスループットを固定料金で予約できます。

従量課金制

デフォルトの従量課金制モデルでは、Vertex AI は動的共有割り当てを使用します。これには、事前定義された使用量上限はありません。代わりに、リアルタイムの可用性と需要に基づいて動的に割り当てられる、大規模な共有リソースプールにアクセスできます。

このモデルでは、ワークロードが使用可能なときに、より多くのリソースを使用できます。resource exhausted（429）エラーが返された場合は、共有プールで一時的に多くのユーザーからのリクエストが集中していることを意味します。可用性はすぐに変化する可能性があるため、アプリケーションに再試行メカニズムを実装する必要があります。

予約済み容量

一貫したパフォーマンスと予測可能な費用を必要とする重要な本番環境アプリケーションには、プロビジョンドスループットを使用できます。プロビジョンドスループットは、選択したロケーションのモデルに対して特定のスループット量を予約する固定料金のサブスクリプションです。

生成 AI サービスの割り当て

Vertex AI は、モデルチューニング、モデル評価、バッチ予測、エンベディング、検索拡張生成などの一連の生成 AI サービスを提供します。これらのサービスの割り当ての詳細については、Vertex AI の生成 AI の割り当てとシステム上限をご覧ください。

次のステップ

動的共有割り当ての詳細を確認する。
プロビジョンドスループットの詳細を確認する。
生成 AI の割り当てとシステム上限の詳細を確認する。
Google Cloud の割り当ての詳細を確認する。

スループットの割り当て コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

マネージド モデルの割り当て