推論とは、トレーニング済み ML モデルの出力です。このページでは、Vertex AI のモデルから推論を取得するワークフローの概要について説明します。
Vertex AI では、次の 2 つの方法で推論を取得できます。
-
オンライン推論は、
Endpoint
にデプロイされたモデルに対して行われる同期リクエストです。したがって、リクエストを送信する前に、まずModel
リソースをエンドポイントにデプロイする必要があります。これにより、コンピューティング リソースがモデルに関連付けられ、モデルが低レイテンシでオンライン推論を行えるようになります。アプリケーションの入力に応じてリクエストを行う場合や、タイムリーな推論が必要な場合は、オンライン推論を使用します。 -
バッチ推論は、エンドポイントにデプロイされていないモデルに対して行われる非同期リクエストです。リクエストを(
BatchPredictionJob
リソースとして)Model
リソースに直接送信します。即時のレスポンスが必要なく、累積されたデータを 1 回のリクエストで処理する場合は、バッチ推論を使用します。
ローカルでモデルをテストする
推論を取得する前に、開発およびテストフェーズ中にモデルをローカル エンドポイントにデプロイすると便利です。これにより、オンライン エンドポイントにデプロイすることや推論費用を発生させることなく、イテレーションを迅速に行い、モデルをテストできます。ローカルへのデプロイは、ローカルでの開発とテストを目的としており、本番環境へのデプロイを目的とするものではありません。
モデルをローカルにデプロイするには、Vertex AI SDK for Python を使用して、LocalModel
を LocalEndpoint
にデプロイします。デモについては、こちらのノートブックをご覧ください。
クライアントが Python で作成されていない場合でも、Vertex AI SDK for Python を使用してコンテナとサーバーを起動し、クライアントからのリクエストをテストできます。
カスタム トレーニング済みモデルから推論を取得する
推論を取得するには、まずモデルをインポートする必要があります。インポートしたモデルは Model
リソースとなり、Vertex AI Model Registry に表示されます。
その後、推論を取得する方法について、次のドキュメントをご覧ください。
次のステップ
- 予測用のコンピューティング リソースについて確認する。