カスタムトレーニング済みモデルから推論を取得する

推論とは、トレーニング済み ML モデルの出力です。このページでは、Vertex AI のモデルから推論を取得するワークフローの概要について説明します。

Vertex AI では、次の 2 つの方法で推論を取得できます。

オンライン推論は、Endpoint にデプロイされたモデルに対して行われる同期リクエストです。したがって、リクエストを送信する前に、まず Model リソースをエンドポイントにデプロイする必要があります。これにより、コンピューティングリソースがモデルに関連付けられ、モデルが低レイテンシでオンライン推論を行えるようになります。アプリケーションの入力に応じてリクエストを行う場合や、タイムリーな推論が必要な場合は、オンライン推論を使用します。
バッチ推論は、エンドポイントにデプロイされていないモデルに対して行われる非同期リクエストです。リクエストを（BatchPredictionJob リソースとして）Model リソースに直接送信します。即時のレスポンスが必要なく、累積されたデータを 1 回のリクエストで処理する場合は、バッチ推論を使用します。

ローカルでモデルをテストする

推論を取得する前に、開発およびテストフェーズ中にモデルをローカルエンドポイントにデプロイすると便利です。これにより、オンラインエンドポイントにデプロイすることや推論費用を発生させることなく、イテレーションを迅速に行い、モデルをテストできます。ローカルへのデプロイは、ローカルでの開発とテストを目的としており、本番環境へのデプロイを目的とするものではありません。

モデルをローカルにデプロイするには、Vertex AI SDK for Python を使用して、LocalModel を LocalEndpoint にデプロイします。デモについては、こちらのノートブックをご覧ください。

クライアントが Python で作成されていない場合でも、Vertex AI SDK for Python を使用してコンテナとサーバーを起動し、クライアントからのリクエストをテストできます。