Inferenz von einem benutzerdefinierten trainierten Modell abrufen

Eine Inferenz ist die Ausgabe eines trainierten Modells für maschinelles Lernen. Auf dieser Seite finden Sie einen Überblick über den Workflow zum Abrufen von Inferenzen aus Ihren Modellen auf der Agent Platform.

Die Agent Platform bietet zwei Methoden zum Abrufen von Inferenzen:

  • Online-Inferenzen sind synchrone Anfragen an ein Modell, das auf einem Endpoint bereitgestellt wird. Entsprechend müssen Sie vor dem Senden einer Anfrage zuerst die Model Ressource auf einem Endpunkt bereitstellen. Dadurch werden dem Modell Rechenressourcen zugeordnet, sodass es Online-Inferenzen mit niedriger Latenz bereitstellen kann. Verwenden Sie Online-Inferenzen, wenn Sie Anfragen als Reaktion auf Anwendungseingaben stellen oder wenn zeitnahe Inferenzen erforderlich sind.
  • Batch-Inferenzen sind asynchrone Anfragen an ein Modell, das nicht auf einem Endpunkt bereitgestellt wird. Sie senden die Anfrage (als BatchPredictionJob Ressource) direkt an die Model Ressource. Verwenden Sie Batch-Inferenzen, wenn Sie nicht sofort eine Antwort benötigen und akkumulierte Daten in einer einzigen Anfrage verarbeiten möchten.

Modell lokal testen

Bevor Sie Inferenzen abrufen, ist es sinnvoll, Ihr Modell während der Entwicklungs- und Testphase auf einem lokalen Endpunkt bereitzustellen. So können Sie sowohl schneller iterieren als auch Ihr Modell testen, ohne es auf einem Onlineendpunkt bereitstellen und ohne dass Inferenzkosten anfallen. Die lokale Bereitstellung ist für lokale Entwicklung und Tests vorgesehen, nicht für die Produktionsbereitstellung.

Wenn Sie ein Modell lokal bereitstellen möchten, verwenden Sie das Agent Platform SDK für Python und stellen Sie ein LocalModel auf einem LocalEndpointbereit. Eine Demonstration finden Sie in diesem Notebook.

Auch wenn Ihr Client nicht in Python geschrieben ist, können Sie das Agent Platform SDK für Python verwenden, um den Container und den Server zu starten, sodass Sie Anfragen von Ihrem Client testen können.

Inferenzen aus benutzerdefinierten trainierten Modellen abrufen

Damit Sie Inferenzen abrufen können, müssen Sie zuerst Ihr Modell importieren. Nach dem Import wird es zu einer Model-Ressource, die in Model Registry sichtbar ist.

Anschließend erfahren Sie in der folgenden Dokumentation, wie Sie Inferenzen abrufen:

Nächste Schritte