Eine Inferenz ist die Ausgabe eines trainierten Modells für maschinelles Lernen. Auf dieser Seite erhalten Sie einen Überblick über den Workflow zum Abrufen von Inferenzen aus Ihren Modellen auf der Gemini Enterprise Agent Platform.
Die Agent Platform bietet zwei Methoden zum Abrufen von Inferenzen:
-
Onlineinferenzen sind synchrone Anfragen an
ein Modell, das auf einem
Endpointbereitgestellt wird. Entsprechend müssen Sie vor dem Senden einer Anfrage zuerst dieModelRessource auf einem Endpunkt bereitstellen. Dadurch werden dem Modell Rechenressourcen zugeordnet, sodass es Onlineinferenzen mit niedriger Latenz bereitstellen kann. Verwenden Sie Onlineinferenzen, wenn Sie Anfragen als Reaktion auf Anwendungseingaben stellen oder wenn zeitnahe Inferenzen erforderlich sind. -
Batchinferenzen sind asynchrone Anfragen an ein Modell,
das nicht auf einem Endpunkt bereitgestellt wird. Sie senden die Anfrage (als
BatchPredictionJobRessource) direkt an dieModelRessource. Verwenden Sie Batchinferenzen, wenn Sie nicht sofort eine Antwort benötigen und akkumulierte Daten in einer einzigen Anfrage verarbeiten möchten.
Modell lokal testen
Bevor Sie Inferenzen abrufen, ist es sinnvoll, Ihr Modell während der Entwicklungs- und Testphase auf einem lokalen Endpunkt bereitzustellen. So können Sie sowohl schneller iterieren als auch Ihr Modell testen, ohne es auf einem Onlineendpunkt bereitstellen und ohne dass Inferenzkosten anfallen. Die lokale Bereitstellung ist für lokale Entwicklung und Tests vorgesehen, nicht für die Produktionsbereitstellung.
Wenn Sie ein Modell lokal bereitstellen möchten, verwenden Sie das Agent Platform SDK für Python und stellen Sie ein
LocalModel
auf einem
LocalEndpointbereit.
Eine Demonstration finden Sie in diesem
Notebook.
Auch wenn Ihr Client nicht in Python geschrieben ist, können Sie das Agent Platform SDK für Python verwenden, um den Container und den Server zu starten, sodass Sie Anfragen von Ihrem Client testen können.
Inferenzen von benutzerdefinierten trainierten Modellen abrufen
Damit Sie Inferenzen abrufen können, müssen Sie zuerst Ihr Modell
importieren.
Nach dem Import wird es zu einer
Model Ressource, die in
Model Registry sichtbar ist.
Anschließend erfahren Sie in der folgenden Dokumentation, wie Sie Inferenzen abrufen:
-
Oder
Modell auf einem Endpunkt bereitstellen und Onlineinferenzen abrufen.
Inferenzen von AutoML-Modellen abrufen
Im Gegensatz zu benutzerdefinierten trainierten Modellen werden AutoML-Modelle nach dem Training automatisch in die Model Registry importiert.
Ansonsten ist der Workflow für AutoML-Modelle ähnlich, variiert jedoch je nach Datentyp und Modellziel geringfügig. Die Dokumentation zum Abrufen von AutoML-Inferenzen finden Sie neben der anderen AutoML-Dokumentation. In den folgenden Abschnitten finden Sie Links zur Dokumentation.
Bild
Hier erfahren Sie, wie Sie Inferenzen aus den folgenden Arten von AutoML-Bildmodellen abrufen:
Tabellarisch
Hier erfahren Sie, wie Sie Inferenzen aus den folgenden Arten von tabellarischen AutoML-Modellen abrufen:
Tabellarische Klassifizierungs- und Regressionsmodelle
Tabellarische Prognosemodelle (nur Batchinferenzen)
Inferenzen von BigQuery ML-Modellen abrufen
Sie haben zwei Möglichkeiten, Inferenzen von BigQuery ML-Modellen abzurufen:
- Fordern Sie Batchinferenzen direkt vom Modell in BigQuery ML an.
- Registrieren Sie die Modelle direkt bei der Model Registry, ohne sie aus BigQuery ML zu exportieren oder in die Model Registry zu importieren.
Nächste Schritte
- Informationen zu Rechenressourcen für Inferenzen