Benutzerdefinierte Inferenzroutinen

Mit benutzerdefinierten Inferenzroutinen können Sie benutzerdefinierte Container mit Vor- und Nachverarbeitungscode erstellen, ohne sich mit den Details der Einrichtung eines HTTP-Servers oder der von Grund auf neuen Erstellung eines Containers befassen zu müssen. Mithilfe der Vorverarbeitung können Sie die Eingaben normalisieren und transformieren oder Aufrufe an externe Dienste senden, um zusätzliche Daten abzurufen. Mit der Nachbearbeitung können Sie die Modellinferenz formatieren oder Geschäftslogik ausführen.

Das folgende Diagramm zeigt den Nutzer-Workflow mit und ohne benutzerdefinierte Inferenzroutinen.

Die Hauptunterschiede sind:

  • Sie müssen keinen Modellserver und kein Dockerfile schreiben. Der Modellserver, also der HTTP-Server, auf dem das Modell gehostet wird, wird für Sie bereitgestellt.

  • Sie können das Modell lokal bereitstellen und lokal Fehler beheben, um den Iterationszyklus während der Entwicklung zu beschleunigen.

Benutzerdefinierten Container erstellen und bereitstellen

In diesem Abschnitt wird beschrieben, wie Sie mit CPR einen benutzerdefinierten Container mit Vor- und Nachverarbeitungslogik erstellen und sowohl auf einem lokalen als auch auf einem Online-Endpunkt bereitstellen.

Einrichtung

Vertex AI SDK für Python und Docker müssen in Ihrer Umgebung installiert sein.

Benutzerdefinierte Predictor-Inferenzschnittstelle schreiben

Predictor-Schnittstelle implementieren.

Weitere Informationen finden Sie zum Beispiel in der Predictor-Implementierung von Sklearn.

Benutzerdefinierten Handler schreiben (optional)

Benutzerdefinierte Handler haben Zugriff auf das Rohanfrageobjekt und sind daher in seltenen Fällen nützlich, in denen Sie die Webserverlogik anpassen müssen, z. B. für die Unterstützung zusätzlicher Anfrage-/Antwortheader oder für die Deserialisierung von nicht JSON-formatierten Inferenzanfragen.

Hier ist ein Beispielnotebook, das sowohl Predictor als auch Handler implementiert.

Auch wenn es nicht erforderlich ist, empfehlen wir, die Webserverlogik im Handler und die ML-Logik im Predictor zu implementieren, wie im Standardhandler gezeigt, um den Code besser zu organisieren und wiederverwendbar zu machen.

Benutzerdefinierten Container erstellen

Legen Sie Ihren benutzerdefinierten Code und eine zusätzliche requirements.txt-Datei in einem Verzeichnis ab, wenn Sie Pakete in Ihren Bildern installieren müssen.

So erstellen Sie benutzerdefinierte Container mit dem Vertex AI SDK für Python:

from google.cloud.aiplatform.prediction import LocalModel

# {import your predictor and handler}

local_model = LocalModel.build_cpr_model(
    {PATH_TO_THE_SOURCE_DIR},
    f"{REGION}-docker.pkg.dev/{PROJECT_ID}/{REPOSITORY}/{IMAGE}",
    predictor={PREDICTOR_CLASS},
    handler={HANDLER_CLASS},
    requirements_path={PATH_TO_REQUIREMENTS_TXT},
)

In der Containerspezifikation finden Sie nützliche Informationen wie den Image-URI und Umgebungsvariablen.

local_model.get_serving_container_spec()

Container lokal ausführen (optional)

Dieser Schritt ist nur erforderlich, wenn Sie den Container lokal ausführen und testen möchten. Das ist nützlich, um schneller Iterationen durchzuführen. Im folgenden Beispiel stellen Sie die Bereitstellung für einen lokalen Endpunkt bereit und senden eine Inferenzanfrage (Format für Anfragetext).

with local_model.deploy_to_local_endpoint(
    artifact_uri={GCS_PATH_TO_MODEL_ARTIFACTS},
    credential_path={PATH_TO_CREDENTIALS},
) as local_endpoint:
    health_check_response = local_endpoint.run_health_check()
    predict_response = local_endpoint.predict(
        request_file={PATH_TO_INPUT_FILE},
        headers={ANY_NEEDED_HEADERS},
    )

Geben Sie die Systemdiagnose und die Antwort auf die Inferenz aus.

print(health_check_response, health_check_response.content)
print(predict_response, predict_response.content)

Geben Sie alle Containerlogs aus.

local_endpoint.print_container_logs(show_all=True)

In Vertex AI Model Registry hochladen

Ihr Modell muss auf Ihre Modellartefakte zugreifen können (die Dateien aus dem Training). Stellen Sie daher sicher, dass Sie sie in Google Cloud Storage hochgeladen haben.

Laden Sie das Image per Push in die Artifact Registry:

local_model.push_image()

Laden Sie es dann in Model Registry hoch.

from google.cloud import aiplatform

model = aiplatform.Model.upload(
    local_model=local_model,
    display_name={MODEL_DISPLAY_NAME},
    artifact_uri={GCS_PATH_TO_MODEL_ARTIFACTS},
)

Sobald Ihr Modell in Model Registry hochgeladen wurde, kann es zum Abrufen von Batchinferenzen verwendet oder auf einem Vertex AI-Endpunkt bereitgestellt werden, um Onlineinferenzen zu erhalten.

Auf Vertex AI-Endpunkt bereitstellen

endpoint = model.deploy(machine_type="n1-standard-4")

Sobald Ihr Modell bereitgestellt wurde, können Sie Onlineinferenzen abrufen.

Notebook-Beispiele

Die Beispiele zeigen die verschiedenen Möglichkeiten, ein Modell mit benutzerdefinierter Vor- und Nachbearbeitung mit Vertex AI Inference bereitzustellen.