Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Reservierungen mit Online-Inferenz verwenden

In diesem Dokument wird erläutert, wie Sie Compute Engine-Reservierungen verwenden, um sicherzustellen, dass für Ihre Online-Inferenzjobs die erforderlichen virtuellen Computerressourcen (VM) verfügbar sind.

Reservierungen sind eine Funktion von Compute Engine. Mit ihnen sorgen Sie dafür, dass die Ressourcen jederzeit verfügbar sind, die Sie zum Erstellen von VMs mit derselben Hardware (Arbeitsspeicher und vCPUs) und optionalen Ressourcen (CPUs, GPUs, TPUs und lokalen SSD-Laufwerken) benötigen.

Wenn Sie eine Reservierung erstellen, prüft Compute Engine, ob die angeforderte Kapazität in der angegebenen Zone verfügbar ist. Wenn ja, reserviert Compute Engine die Ressourcen, erstellt die Reservierung und Folgendes geschieht:

Sie können die reservierten Ressourcen sofort nutzen und sie bleiben verfügbar, bis Sie die Reservierung löschen.
Ihnen werden die reservierten Ressourcen zum gleichen On-Demand-Tarif wie für laufende VMs in Rechnung gestellt, einschließlich aller anwendbaren Rabatte, bis die Reservierung gelöscht wird. Für eine VM, die eine Reservierung nutzt, fallen keine separaten Gebühren an. Sie zahlen nur für die Ressourcen außerhalb der Reservierung, z. B. für Laufwerke oder IP-Adressen. Weitere Informationen finden Sie unter Preise für Reservierungen.

Beschränkungen und Anforderungen

Beachten Sie die folgenden Einschränkungen und Anforderungen, wenn Sie Compute Engine-Reservierungen mit der Agent Platform verwenden:

Die Agent Platform kann nur Reservierungen für CPUs, GPU-VMs, oder TPUs (Vorschau) verwenden.
Die Agent Platform kann keine Reservierungen von VMs nutzen, an die lokale SSD-Laufwerke manuell angehängt wurden.
Die Verwendung von Compute Engine-Reservierungen mit der Agent Platform wird nur für serverloses Training, Inferenz und die Gemini Enterprise Agent Platform Workbench (Vorschau) unterstützt.
Die VM-Attribute einer Reservierung müssen genau mit Ihrer Agent Platform-Arbeitslast übereinstimmen damit die Reservierung genutzt werden kann. Wenn beispielsweise in einer Reservierung der Maschinentyp a2-ultragpu-8g angegeben ist, kann die Agent Platform-Arbeitslast die Reservierung nur nutzen, wenn sie ebenfalls den Maschinentyp a2-ultragpu-8g verwendet. Weitere Informationen finden Sie unter Anforderungen.
Wenn Sie eine freigegebene Reservierung von GPU-VMs oder TPUs nutzen möchten, müssen Sie sie über das Inhaber projekt oder ein Nutzerprojekt nutzen, für das die Reservierung freigegeben wurde. Weitere Informationen finden Sie unter Funktionsweise freigegebener Reservierungen.
Um regelmäßige Updates Ihrer Agent Platform-Bereitstellungen zu ermöglichen, empfehlen wir, die Anzahl der VMs um mehr als die Gesamtzahl der Replikate zu erhöhen. Die genaue Anzahl hängt vom Reservierungstyp ab, der von Ihrem DeployedModel verwendet wird:
- SPECIFIC_RESERVATION: Sie müssen mindestens eine zusätzliche VM angeben. Wir empfehlen 10% (mindestens aber eine). Bei bereitgestellten Modellen, die SPECIFIC_RESERVATION verwenden, werden garantiert nur VMs aus der Reservierung genutzt. Die Agent Platform kann keine Updates ausführen, wenn keine zusätzliche VM vorhanden ist.
- ANY:
Wenn Sie eine SPECIFIC_RESERVATION-Reservierung nutzen möchten, gewähren Sie dem Agent Platform-Dienstkonto im Projekt, das die Reservierungen besitzt, die Compute-Betrachter IAM-Rolle (service-${PROJECT_NUMBER}@gcp-sa-aiplatform.iam.gserviceaccount.com, wobei PROJECT_NUMBER die Projektnummer des Projekts ist, das die Reservierung nutzt).

Abrechnung

Wenn Sie Compute Engine-Reservierungen verwenden, werden Ihnen Folgendes in Rechnung gestellt:

Compute Engine-Preise für die Compute Engine-Ressourcen, einschließlich aller anwendbaren Rabatte für zugesicherte Nutzung (Committed Use Discount, CUD). Siehe Compute Engine-Preise.
Zusätzlich zur Nutzung der Infrastruktur fallen die in den nachstehenden Tabellen aufgeführten Gebühren für die Verwaltung von Online-Inferenz der Agent Platform an. Weitere Informationen finden Sie unter Preise für Vorhersagen.

Hinweis: Wenn Sie Ressourcen aus einer Reservierung oder Spot-Kapazität nutzen, wird die Abrechnung auf zwei SKUs verteilt: die Compute Engine-SKU mit dem Label goog-vertex-ai-product:vertex-ai-online-prediction und die SKU für die Verwaltungsgebühr der Agent Platform. So können Sie Ihre Rabatte für zugesicherte Nutzung (Committed Use Discounts, CUDs) in der Agent Platform verwenden.

Hinweis

Informationen zu den Anforderungen und Einschränkungen für Reservierungen
Informationen zu den Kontingentanforderungen und -einschränkungen für freigegebene Reservierungen.

Verbrauch einer Reservierung zulassen

Bevor Sie eine Reservierung von CPUs, GPU-VMs oder TPUs nutzen, müssen Sie die Freigaberichtlinie festlegen, damit die Agent Platform die Reservierung nutzen kann. Verwenden Sie dazu eine der folgenden Methoden:

Nutzung beim Erstellen einer Reservierung zulassen
Verbrauch in einer bestehenden Reservierung zulassen

Nutzung beim Erstellen einer Reservierung zulassen

Wenn Sie eine Reservierung für ein einzelnes Projekt oder eine freigegebene Reservierung von GPU-VMs erstellen, können Sie der Agent Platform erlauben, die Reservierung wie unten beschrieben zu nutzen:

Wenn Sie die Google Cloud Console verwenden, wählen Sie im Bereich Google Cloud-Dienste die Option Reservierung teilen aus.
Wenn Sie die Google Cloud CLI verwenden, fügen Sie das --reservation-sharing-policy Flag mit dem Wert ALLOW_ALL hinzu.
Wenn Sie die REST API verwenden, fügen Sie im Anfragetext das serviceShareType Feld mit dem Wert ALLOW_ALL ein.

Nutzung einer bestehenden Reservierung zulassen

Sie können eine automatisch erstellte Reservierung von GPU-VMs oder TPUs für eine zukünftige Reservierung erst nach der Startzeit der Reservierung ändern.

Wenn Sie der Agent Platform erlauben möchten, eine bestehende Reservierung zu nutzen, verwenden Sie eine der folgenden Methoden:

Reservierung von GPU-VMs ändern
Reservierung von TPUs ändern

Nutzung mehrerer bestimmter Reservierungen zulassen

Sie können die Nutzung mehrerer bestimmter Reservierungen zulassen, indem Sie zwei oder mehr Reservierungen in Prioritätsreihenfolge in der Liste der Reservierungsnamen im values Feld der Reservierungsaffinitätsspezifikation angeben. Sie sollten sie in der Reihenfolge ihrer Priorität auflisten.

Jede Reservierung muss für Vertex freigegeben sein und die Zone der Reservierung muss sich in der Region des Endpunkts befinden. Andernfalls können Sie Reservierungen aus verschiedenen Quellprojekten und mehreren Zonen kombinieren.

Prüfen, ob eine Reservierung genutzt wird

Informationen zum Prüfen, ob die Reservierung genutzt wird, finden Sie in der Compute Engine-Dokumentation unter Reservierungsnutzung prüfen.

Online-Inferenz mithilfe einer Reservierung abrufen

Wenn Sie eine Modellbereitstellung erstellen möchten, die eine Compute Engine-Reservierung von GPU-VMs nutzt, verwenden Sie die REST API oder das Agent Platform SDK für Python.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION_ID: Die Region, in der Sie die Agent Platform verwenden.
PROJECT_ID: Das Projekt, in dem die Reservierung erstellt wurde. Wenn Sie eine freigegebene Reservierung aus einem anderen Projekt nutzen möchten, müssen Sie die Reservierung für dieses Projekt freigeben. Weitere Informationen finden Sie unter Nutzerprojekte in einer freigegebenen Reservierung ändern.
ENDPOINT_ID: Die ID des Endpunkts.
MODEL_ID: Die ID des bereitzustellenden Modells.
DEPLOYED_MODEL_NAME: Ein Name für DeployedModel. Sie können auch den Anzeigenamen von dem Model für das DeployedModel verwenden.
MACHINE_TYPE: Der Maschinentyp, der für jeden Knoten in dieser Bereitstellung verwendet werden soll. Die Standardeinstellung ist Einstellung ist n1-standard-2. Weitere Informationen zu den unterstützten Maschinentypen finden Sie unter Computing-Ressourcen für Vorhersagen konfigurieren.
ACCELERATOR_TYPE: Der Typ des Beschleunigers, der an die Maschine angehängt werden soll. Weitere Informationen zum GPU-Typ, der von den einzelnen Maschinentypen unterstützt wird, finden Sie unter GPUs für Computing-Arbeitslasten.
ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die an die Maschine angehängt werden sollen.
RESERVATION_AFFINITY_TYPE: Muss ANY, SPECIFIC_RESERVATION oder NONE sein.
- ANY bedeutet, dass die VMs Ihres customJob automatisch jede Reservierung mit übereinstimmenden Attributen nutzen können.
- SPECIFIC_RESERVATION bedeutet, dass die VMs Ihres customJob nur Reservierungen nutzen können, auf die die VMs ausdrücklich namentlich ausgerichtet sind.
- NONE bedeutet, dass die VMs Ihres customJob keine Reservierungen nutzen können. Wenn Sie NONE angeben, hat das denselben Effekt wie das Weglassen einer Reservierungs affinitätsspezifikation.
ZONE: Die Zone, in der die Reservierung erstellt wurde.
RESERVATION_NAME_N: Die Namen Ihrer Reservierungen in Prioritätsreihenfolge. Jeder Name muss der vollständige Ressourcenname der Reservierung oder des Reservierungsblocks sein.
MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten. Dieser Wert muss größer oder gleich 1 sein.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.
TRAFFIC_SPLIT_THIS_MODEL: Der Prozentsatz des Vorhersagetraffics an diesen Endpunkt der an das Modell mit diesem Vorgang weitergeleitet werden soll. Die Standardeinstellung ist 100. Alle Traffic-Prozentsätze müssen zusammen 100 % ergeben. Weitere Informationen zu Traffic-Splits
DEPLOYED_MODEL_ID_N: Optional. Wenn andere Modelle für diesen Endpunkt bereitgestellt werden, müssen Sie die Prozentsätze der Trafficaufteilung aktualisieren, sodass alle Prozentsätze zusammen 100 % ergeben.
TRAFFIC_SPLIT_MODEL_N: Der Prozentwert der Aufteilung des Traffics für den bereitgestellten Modell-ID Schlüssel.
PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.

HTTP-Methode und URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

JSON-Text anfordern:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION_ID/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT,
        "reservationAffinity": {
          "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
          "key": "compute.googleapis.com/reservation-name",
          "values": [
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME_1",
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME_2"
          ]
        }
      },
      "minReplicaCount": MIN_REPLICA_COUNT,
      "maxReplicaCount": MAX_REPLICA_COUNT
    },
  },
  "trafficSplit": {
    "0": TRAFFIC_SPLIT_THIS_MODEL,
    "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1,
    "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2
  },
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt haben, die Sie automatisch in der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Python

Informationen zum Installieren oder Aktualisieren des Agent Platform SDK für Python finden Sie unter Agent Platform SDK für Python installieren. Weitere Informationen finden Sie in der Agent Platform SDK for Python API-Referenzdokumentation.

Ersetzen Sie diese Werte in den folgenden Skripts:

DEPLOYED_NAME: Ein Name für das bereitgestellte Modell.
TRAFFIC_SPLIT: Der Prozentwert der Aufteilung des Traffics für den bereitgestellten Modell-ID-Schlüssel.
MACHINE_TYPE: Die Maschine, die für jeden Knoten dieser Bereitstellung verwendet wird. Die Standardeinstellung ist n1-standard-2. Weitere Informationen zu Maschinentypen.
ACCELERATOR_TYPE: Der Typ des Beschleunigers, der an die Maschine angehängt werden soll. Weitere Informationen zum GPU-Typ, der von den einzelnen Maschinentypen unterstützt wird, finden Sie unter GPUs für Computing-Arbeitslasten.
ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die an die Maschine angehängt werden sollen.
PROJECT_ID: Das Projekt, in dem die Reservierung erstellt wurde. Wenn Sie eine freigegebene Reservierung aus einem anderen Projekt nutzen möchten, müssen Sie die Reservierung für dieses Projekt freigeben. Weitere Informationen finden Sie unter Nutzerprojekte in einer freigegebenen Reservierung ändern.
ZONE: Die Zone, in der sich die Reservierung befindet.
RESERVATION_NAME_N: Die Namen Ihrer Reservierungen in Prioritätsreihenfolge. Jeder Name muss der vollständige Ressourcenname der Reservierung oder des Reservierungsblocks sein.
MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten. Dieser Wert muss größer oder gleich 1 sein.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.

Führen Sie je nach dem Typ der Reservierung, die Sie nutzen möchten, einen der folgenden Schritte aus:

So nutzen Sie eine oder mehrere bestimmte Reservierungen:

endpoint5.deploy(
    model = model,
    deployed_model_display_name=DEPLOYED_NAME,
    traffic_split=TRAFFIC_SPLIT,
    machine_type="MACHINE_TYPE",
    accelerator_type="ACCELERATOR_TYPE",
    accelerator_count=ACCELERATOR_COUNT,
    reservation_affinity_type="SPECIFIC_RESERVATION",
    reservation_affinity_key="compute.googleapis.com/reservation-name",
    reservation_affinity_values=[
        "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME_1",
        "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME_2"
        ],
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    sync=True
)

So nutzen Sie eine automatisch genutzte Reservierung:

endpoint5.deploy(
    model = model,
    deployed_model_display_name=DEPLOYED_NAME,
    traffic_split=TRAFFIC_SPLIT,
    machine_type="MACHINE_TYPE",
    accelerator_type="ACCELERATOR_TYPE",
    accelerator_count=ACCELERATOR_COUNT,
    reservation_affinity_type="ANY_RESERVATION",
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    sync=True
)

Reservierungen mit Online-Inferenz verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Beschränkungen und Anforderungen

Abrechnung

Hinweis

Verbrauch einer Reservierung zulassen

Nutzung beim Erstellen einer Reservierung zulassen

Nutzung einer bestehenden Reservierung zulassen

Nutzung mehrerer bestimmter Reservierungen zulassen

Prüfen, ob eine Reservierung genutzt wird

Online-Inferenz mithilfe einer Reservierung abrufen

REST

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Python

Nächste Schritte

Reservierungen mit Online-Inferenz verwenden