Schnellerer Start von Arbeitslasten mit Knoten mit Schnellstart

Auf dieser Seite wird beschrieben, wie Sie Arbeitslasten in Google Kubernetes Engine-Clustern (GKE) mithilfe von schnell startenden Knoten schneller bereitstellen und skalieren. Knoten mit schnellem Start werden in GKE mit Autopilot-Modus nach dem Best-Effort-Prinzip verwendet, wenn Arbeitslasten kompatible Konfigurationen verwenden.

GKE-Knoten mit schnellem Start haben eine deutlich geringere Startzeit für kompatible Maschinenfamilien. Die verkürzte Startzeit bietet folgende Vorteile:

  • Schnellerer Kaltstart
  • Schnelleres Autoscaling
  • Verbesserte Langzeitlatenz bei der Pod-Planung
  • Verbesserte Kosteneffizienz der Infrastruktur

Bei schnell startenden Knoten werden Hardware-Ressourcen in GKE vorinitialisiert, um die Startzeit zu verkürzen. Die vorinitialisierten Ressourcen sind nach dem Best-Effort-Prinzip verfügbar. Anfragen bei hoher Nachfrage werden möglicherweise nur teilweise bearbeitet. Ohne schnell startende Knoten werden Ressourcen bei Bedarf initialisiert und Knoten werden mit der normalen Startzeit bereitgestellt.

Voraussetzungen

Für Knoten mit Schnellstart ist keine zusätzliche Konfiguration erforderlich. GKE verwendet automatisch schnell startende Knoten, wenn Ihre Arbeitslasten kompatible Konfigurationen verwenden. Sie müssen alle folgenden Anforderungen erfüllen, um Knoten mit schnellem Start verwenden zu können:

Beschränkungen

Die folgenden Funktionen sind nicht mit GKE-Knoten mit schnellem Start kompatibel. Wenn Sie eine dieser Funktionen verwenden, stellt GKE Knoten mit der typischen Startzeit bereit:

Autopilot-GPU-Arbeitslasten

Wenn Sie kompatible GPUs im Autopilot-Modus anfordern, ist die Startzeit von Knoten bis zu viermal schneller und die Planungszeit von Pods bis zu zweimal schneller als bei ähnlichen Anfragen im GKE-Standardmodus, da die Autopilot-GPU-Arbeitslasten Knoten mit schnellem Start verwenden können.

Im Folgenden finden Sie einige Anwendungsbeispiele. Alle Pods, die die Bedingungen im Abschnitt Anforderungen erfüllen, sind jedoch mit schnell startenden Knoten kompatibel.

ComputeClass

Fordern Sie einen kompatiblen Beschleunigertyp und eine kompatible Anzahl in einer ComputeClass an, wie im folgenden Beispiel:

apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: ACCELERATOR_COMPUTE_CLASS_NAME
spec:
  priorities:
  - gpu:
      type: ACCELERATOR_TYPE
      count: ACCELERATOR_COUNT
  nodePoolAutoCreation:
    enabled: true

Wenn Sie diese ComputeClass in einem Pod auswählen, wie im folgenden Beispiel, verwendet GKE schnell startende Knoten:

apiVersion: v1
kind: Pod
metadata:
  name: POD_NAME
spec:
  nodeSelector:
    # Select a ComputeClass that requests compatible GPUs
    cloud.google.com/compute-class: ACCELERATOR_COMPUTE_CLASS_NAME
  containers:
  - name: my-container
    image: gcr.io/google_containers/pause
    resources:
      limits:
        nvidia.com/gpu: ACCELERATOR_COUNT

Ersetzen Sie die folgenden Werte:

  • ACCELERATOR_COMPUTE_CLASS_NAME: Der Name der ComputeClass, die die Beschleuniger anfordert.
  • ACCELERATOR_TYPE: der Typ des Beschleunigers.
  • ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die für den Pod erforderlich sind. Dieser Wert muss kleiner oder gleich dem Wert im Feld spec.priorities.gpu.count in der ComputeClass sein.
  • POD_NAME: der Name Ihres Pods.

Weitere Informationen zu ComputeClass finden Sie unter Benutzerdefinierte Compute-Klassen.

Pod-Spezifikation

Wählen Sie in Ihrer Pod-Spezifikation einen kompatiblen Beschleunigertyp und eine kompatible Anzahl aus, wie im folgenden Beispiel:

apiVersion: v1
kind: Pod
metadata:
  name: POD_NAME
spec:
  nodeSelector:
    cloud.google.com/gke-accelerator: ACCELERATOR_NAME
  containers:
  - name: my-container
    image: gcr.io/google_containers/pause
    resources:
      limits:
        nvidia.com/gpu: ACCELERATOR_COUNT

Ersetzen Sie die folgenden Werte:

  • POD_NAME: der Name Ihres Pods.
  • ACCELERATOR_NAME: Der Name des Beschleunigers, der für den Pod erforderlich ist.
  • ACCELERATOR_COUNT: Die Anzahl der Beschleuniger, die für den Pod erforderlich sind.

Konfigurationsanforderungen für infrage kommende Rechenressourcen

In den Tabellen in den folgenden Abschnitten werden die spezifischen Anforderungen für GKE beschrieben, um die entsprechenden Rechenressourcen als schnell startende Knoten bereitzustellen.

Containeroptimierte Autopilot-Computing-Plattform

Die folgenden Anforderungen müssen erfüllt sein, damit GKE schnell startende Knoten mit der containeroptimierten Autopilot-Computing-Plattform bereitstellen kann.

Compute-Ressource Unterstützung für Release-Versionen und ‑Kanäle Unterstützte Maschinentypen, Bootlaufwerkstypen und ‑größen
Containeroptimierte Autopilot-Compute-Plattform
  • Rapid Channel
  • 1.33.0-gke.1696000 oder höher
  • pd-balanced-Laufwerke mit bis zu 100 GiB
  • Keine lokalen SSDs.

G2-Maschinenserie

Die folgenden Anforderungen müssen erfüllt sein, damit GKE G2-Maschinen als schnell startende Knoten bereitstellen kann.

Compute-Ressource Unterstützung für Release-Versionen und ‑Kanäle Unterstützte Maschinentypen, Bootlaufwerkstypen und ‑größen
G2-Maschinenserie
  • Rapid- und Regular-Kanäle
  • 1.31 oder höher
  • pd-balanced-Laufwerke mit bis zu 500 GiB
  • Keine lokalen SSDs.

A2-Maschinenserie

Die folgenden Anforderungen müssen erfüllt sein, damit GKE A2-Maschinen als schnell startende Knoten bereitstellen kann. Die A2-Maschinenserie ist für Cluster verfügbar, in denen GKE-Version 1.32.0-gke.1008000 oder höher ausgeführt wird und die für die Rapid- oder Regular-Channels registriert sind.

Compute-Ressource Regionen Unterstützte Maschinentypen, Bootlaufwerkstypen und ‑größen
a2-highgpu-1g
  • asia-northeast1
  • asia-southeast1
  • europe-west4
  • me-west1
  • us-central1
  • us-west1
  • us-west4
  • pd-balanced oder pd-ssd bis zu 1.000 GiB.
  • Keine lokalen SSDs.
a2-highgpu-2g
  • asia-southeast1
  • us-central1
  • us-west1
  • pd-balanced oder pd-ssd bis zu 1.000 GiB.
  • Keine lokalen SSDs.
a2-megagpu-16g
  • asia-southeast1
  • europe-west4
  • us-central1
  • pd-balanced oder pd-ssd bis zu 1.000 GiB.
  • Keine lokalen SSDs.
a2-ultragpu-1g
  • asia-southeast1
  • europe-west4
  • us-central1
  • pd-balanced oder pd-ssd bis zu 1.000 GiB.
  • Eine lokale SSD mit 375 GiB ist enthalten.
a2-ultragpu-2g
  • asia-southeast1
  • europe-west4
  • us-central1
  • pd-balanced oder pd-ssd bis zu 1.000 GiB.
  • lokale SSDs mit jeweils 375 GiB sind enthalten.
a2-ultragpu-4g
  • asia-southeast1
  • europe-west4
  • us-central1
  • pd-balanced oder pd-ssd von 1.500 GiB.
  • lokale SSDs mit jeweils 375 GiB sind enthalten.
a2-ultragpu-8g
  • asia-southeast1
  • europe-west4
  • us-central1
  • pd-balanced oder pd-ssd von 3.000 GiB.
  • lokale SSDs mit jeweils 375 GiB sind enthalten.

Preise

Schnell startende Knoten sind in GKE Autopilot ohne Aufpreis verfügbar. Weitere Informationen zu den Preisen für GKE Autopilot finden Sie im Abschnitt „Autopilot-Modus“ unter Preise für Google Kubernetes Engine.

Nächste Schritte