Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise

30. August 2024


Ankündigung
Google Distributed Cloud (GDC) mit Air Gap 1.13.3 ist verfügbar.
Informationen zu den Funktionen von Distributed Cloud finden Sie in der Produktübersicht.

Feature

Clusterverwaltung:

  • Es wurde eine größere Auswahl an MIG-Profilen (Multi-Instance GPU) (einheitlicher und gemischter Modus) eingeführt. Sie können Google Kubernetes Engine-Cluster auf GPU-VMs (A3-VMs) mit verschiedenen GPU-Slicing-Schemata erstellen und die GPU-Ressourcenanforderungen von Diensten, die KI-Arbeitslasten hosten, dynamisch anpassen.

Hardware:

  • Es sind neue DL380a-Server mit den neuesten NVIDIA Hopper H100-GPUs (2x2 NVL) in Kombination mit den neuesten Intel-Prozessoren der 5. Generation verfügbar.

Virtuelle Maschinen:

  • Ein neuer GPU-optimierter A3-VM-Typ ist verfügbar. An den A3-VM-Typ sind 4 NVIDIA H100-GPUs mit 80 GB angehängt, auf denen KI-Arbeitslasten mit großen Sprachmodellen mit bis zu 100 Milliarden Parametern ausgeführt werden können.
  • Es werden kleinere A3-VM-Formen mit 1 H100-GPU mit 80 GB und 2 H100-GPUs mit 80 GB pro VM eingeführt. Diese Feature befindet sich im Vorschaumodus.

Vertex AI:


Sicherheit
Die Version des Canonical Ubuntu-Betriebssystem-Image wurde auf 20240811 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden. Damit Sie die Fehlerkorrekturen und Sicherheitslücken schließen können, müssen Sie alle Knoten mit jedem Release aktualisieren. Die folgenden Sicherheitslücken wurden behoben:

Sicherheit

Die Rocky OS-Imageversion wurde auf 20240731 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.


Vorgang

Abrechnung:

  • Nutzer können BillingAccountBinding aufgrund eines Validierungs-Webhook-Fehlers nicht erstellen.

Blockspeicher:

  • Grafana-Pods hängen aufgrund von Fehlern beim Einbinden von Volumes im Status Init fest.
  • Es ist ein Trident-Fehler beim Anhängen mehrerer Dateien aufgetreten.

Database Service (Datenbankdienst):

  • Bei der Aktualisierung der Unterkomponente dbs-fleet ist ein Abgleichsfehler aufgetreten.
  • Die Erstellung von DBCluster schlägt nach dem Upgrade fehl.

Identitäts- und Zugriffsverwaltung:

  • Die gatekeeper-audit-Pods im Namespace opa-system werden häufig neu gestartet.

Monitoring:

  • Die Cortex-Store-Gateway-Pods können beim Start in eine Crash-Schleife geraten, während sie mit dem Speicher-Backend synchronisiert werden. Die Pods überschreiten ihre Speicherlimits, sodass sie von Kubernetes beendet werden.
  • Die Proxy-Pods für Kube-Steuerungsebenenmesswerte können mit einem Backoff-Fehler beim Abrufen von Images in eine Crashloop geraten.
  • Wenn das WAL (Write-Ahead-Log) wächst, verwendet Prometheus viel Arbeitsspeicher. Der VM-Knoten der Systemsteuerungsebene meldet aufgrund dieses Problems NodeHasInsufficientMemory- und EvictionThresholdMet-Ereignisse.

Netzwerk:

  • Das Switch-Image konnte kein Bild extrahieren oder abrufen.

Objektspeicher:

  • Einige Warnungen zum Upgrade des Objektspeichers können ignoriert werden.

Betriebssystem:

  • Pods bleiben auf einem einzelnen Knoten im Status ContainerCreating hängen.

Physische Server:

  • Der DL380a-Server kann nicht bereitgestellt werden.

Upgrade:

  • Ein Helm-Fehler während des Upgrades führt zu einer Reihe von Rollbacks.
  • Beim Upgrade von HW2.0 und Ubuntu wird fälschlicherweise RockyLinux für das Knoten-Upgrade angezeigt.
  • Der dhcp-tftp-core-server-Pod wird nicht entleert.
  • OrganizationUpgrade hängt beim Knotenupgrade fest.
  • Zeitweise Verbindungsfehler zur externen VIP des Clusters.
  • Der Kernel kann den Container nicht erstellen.
  • Während des Upgrades wird ein Incorrect version of Trident-Fehler angezeigt.
  • Während der Bereitstellung des Nutzerclusters können einige Pods nicht geplant werden.
  • Das Upgrade der Mandantenorganisation schlägt in der Preflight-Prüfungsphase mit ErrImagePull fehl.
  • Das Upgrade der Stammorganisation bleibt bei einem fehlgeschlagenen Signaturjob hängen.
  • Beim Upgrade schlägt die Aufgabe für eine Stammorganisation aufgrund fehlender Dienstkonten fehl.
  • Upgrade schlägt bei shared-service-cluster upgrade fehl
  • Der Knoten schlägt während des Nutzercluster-Upgrades fehl.
  • Das Upgrade der Stammorganisation schlägt bei der Preflight-Prüfung fehl.
  • Beim ersten Root organizationupgrade tritt ein dauerhaftes Zeitlimit auf.
  • Der Abgleich der Unterkomponente obj-syslog-server in der Stammorganisation schlägt fehl.

Virtuelle Maschinen:

  • Das NVIDIA-Geräte-Plug-in DaemonSet schlägt mit der Meldung driver rpc error auf Clustern mit GPUs fehl. Dieses Problem führt dazu, dass GPUs für virtuelle Maschinen und Pods nicht verfügbar sind.
  • Die VM des Systemclusters ist nicht bereit.
  • Ein Daten-Volume meldet, dass der Scratch-Speicher nicht gefunden wurde.
  • Der Abgleich der Unterkomponente obj-syslog-server in der Stammorganisation schlägt fehl.

Vertex AI:

  • Die vortrainierte streaming_recognize-API-Funktion von Speech-to-Text schlägt aufgrund eines Problems mit der Clientbibliothek fehl.
  • Das Abrufen des Jobstatus wird für die batchTranslateDocument API nicht unterstützt.
  • batchTranslateDocument-Anfragen können Leistungsprobleme verursachen.
  • Wenn Sie vortrainierte APIs zum ersten Mal aktivieren, wird in der GDC-Konsole nach einigen Minuten möglicherweise ein inkonsistenter Status angezeigt.
  • Übersetzungsanfragen mit mehr als 250 Zeichen können zum Absturz von translation-prediction-server-Pods führen.
  • Die GPUAllocation für den freigegebenen Dienstcluster ist nicht richtig konfiguriert.
  • Beim Upgrade von Version 1.9.x auf Version 1.13.3 können für den OCLCM-Controller (Operable Component Lifecycle Management) für Vertex AI-Unterkomponenten Fehler angezeigt werden.
  • Bei Übersetzungsanfragen kann der Fehlercode RESOURCE_EXHAUSTED generiert werden, wenn das Systemfrequenzlimit überschritten wurde.
  • batchTranslateDocument-Anfragen geben den Fehler 503 "Batch Document translation is not implemented zurück, wenn der operable-Parameter enableRAG im Cluster nicht auf true gesetzt ist.

Behoben

Monitoring:

  • Ein Problem wurde behoben, bei dem die Prober-ConfigMap zurückgesetzt wurde und keine Probe-Jobs mehr enthielt.

Netzwerk:

  • Ein Problem wurde behoben, bei dem Knoten keine PodCIDR zugewiesen wurde, obwohl eine ClusterCIDRConfig erstellt wurde.

Betriebssystem:

  • Ein Problem mit dem bm-system-machine-preflight-check-Ansible-Job für einen Bare-Metal- oder VM-Knoten wurde behoben, bei dem der Job mit Either ip_tables or nf_tables kernel module must be loaded fehlgeschlagen ist.

Physische Server:

  • Das Problem, dass der Server-Bootstrap aufgrund von POST-Problemen auf dem HPE-Server fehlgeschlagen ist, wurde behoben.

Upgrade:

  • Ein Problem wurde behoben, durch das das Upgrade in der Unterkomponente iac-zoneselection-global fehlgeschlagen ist.

Vertex AI:

  • Ein Problem wurde behoben, bei dem in MonitoringTarget der Status Not Ready angezeigt wurde, wenn Nutzercluster erstellt wurden. Dadurch wurde in der Benutzeroberfläche für vortrainierte APIs fortlaufend der Status Enabling angezeigt.

Ändern

Add-on Manager:

Upgrade:

  • Die Upgrade-Dokumentation enthält geschätzte Zeiträume für die verschiedenen Phasen des Upgrade-Prozesses.