Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise

30. August 2024

Ankündigung

Google Distributed Cloud (GDC) mit Air Gap 1.13.3 ist verfügbar.
Informationen zu den Funktionen von Distributed Cloud finden Sie in der Produktübersicht.

Feature

Clusterverwaltung:

Es wurde eine größere Auswahl an MIG-Profilen (Multi-Instance GPU) (einheitlicher und gemischter Modus) eingeführt. Sie können Google Kubernetes Engine-Cluster auf GPU-VMs (A3-VMs) mit verschiedenen GPU-Slicing-Schemata erstellen und die GPU-Ressourcenanforderungen von Diensten, die KI-Arbeitslasten hosten, dynamisch anpassen.

Hardware:

Es sind neue DL380a-Server mit den neuesten NVIDIA Hopper H100-GPUs (2x2 NVL) in Kombination mit den neuesten Intel-Prozessoren der 5. Generation verfügbar.

Virtuelle Maschinen:

Ein neuer GPU-optimierter A3-VM-Typ ist verfügbar. An den A3-VM-Typ sind 4 NVIDIA H100-GPUs mit 80 GB angehängt, auf denen KI-Arbeitslasten mit großen Sprachmodellen mit bis zu 100 Milliarden Parametern ausgeführt werden können.
Es werden kleinere A3-VM-Formen mit 1 H100-GPU mit 80 GB und 2 H100-GPUs mit 80 GB pro VM eingeführt. Diese Feature befindet sich im Vorschaumodus.

Vertex AI:

Unterstützung für neue Dateiformate für die Dokumentübersetzung (DOC, PPT, TXT, XLS) hinzugefügt.
Die API und die Unterstützung für die Batch-Dokumentübersetzung wurden hinzugefügt.
Ein neues Format für den Beschleunigertyp von MIG-GPUs im Ressourcenpool für Onlinevorhersagen wird unterstützt.
Die automatische Spracherkennung für Inline-Übersetzungen und in Buckets gespeicherte Dokumente wird unterstützt.
Die API-Plattform befindet sich in der Produktionsphase.

Sicherheit

Die Version des Canonical Ubuntu-Betriebssystem-Image wurde auf 20240811 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden. Damit Sie die Fehlerkorrekturen und Sicherheitslücken schließen können, müssen Sie alle Knoten mit jedem Release aktualisieren. Die folgenden Sicherheitslücken wurden behoben:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Sicherheit

Die Rocky OS-Imageversion wurde auf 20240731 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.

Vorgang

Abrechnung:

Nutzer können BillingAccountBinding aufgrund eines Validierungs-Webhook-Fehlers nicht erstellen.

Blockspeicher:

Grafana-Pods hängen aufgrund von Fehlern beim Einbinden von Volumes im Status Init fest.
Es ist ein Trident-Fehler beim Anhängen mehrerer Dateien aufgetreten.

Database Service (Datenbankdienst):

Bei der Aktualisierung der Unterkomponente dbs-fleet ist ein Abgleichsfehler aufgetreten.
Die Erstellung von DBCluster schlägt nach dem Upgrade fehl.

Identitäts- und Zugriffsverwaltung:

Die gatekeeper-audit-Pods im Namespace opa-system werden häufig neu gestartet.

Monitoring:

Die Cortex-Store-Gateway-Pods können beim Start in eine Crash-Schleife geraten, während sie mit dem Speicher-Backend synchronisiert werden. Die Pods überschreiten ihre Speicherlimits, sodass sie von Kubernetes beendet werden.
Die Proxy-Pods für Kube-Steuerungsebenenmesswerte können mit einem Backoff-Fehler beim Abrufen von Images in eine Crashloop geraten.
Wenn das WAL (Write-Ahead-Log) wächst, verwendet Prometheus viel Arbeitsspeicher. Der VM-Knoten der Systemsteuerungsebene meldet aufgrund dieses Problems NodeHasInsufficientMemory- und EvictionThresholdMet-Ereignisse.

Netzwerk:

Das Switch-Image konnte kein Bild extrahieren oder abrufen.

Objektspeicher:

Einige Warnungen zum Upgrade des Objektspeichers können ignoriert werden.

Betriebssystem:

Pods bleiben auf einem einzelnen Knoten im Status ContainerCreating hängen.

Physische Server:

Der DL380a-Server kann nicht bereitgestellt werden.

Upgrade:

Ein Helm-Fehler während des Upgrades führt zu einer Reihe von Rollbacks.
Beim Upgrade von HW2.0 und Ubuntu wird fälschlicherweise RockyLinux für das Knoten-Upgrade angezeigt.
Der dhcp-tftp-core-server-Pod wird nicht entleert.
OrganizationUpgrade hängt beim Knotenupgrade fest.
Zeitweise Verbindungsfehler zur externen VIP des Clusters.
Der Kernel kann den Container nicht erstellen.
Während des Upgrades wird ein Incorrect version of Trident-Fehler angezeigt.
Während der Bereitstellung des Nutzerclusters können einige Pods nicht geplant werden.
Das Upgrade der Mandantenorganisation schlägt in der Preflight-Prüfungsphase mit ErrImagePull fehl.
Das Upgrade der Stammorganisation bleibt bei einem fehlgeschlagenen Signaturjob hängen.
Beim Upgrade schlägt die Aufgabe für eine Stammorganisation aufgrund fehlender Dienstkonten fehl.
Upgrade schlägt bei shared-service-cluster upgrade fehl
Der Knoten schlägt während des Nutzercluster-Upgrades fehl.
Das Upgrade der Stammorganisation schlägt bei der Preflight-Prüfung fehl.
Beim ersten Root organizationupgrade tritt ein dauerhaftes Zeitlimit auf.
Der Abgleich der Unterkomponente obj-syslog-server in der Stammorganisation schlägt fehl.
Weitere Informationen finden Sie unter Bekannte Probleme.

Virtuelle Maschinen:

Das NVIDIA-Geräte-Plug-in DaemonSet schlägt mit der Meldung driver rpc error auf Clustern mit GPUs fehl. Dieses Problem führt dazu, dass GPUs für virtuelle Maschinen und Pods nicht verfügbar sind.
Die VM des Systemclusters ist nicht bereit.
Ein Daten-Volume meldet, dass der Scratch-Speicher nicht gefunden wurde.
Der Abgleich der Unterkomponente obj-syslog-server in der Stammorganisation schlägt fehl.

Vertex AI:

Die vortrainierte streaming_recognize-API-Funktion von Speech-to-Text schlägt aufgrund eines Problems mit der Clientbibliothek fehl.
Das Abrufen des Jobstatus wird für die batchTranslateDocument API nicht unterstützt.
batchTranslateDocument-Anfragen können Leistungsprobleme verursachen.
Wenn Sie vortrainierte APIs zum ersten Mal aktivieren, wird in der GDC-Konsole nach einigen Minuten möglicherweise ein inkonsistenter Status angezeigt.
Übersetzungsanfragen mit mehr als 250 Zeichen können zum Absturz von translation-prediction-server-Pods führen.
Die GPUAllocation für den freigegebenen Dienstcluster ist nicht richtig konfiguriert.
Beim Upgrade von Version 1.9.x auf Version 1.13.3 können für den OCLCM-Controller (Operable Component Lifecycle Management) für Vertex AI-Unterkomponenten Fehler angezeigt werden.
Bei Übersetzungsanfragen kann der Fehlercode RESOURCE_EXHAUSTED generiert werden, wenn das Systemfrequenzlimit überschritten wurde.
batchTranslateDocument-Anfragen geben den Fehler 503 "Batch Document translation is not implemented zurück, wenn der operable-Parameter enableRAG im Cluster nicht auf true gesetzt ist.

Behoben

Monitoring:

Ein Problem wurde behoben, bei dem die Prober-ConfigMap zurückgesetzt wurde und keine Probe-Jobs mehr enthielt.

Netzwerk:

Ein Problem wurde behoben, bei dem Knoten keine PodCIDR zugewiesen wurde, obwohl eine ClusterCIDRConfig erstellt wurde.

Betriebssystem:

Ein Problem mit dem bm-system-machine-preflight-check-Ansible-Job für einen Bare-Metal- oder VM-Knoten wurde behoben, bei dem der Job mit Either ip_tables or nf_tables kernel module must be loaded fehlgeschlagen ist.

Physische Server:

Das Problem, dass der Server-Bootstrap aufgrund von POST-Problemen auf dem HPE-Server fehlgeschlagen ist, wurde behoben.

Upgrade:

Ein Problem wurde behoben, durch das das Upgrade in der Unterkomponente iac-zoneselection-global fehlgeschlagen ist.

Vertex AI:

Ein Problem wurde behoben, bei dem in MonitoringTarget der Status Not Ready angezeigt wurde, wenn Nutzercluster erstellt wurden. Dadurch wurde in der Benutzeroberfläche für vortrainierte APIs fortlaufend der Status Enabling angezeigt.

Ändern

Add-on Manager:

Die Google Distributed Cloud for Bare Metal-Version wurde auf 1.29.300-gke.185 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.

Weitere Informationen finden Sie in den Versionshinweisen zu Google Distributed Cloud for Bare Metal 1.29.300-gke.185.

Upgrade:

Die Upgrade-Dokumentation enthält geschätzte Zeiträume für die verschiedenen Phasen des Upgrade-Prozesses.

Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

30. August 2024

Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise