30 agosto 2024
Consulta la panoramica del prodotto per scoprire le funzionalità di Distributed Cloud.
Gestione dei cluster:
- È stato introdotto un insieme più ampio di profili GPU multi-istanza (MIG) (modalità uniforme e mista). Puoi creare cluster Google Kubernetes Engine su VM GPU (VM A3) con una serie di schemi di suddivisione delle GPU e soddisfare dinamicamente le esigenze di risorse GPU dei servizi che ospitano carichi di lavoro di intelligenza artificiale (AI).
Hardware:
- Sono disponibili nuovi server DL380a con le più recenti GPU NVIDIA Hopper H100 (2x2 NVL), abbinate ai più recenti processori Intel di quinta generazione.
Macchine virtuali:
- È disponibile un nuovo tipo di VM A3 ottimizzato per la GPU. Il tipo di VM A3 ha 4 GPU NVIDIA H100 da 80 GB collegate, che possono eseguire i tuoi workload AI che richiedono modelli linguistici di grandi dimensioni fino a 100 miliardi di parametri.
- Vengono introdotte forme di VM A3 più piccole, con 1 GPU H100 da 80 GB e 2 GPU H100 da 80 GB collegate per VM. Questa funzionalità è in anteprima.
Vertex AI:
- È stato incluso il supporto per nuovi formati di file per la traduzione di documenti (DOC, PPT, TXT, XLS).
- Sono state aggiunte l'API e il supporto per la traduzione di documenti in batch.
- È stato supportato un nuovo formato per il tipo di acceleratore delle GPU MIG nel pool di risorse per le previsioni online.
- È stata aggiunta la funzionalità di rilevamento automatico della lingua per le traduzioni in linea e i documenti archiviati nei bucket.
- La piattaforma API è in fase di produzione.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
È stata aggiornata la versione dell'immagine di Rocky OS alla versione 20240731 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti.
Fatturazione:
-
L'utente non riesce a creare
BillingAccountBindinga causa di un errore del webhook di convalida.
Archiviazione a blocchi:
-
I pod Grafana bloccati nello stato
Inita causa di errori di montaggio del volume. - Si è verificato un errore di allegato multiplo di Trident.
Database Service:
-
Il sottocomponente
dbs-fleetpresenta un errore di riconciliazione durante l'upgrade. -
La creazione di
DBClusternon riesce dopo l'upgrade.
Gestione di identità e accessi:
-
I pod
gatekeeper-auditnello spazio dei nomiopa-systemvengono riavviati di frequente.
Monitoraggio:
- I pod del gateway dello store Cortex possono andare in crash all'avvio durante la sincronizzazione con il backend di archiviazione. I pod superano i limiti di memoria, causando l'arresto da parte di Kubernetes.
- I pod proxy delle metriche del control plane di Kube possono andare in crashloop con errore di backoff del pull delle immagini.
-
Un aumento del WAL (write-ahead log) fa sì che Prometheus utilizzi molta memoria. A causa di questo problema, il nodo VM del control plane di sistema segnala eventi
NodeHasInsufficientMemoryeEvictionThresholdMet.
Networking:
- L'immagine dell'opzione non è stata estratta o recuperata.
Archiviazione di oggetti:
- Alcuni avvisi di upgrade dell'archiviazione oggetti possono essere ignorati.
Sistema operativo:
-
I pod sono bloccati nello stato
ContainerCreatingsu un singolo nodo.
Server fisici:
- Il provisioning del server DL380a non va a buon fine.
Esegui l'upgrade:
- Un errore di Helm durante l'upgrade causa una serie di rollback.
- Quando esegui l'upgrade da HW2.0 e Ubuntu, l'upgrade del nodo mostra in modo errato RockyLinux.
-
Il pod
dhcp-tftp-core-servernon è stato svuotato. -
OrganizationUpgradeè bloccato nella fase di upgrade dei nodi. - Errore di connettività intermittente al VIP del cluster esterno.
- Il kernel non riesce a creare il contenitore.
-
Durante l'upgrade viene visualizzato un errore
Incorrect version of Trident. - Durante il provisioning del cluster utente, la pianificazione di alcuni pod non riesce.
-
L'upgrade dell'organizzazione tenant non riesce nella fase di controllo preflight con
ErrImagePull. - L'upgrade dell'organizzazione principale è bloccato su un job di firma non riuscito.
- Durante l'upgrade, l'attività per un'organizzazione principale non riesce a causa della mancanza di service account.
-
L'upgrade non riesce su
shared-service-cluster upgrade - Il nodo non funziona durante l'upgrade del cluster utente.
- L'upgrade dell'organizzazione principale non riesce per il controllo preflight.
-
Si verifica un timeout persistente durante la
organizationupgradeiniziale della radice. -
La riconciliazione del sottocomponente
obj-syslog-servernon riesce nell'organizzazione principale.
Macchine virtuali:
-
Il plug-in del dispositivo NVIDIA
DaemonSetnon funziona e viene visualizzato il messaggiodriver rpc errorsui nodi del cluster con GPU. Questo problema causa l'indisponibilità delle GPU per le macchine virtuali e i pod. - VM del cluster di sistema non pronta.
- Un volume di dati segnala che lo spazio di lavoro non è stato trovato.
-
La riconciliazione del sottocomponente
obj-syslog-servernon riesce nell'organizzazione principale.
Vertex AI:
-
La funzione API preaddestrata
streaming_recognizedi Speech-to-Text non funziona a causa di un problema con la libreria client. -
Il polling dello stato del job non è supportato per l'API
batchTranslateDocument. -
Le richieste
batchTranslateDocumentpotrebbero causare problemi di prestazioni. - La prima volta che abiliti le API preaddestrate, la console GDC potrebbe mostrare uno stato incoerente dopo alcuni minuti.
-
Le richieste di traduzione con più di 250 caratteri possono causare l'arresto anomalo dei pod
translation-prediction-server. -
GPUAllocationper il cluster di servizi condivisi non è configurato correttamente. - Quando esegui l'upgrade dalla versione 1.9.x alla 1.13.3, il controller Operable Component Lifecycle Management (OCLCM) per i sottocomponenti di Vertex AI potrebbe mostrare errori.
-
Le richieste di traduzione potrebbero generare il codice di errore
RESOURCE_EXHAUSTEDquando è stato superato il limite di frequenza del sistema. -
Le richieste
batchTranslateDocumentrestituiscono l'errore503 "Batch Document translation is not implementedse il parametro operabileenableRAGnon è impostato sutruenel cluster.
Monitoraggio:
- Risolto un problema per cui ConfigMap di Prober viene reimpostato in modo da non includere job di probe.
Networking:
-
Risolto un problema relativo a un
PodCIDRnon assegnato ai nodi anche se è stato creato unClusterCIDRConfig.
Sistema operativo:
- È stato risolto un problema relativo al job Ansible
bm-system-machine-preflight-checkper un nodo bare metal o VM che non riusciva a essere eseguito conEither ip_tables or nf_tables kernel module must be loaded.
Server fisici:
- È stato risolto un problema di bootstrap del server non riuscito a causa di problemi POST sul server HPE.
Esegui l'upgrade:
- È stato risolto un problema relativo all'aggiornamento non riuscito nel sottocomponente
iac-zoneselection-global.
Vertex AI:
-
Risolto un problema per cui
MonitoringTargetmostra lo statoNot Readydurante la creazione dei cluster di utenti, facendo sì che le API preaddestrate mostrino continuamente lo statoEnablingnell'interfaccia utente.
Gestione componenti aggiuntivi:
Google Distributed Cloud per la versione bare metal viene aggiornato alla versione 1.29.300-gke.185 per applicare le patch di sicurezza più recenti e gli aggiornamenti importanti.
Per maggiori dettagli, consulta le note di rilascio di Google Distributed Cloud per bare metal 1.29.300-gke.185.
Esegui l'upgrade:
- La documentazione sull'upgrade fornisce le durate stimate per le diverse fasi del processo di upgrade.