Notas de la versión 1.13.3 de Google Distributed Cloud con air gap

30 de agosto del 2024

Google Distributed Cloud (GDC) con air gap 1.13.3 ya está disponible.
Consulta la descripción general del producto para obtener información sobre las funciones de Distributed Cloud.

Gestión de clústeres:

Se ha introducido un conjunto más amplio de perfiles de GPU con varias instancias (MIG) (modo uniforme y mixto). Puedes crear clústeres de Google Kubernetes Engine en VMs con GPU (VMs A3) con varios esquemas de segmentación de GPU y abordar dinámicamente las necesidades de recursos de GPU de los servicios que alojan cargas de trabajo de inteligencia artificial (IA).

Hardware:

Ya están disponibles los nuevos servidores DL380a con las últimas GPUs NVIDIA Hopper H100 (2x2 NVL), junto con los procesadores Intel de quinta generación más recientes.

Máquinas virtuales:

Hay disponible un nuevo tipo de máquina virtual A3 optimizada para GPUs. El tipo de VM A3 tiene 4 GPUs NVIDIA H100 de 80 GB conectadas, que pueden ejecutar tus cargas de trabajo de IA que requieran modelos de lenguaje grandes de hasta 100.000 millones de parámetros.
Se han introducido formas de máquinas virtuales A3 más pequeñas, con 1 GPU H100 de 80 GB y 2 GPUs H100 de 80 GB conectadas por máquina virtual. Esta función está en versión preliminar.

Vertex AI:

Se ha incluido la compatibilidad con nuevos formatos de archivo para la traducción de documentos (DOC, PPT, TXT y XLS).
Se ha añadido la API y la compatibilidad con la traducción de documentos por lotes.
Se ha añadido un nuevo formato para el tipo de acelerador de las GPUs MIG en el grupo de recursos para las predicciones online.
Se ha añadido la función de detección automática de idiomas para traducciones insertadas y documentos almacenados en contenedores.
La plataforma de APIs está en la fase de producción.

Se ha actualizado la versión de la imagen del SO Canonical Ubuntu a 20240811 para aplicar los parches de seguridad y las actualizaciones importantes más recientes. Para aprovechar las correcciones de errores y vulnerabilidades de seguridad, debes actualizar todos los nodos con cada lanzamiento. Se han corregido las siguientes vulnerabilidades de seguridad:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Se ha actualizado la versión de la imagen de Rocky OS a 20240731 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.

Facturación:

El usuario no puede crear un BillingAccountBinding debido a un error del webhook de validación.

Almacenamiento en bloques:

Los pods de Grafana se quedan en el estado Init debido a errores de montaje de volumen.
Se ha producido un error de archivos adjuntos múltiples de Trident.

Database Service:

El subcomponente dbs-fleet tiene un error de conciliación al actualizarse.
La creación de DBCluster falla después de la actualización.

Gestión de identidades y accesos:

Los pods gatekeeper-audit del espacio de nombres opa-system se reinician con frecuencia.

Monitorización:

Los pods de la pasarela de la tienda de Cortex pueden entrar en un bucle de fallos al iniciarse mientras se sincronizan con el backend de almacenamiento. Los pods superan sus límites de memoria, lo que provoca que Kubernetes los termine.
Los pods proxy de métricas del plano de control de Kube pueden entrar en un bucle de fallos con un error de retardo de extracción de imágenes.
El aumento del registro WAL (registro anticipado de escritura) provoca que Prometheus use mucha memoria. El nodo de VM del plano de control del sistema informa de eventos NodeHasInsufficientMemory y EvictionThresholdMet debido a este problema.

Redes:

No se ha podido extraer o extraer una imagen del conmutador.

Almacenamiento de objetos:

Algunas advertencias de actualización del almacenamiento de objetos se pueden ignorar.

Sistema operativo:

Los pods se quedan en estado ContainerCreating en un solo nodo.

Servidores físicos:

El servidor DL380a no se puede aprovisionar.

Cambio:

Si se produce un error de Helm durante la actualización, se producirán una serie de restauraciones.
Al actualizar de HW2.0 y Ubuntu, la actualización del nodo muestra RockyLinux de forma incorrecta.
El pod dhcp-tftp-core-server no se ha vaciado.
El OrganizationUpgradese ha quedado bloqueado en la fase de actualización de nodos.
Fallo de conectividad intermitente a la IP virtual del clúster externo.
El kernel no puede crear el contenedor.
Aparece un error Incorrect version of Trident durante la actualización.
Durante el aprovisionamiento de clústeres de usuarios, no se pueden programar algunos pods.
La actualización de la organización del cliente falla en la fase de comprobación previa con el error ErrImagePull.
La actualización de la organización raíz se ha quedado bloqueada en un trabajo de firma fallido.
Durante la actualización, la tarea de una organización raíz falla porque faltan cuentas de servicio.
No se puede actualizar a shared-service-cluster upgrade
El nodo falla durante la actualización del clúster de usuarios.
La actualización de la organización raíz falla en la comprobación previa.
Hay un tiempo de espera persistente durante la raíz inicial organizationupgrade.
El subcomponente obj-syslog-server no se reconcilia en la organización raíz.

Máquinas virtuales:

El complemento de dispositivo NVIDIA DaemonSet falla y muestra el mensaje driver rpc error en los nodos del clúster con GPUs. Este problema provoca que las GPUs no estén disponibles para las máquinas virtuales y los pods.
La VM del clúster del sistema no está lista.
Un volumen de datos informa de que no se encuentra el espacio de trabajo.
El subcomponente obj-syslog-server no se reconcilia en la organización raíz.

Vertex AI:

La función de API preentrenada streaming_recognize de Speech-to-Text falla debido a un problema con la biblioteca de cliente.
No se admite el sondeo del estado de los trabajos en la API batchTranslateDocument.
Las solicitudes batchTranslateDocument pueden causar problemas de rendimiento.
La primera vez que habilites las APIs preentrenadas, es posible que la consola de GDC muestre un estado incoherente al cabo de unos minutos.
Las solicitudes de traducción con más de 250 caracteres pueden provocar un fallo en los pods de translation-prediction-server.
El GPUAllocation del clúster de servicios compartidos no está configurado correctamente.
Al actualizar de la versión 1.9.x a la 1.13.3, es posible que el controlador de gestión del ciclo de vida de los componentes operativos (OCLCM) de los subcomponentes de Vertex AI muestre errores.
Las solicitudes de traducción pueden generar el código de error RESOURCE_EXHAUSTED cuando se ha superado el límite de frecuencia del sistema.
Las solicitudes batchTranslateDocument devuelven el error 503 "Batch Document translation is not implemented si el parámetro operable enableRAG no se define como true en el clúster.

Monitorización:

Se ha corregido un problema que provocaba que el ConfigMap de Prober se restableciera para no incluir ningún trabajo de sondeo.

Redes:

Se ha corregido un problema que provocaba que no se asignara un PodCIDR a los nodos aunque se creara un ClusterCIDRConfig.

Sistema operativo:

Se ha corregido un problema que provocaba que la bm-system-machine-preflight-check tarea de Ansible de un nodo de máquina virtual o bare metal fallara con Either ip_tables or nf_tables kernel module must be loaded.

Servidores físicos:

Se ha corregido un problema que provocaba que el arranque del servidor fallara debido a problemas con POST en el servidor HPE.

Cambio:

Se ha corregido un problema que provocaba un error al actualizar el subcomponente iac-zoneselection-global.

Vertex AI:

Se ha corregido un problema que provocaba que MonitoringTarget mostrara el estado Not Ready cuando se creaban clústeres de usuarios, lo que hacía que las APIs preentrenadas mostraran continuamente el estado Enabling en la interfaz de usuario.

Gestor de complementos:

La versión de Google Distributed Cloud para bare metal se ha actualizado a la versión 1.29.300-gke.185 para aplicar los últimos parches de seguridad y actualizaciones importantes.

Para obtener más información, consulta las notas de la versión 1.29.300-gke.185 de Google Distributed Cloud para Bare Metal.

Cambio:

En la documentación de la actualización se indican las duraciones estimadas de las diferentes fases del proceso de actualización.

Notas de la versión 1.13.3 de Google Distributed Cloud con air gap Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

30 de agosto del 2024

Notas de la versión 1.13.3 de Google Distributed Cloud con air gap