Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Soluciona problemas de observabilidad de Google Distributed Cloud

En este documento, se ayuda a solucionar problemas de observabilidad en Google Distributed Cloud. Si tienes alguno de estos problemas, revisa las correcciones y soluciones alternativas sugeridas.

Si necesitas asistencia adicional, comunícate con Atención al cliente de Cloud. También puedes consultar Obtén asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes:

Requisitos para abrir un caso de asistencia
Herramientas para ayudarte a solucionar problemas, como la configuración de tu entorno, los registros y las métricas
Componentes compatibles.

No se recopilan los registros de auditoría de Cloud

Los registros de auditoría de Cloud están habilitados de forma predeterminada, a menos que haya una marca disableCloudAuditLogging establecida en la sección clusterOperations de la configuración del clúster.

Si los registros de auditoría de Cloud están habilitados, los permisos son el motivo más común por el que no se recopilan los registros. En este caso, los mensajes de error de permiso denegado se muestran en el contenedor de proxy de los registros de auditoría de Cloud.

El contenedor de proxy de los registros de auditoría de Cloud se ejecuta como un DaemonSet en todos los clústeres de Google Distributed Cloud.

Si ves errores de permisos, sigue los pasos para solucionar problemas y resolverlos.

Otra posible causa es que tu proyecto haya alcanzado el límite de cuentas de servicio admitido. Consulta Se filtró la cuenta de servicio de los registros de auditoría de Cloud.

No se recopilan las métricas de `kube-state-metrics`

kube-state-metrics (KSM) se ejecuta como una sola Deployment de réplica en el clúster y genera métricas en casi todos los recursos del clúster. Cuando KSM y gke-metrics-agent se ejecutan en el mismo nodo, existe un mayor riesgo de interrupción entre los agentes de métricas en todos los nodos.

Las métricas de KSM tienen nombres que siguen el patrón de kube_<ResourceKind>, como kube_pod_container_info. Las métricas que comienzan con kube_onpremusercluster_ son del controlador del clúster local, no de KSM.

Si faltan métricas de KSM, revisa los siguientes pasos para solucionar problemas:

En Cloud Monitoring, verifica la CPU, la memoria y el recuento de reinicios de KSM con las métricas de la API de resumen, como kubernetes.io/anthos/container/... . Esta es una canalización independiente con KSM. Confirma que el Pod de KSM no esté limitado por no tener suficientes recursos.
- Si estas métricas de la API de resumen no están disponibles para KSM, es probable que gke-metrics-agent en el mismo nodo también tenga el mismo problema.
En el clúster, verifica el estado y los registros del pod de KSM y del Pod de gke-metrics-agent en el mismo nodo con KSM.

Fallas de `kube-state-metrics` que se repiten

Síntoma

No hay métricas de kube-state-metrics (KSM) disponibles en Cloud Monitoring.

Causa

Es más probable que esta situación ocurra en clústeres grandes o en clústeres con grandes cantidades de recursos. KSM se ejecuta como una sola implementación de réplica y enumera casi todos los recursos del clúster, como Pods, Deployments, DaemonSets, ConfigMaps, Secrets y PersistentVolumes. Las métricas se generan en cada uno de estos objetos de recursos. Si alguno de los recursos tiene muchos objetos, como un clúster con más de 10,000 Pods, es posible que KSM se quede sin memoria.

Versiones afectadas

Este problema podría experimentarse en cualquier versión de Google Distributed Cloud.

El límite predeterminado de CPU y memoria aumentó en las últimas versiones de Google Distributed Cloud, por lo que estos problemas de recursos deberían ser menos comunes.

Corrección y solución alternativa

Para verificar si el problema se debe a problemas de falta de memoria, revisa los siguientes pasos:

Usa kubectl describe pod o kubectl get pod -o yaml y verifica el mensaje de estado de error.
Verifica la métrica de consumo y uso de memoria para KSM y confirma si alcanza el límite antes de reiniciarse.

Si confirmas que los problemas de falta de memoria son el problema, usa una de las siguientes soluciones:

Aumenta la solicitud y el límite de memoria para KSM.

Nota: Incluso si KSM se estabiliza después de los aumentos de recursos, el gke-metrics-agent en el mismo nodo podría seguir siendo un cuello de botella en el rastreo de grandes cantidades de métricas de KSM.
- Para las versiones 1.16.0 o posteriores de Google Distributed Cloud, Google Cloud Observability administra KSM. Para actualizar KSM, consulta Anula las solicitudes y los límites predeterminados de CPU y memoria para un componente de Stackdriver.
- Para las versiones anteriores a la 1.16.0, para ajustar la CPU y la memoria de KSM usa el recurso personalizado de Stackdriver resourceOverride para kube-state-metrics.
Reduce la cantidad de métricas de KSM.

En Google Distributed Cloud 1.13, KSM solo expone una cantidad menor de métricas llamadas métricas principales de forma predeterminada. Este comportamiento significa que el uso de recursos es menor que en las versiones anteriores, pero se puede seguir el mismo procedimiento para reducir aún más la cantidad de métricas de KSM.

En las versiones de Google Distributed Cloud anteriores a la 1.13, KSM usa las marcas predeterminadas. Esta configuración expone una gran cantidad de métricas.

Fallas de `gke-metrics-agent` que se repiten

Si gke-metrics-agent solo experimenta problemas de falta de memoria en el nodo donde existe kube-state-metrics, la causa es una gran cantidad de métricas de kube-state-metrics. Para mitigar este problema, reduce la escala verticalmente stackdriver-operator y modifica KSM para exponer un pequeño conjunto de métricas necesarias, como se detalla en la sección anterior. Recuerda volver a aumentar la escala de stackdriver-operator después de que el clúster se actualice a Google Distributed Cloud 1.13, donde KSM expone de forma predeterminada una cantidad menor de métricas principales.

Para los problemas que no están relacionados con eventos de falta de memoria, verifica los registros de Pods de gke-metric-agent. Para ajustar la CPU y la memoria de todos los Pods gke-metrics-agent, agrega el campo resourceAttrOverride al recurso personalizado de Stackdriver.

Fallas de `stackdriver-metadata-agent` que se repiten

Síntoma

No hay ninguna etiqueta de metadatos del sistema disponible cuando se filtran métricas en Cloud Monitoring.

Causa

El caso más común de fallas de stackdriver-metadata-agent que se repiten se debe a eventos de falta de memoria. Este evento es similar a kube-state-metrics. Aunque stackdriver-metadata-agent no enumera todos los recursos, aún enumera todos los objetos de los tipos de recursos relevantes, como Pods, Deployments y NetworkPolicy. El agente se ejecuta como una sola Deployment de réplica, lo que aumenta el riesgo de eventos de falta de memoria si la cantidad de objetos es demasiado grande.

Versión afectada

Este problema podría experimentarse en cualquier versión de Google Distributed Cloud.

El límite predeterminado de CPU y memoria aumentó en las últimas versiones de Google Distributed Cloud, por lo que estos problemas de recursos deberían ser menos comunes.

Corrección y solución alternativa

Para verificar si el problema se debe a problemas de falta de memoria, revisa los siguientes pasos:

Usa kubectl describe pod o kubectl get pod -o yaml y verifica el mensaje de estado de error.
Verifica la métrica de consumo y uso de memoria para stackdriver-metadata-agent y confirma si alcanza el límite antes de reiniciarse.

Si confirmas que los problemas de falta de memoria están causando problemas, aumenta el límite de memoria en el campo resourceAttrOverride del recurso personalizado de Stackdriver.

Fallas de `metrics-server` que se repiten

Síntoma

El Horizontal Pod Autoscaler y kubectl top no funcionan en tu clúster.

Causa y versiones afectadas

Este problema no es muy común, pero se debe a errores de falta de memoria en clústeres grandes o en clústeres con alta densidad de Pods.

Este problema podría experimentarse en cualquier versión de Google Distributed Cloud.

Corrección y solución alternativa

Aumenta los límites de recursos del servidor de métricas. En la versión 1.13 y posteriores de Google Distributed Cloud, el espacio de nombres de metrics-server y su configuración se movieron de kube-system a gke-managed-metrics-server.

En Google Distributed Cloud, la edición de la configuración de Nanny se revertiría en caso de actualización del clúster. Deberás volver a aplicar los cambios de configuración. Para evitar esta limitación, reduce la escala verticalmente metrics-server-operator y cambia manualmente el Pod metrics-server.

No se quitan todos los recursos durante la eliminación de la cuenta de servicio de los registros de auditoría de Cloud

Cuando borras una cuenta de servicio que se usa para los registros de auditoría de Cloud, no se borran todos los Google Cloud recursos. Si borras y vuelves a crear de forma rutinaria las cuentas de servicio que se usan para los registros de auditoría de Cloud, con el tiempo, el registro de auditoría comienza a fallar.

Síntoma

Los mensajes de error de permiso denegado se muestran en el contenedor de proxy de los registros de auditoría de Cloud.

Para confirmar que la falla del registro de auditoría se debe a este problema, ejecuta el siguiente comando:

curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/features/cloudauditlogging

Reemplaza PROJECT_NUMBER por el número del proyecto.

La respuesta muestra todas las cuentas de servicio que se usan con los registros de auditoría de Cloud en el proyecto, incluidas las cuentas de servicio que se borraron.

Causa y versiones afectadas

No se quitan todos los recursos Google Cloud cuando borras una cuenta de servicio que se usa para los registros de auditoría de Cloud y, finalmente, alcanzas el límite de 1,000 cuentas de servicio para el proyecto.

Este problema podría experimentarse en cualquier versión de Google Distributed Cloud.

Corrección y solución alternativa

Crea una variable de entorno que contenga una lista separada por comas de todas las cuentas de servicio que deseas conservar. Rodea cada correo electrónico de la cuenta de servicio con comillas simples y rodea toda la lista con comillas dobles. Puedes usar lo siguiente como punto de partida:
```
SERVICE_ACCOUNT_EMAILS="'SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com'"
```
Reemplaza lo siguiente:
- PROJECT_ID: ID del proyecto
- SERVICE_ACCOUNT_NAME: El nombre de la cuenta de servicio.
La lista completada debería ser similar al siguiente ejemplo:
```
"'sa_name1@example-project-12345.iam.gserviceaccount.com','sa_name2@example-project-12345.iam.gserviceaccount.com','sa_name3@example-project-12345.iam.gserviceaccount.com'"
```
Ejecuta el siguiente comando para quitar la función de los registros de auditoría de Cloud del proyecto:
```
curl -X DELETE -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION /features/cloudauditlogging
```
Reemplaza lo siguiente:
- PROJECT_NUMBER: Número del proyecto
- FLEET_REGION: La ubicación de la membresía de la flota para tus clústeres. Puede ser una región específica, como us-central1 o global. Puedes ejecutar el comando gcloud container fleet memberships list para obtener la ubicación de la membresía.
Este comando borra por completo todas las cuentas de servicio.

Vuelve a crear la función de los registros de auditoría de Cloud solo con las cuentas de servicio que deseas conservar:

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION/features?feature_id=cloudauditlogging \
    -d '{"spec":{"cloudauditlogging":{"allowlistedServiceAccounts":[$SERVICE_ACCOUNT_EMAILS]}}}'

Las etiquetas de metadatos desaparecen de las métricas

Síntoma

Las etiquetas de metadatos, por ejemplo, node_name, no se propagan en Cloud Monitoring.

Causa y versiones afectadas

Este problema podría experimentarse en cualquier versión de Google Distributed Cloud.

Corrección y solución alternativa

Los cambios en el Pod volverán a mostrar las etiquetas de metadatos. Por ejemplo, ejecutar comandos como kubectl rollout restart deployment <workload_name>.

¿Qué sigue?

Requisitos para abrir un caso de asistencia
Herramientas para ayudarte a solucionar problemas, como la configuración de tu entorno, los registros y las métricas
Componentes compatibles.

Soluciona problemas de observabilidad de Google Distributed Cloud Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

No se recopilan los registros de auditoría de Cloud

No se recopilan las métricas de kube-state-metrics

Fallas de kube-state-metrics que se repiten

Fallas de gke-metrics-agent que se repiten

Fallas de stackdriver-metadata-agent que se repiten

Fallas de metrics-server que se repiten

No se quitan todos los recursos durante la eliminación de la cuenta de servicio de los registros de auditoría de Cloud

Las etiquetas de metadatos desaparecen de las métricas

¿Qué sigue?

Soluciona problemas de observabilidad de Google Distributed Cloud

No se recopilan las métricas de `kube-state-metrics`

Fallas de `kube-state-metrics` que se repiten

Fallas de `gke-metrics-agent` que se repiten

Fallas de `stackdriver-metadata-agent` que se repiten

Fallas de `metrics-server` que se repiten