Informar de un host defectuoso

Si detectas problemas en una VM H4D reservada que no puedes resolver de otra forma (por ejemplo, errores persistentes con el dispositivo RDMA), te recomendamos que informes de que su host está defectuoso. Cuando informas de que un host tiene un fallo, Compute Engine lo registra como tal y, a continuación, repara automáticamente la máquina virtual ejecutando el mantenimiento del host. En el caso de las máquinas virtuales H4D, Compute Engine intenta migrar la máquina virtual a otro host cuando empieza el mantenimiento, lo que puede ayudar a minimizar el tiempo de inactividad de tu carga de trabajo.

En este documento se explica cómo informar y reparar hosts defectuosos de instancias de máquina virtual (VM) que forman parte de clústeres basados en VMs. En el caso de los clústeres de Google Kubernetes Engine (GKE), consulta Informar de hosts defectuosos a través de GKE.

Limitaciones

Cuando denuncie un host defectuoso, se aplicarán las siguientes limitaciones:

Solo puedes informar de un host defectuoso si la máquina virtual que se ejecuta en el host cumple todas las condiciones siguientes:
- La VM se está ejecutando.
- La VM usa un tipo de máquina H4D.
- La VM usa el modelo de aprovisionamiento vinculado a la reserva.
  
  Nota: Si una VM H4D en ejecución usa un modelo de aprovisionamiento diferente, pero quieres informar de que su host está defectuoso, ponte en contacto con tu equipo de asistencia.
Google Cloud hace todo lo posible para atender todas tus solicitudes de informes de hosts defectuosos. Sin embargo, debido a las restricciones de capacidad o a los límites de frecuencia, es posible que no siempre se pueda completar una solicitud.

Antes de empezar

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST

Para usar las muestras de la API REST de esta página en un entorno de desarrollo local, debes usar las credenciales que proporciones a la CLI de gcloud.
Para obtener más información, consulta el artículo Autenticarse para usar REST de la documentación sobre Google Cloud autenticación.

Roles obligatorios

Para obtener los permisos que necesitas para informar de un host defectuoso, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

Administrador de instancias de Compute (v. 1) (roles/compute.instanceAdmin.v1) en la VM o en el proyecto
Para ver el estado de una operación de informe de host defectuoso mediante Cloud Logging, haz lo siguiente: Visualizador de registros (roles/logging.viewer) en el proyecto

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para informar de un host defectuoso. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para denunciar un host defectuoso, se necesitan los siguientes permisos:

Para crear un informe de host defectuoso, sigue estos pasos: compute.instances.update en la VM
Para ver una lista de operaciones mediante Logging, haz lo siguiente: logging.operations.list en el proyecto
Para ver los detalles de una operación mediante Logging, haz lo siguiente: logging.operations.get en el proyecto
Para ver una lista de operaciones en Compute Engine, haz lo siguiente: compute.zoneOperations.list en el proyecto
Para ver los detalles de una operación en Compute Engine, sigue estos pasos: compute.zoneOperations.describe en el proyecto

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Información sobre el proceso de informes de anfitrión defectuoso

Después de informar de un host defectuoso de una VM H4D, el tiempo que tarda en reiniciarse la VM H4D varía en función del modo operativo de la reserva que hayas usado para crear la VM. Para verificar el modo de funcionamiento de una reserva, consulta el campo reservationOperationalMode de la reserva.

Modo gestionado (HIGHLY_AVAILABLE_CAPACITY)

Tipos de máquinas admitidos H4D

Limitación de la frecuencia de la API de informes de hosts defectuosos Las llamadas a la API pueden estar limitadas por la frecuencia.

Proceso de informe de host defectuoso

	Modo gestionado (`HIGHLY_AVAILABLE_CAPACITY`)
Tipos de máquinas admitidos	H4D
Limitación de la frecuencia de la API de informes de hosts defectuosos	Las llamadas a la API pueden estar limitadas por la frecuencia.
Proceso de informe de host defectuoso	Cuando informas de un host defectuoso para una VM H4D que se ejecuta en modo gestionado, ocurre lo siguiente: Informa del host defectuoso: la máquina virtual permanece en el estado `RUNNING` durante toda la operación de denuncia, que suele tardar entre 10 y 12 minutos en completarse. Para revisar el estado de la operación, consulta la sección Revisar operaciones de host defectuosas de este documento. Iniciar la reparación del host: una vez que se haya completado la operación para informar de que el host no funciona correctamente, la operación de reparación del host se iniciará en un minuto. Cuando se inicia la operación del host de reparación, la VM se detiene y su estado cambia en función de la opción Reinicio automático (`automaticRestart`) especificada para la VM: Si se ha habilitado el reinicio automático de la máquina virtual, el estado de la máquina virtual cambia a `REPAIRING`. La VM se reinicia automáticamente cuando su host está en buen estado, a menos que la detengas antes. Si el reinicio automático está inhabilitado en la VM, el estado de la VM cambia a `TERMINATED`. Debes reiniciar manualmente la VM después de que su host esté en buen estado. Reparar el host defectuoso puede llevar entre 3 y 14 días, o incluso más en ocasiones. Migrar y reiniciar la VM: después de que empiece la operación de reparación del host (normalmente, entre 10 y 12 minutos), Compute Engine intenta reservar otro host para sustituir el host defectuoso que has notificado en tu capacidad reservada. Si Compute Engine encuentra un host correcto (es decir, si sustituye correctamente el host defectuoso o encuentra un host correcto que coincida en tu capacidad reservada), Compute Engine migra la VM a ese host. A continuación, la máquina virtual se reiniciará de una de las siguientes formas: Si la VM está en el estado `REPAIRING` y hay recursos disponibles antes o cuando se completa la reparación, Compute Engine reinicia automáticamente la VM en un host correcto. De lo contrario, si la VM está en el estado `TERMINATED` o si los recursos no están disponibles antes o cuando se completa la reparación, el estado de la VM se mantiene o cambia a `TERMINATED`. Debes reiniciar la VM manualmente cuando quieras que se ejecute. Sin embargo, es posible que no se pueda reiniciar la VM si no hay recursos disponibles cuando lo hagas. Por ejemplo, esto puede ocurrir si otras VMs ya están usando el host reparado.

Cuando informas de un host defectuoso para una VM H4D que se ejecuta en modo gestionado, ocurre lo siguiente:

Informa del host defectuoso: la máquina virtual permanece en el estado RUNNING durante toda la operación de denuncia, que suele tardar entre 10 y 12 minutos en completarse. Para revisar el estado de la operación, consulta la sección Revisar operaciones de host defectuosas de este documento.
Iniciar la reparación del host: una vez que se haya completado la operación para informar de que el host no funciona correctamente, la operación de reparación del host se iniciará en un minuto.
Cuando se inicia la operación del host de reparación, la VM se detiene y su estado cambia en función de la opción Reinicio automático (automaticRestart) especificada para la VM:
- Si se ha habilitado el reinicio automático de la máquina virtual, el estado de la máquina virtual cambia a REPAIRING. La VM se reinicia automáticamente cuando su host está en buen estado, a menos que la detengas antes.
- Si el reinicio automático está inhabilitado en la VM, el estado de la VM cambia a TERMINATED. Debes reiniciar manualmente la VM después de que su host esté en buen estado.
Reparar el host defectuoso puede llevar entre 3 y 14 días, o incluso más en ocasiones.
Migrar y reiniciar la VM: después de que empiece la operación de reparación del host (normalmente, entre 10 y 12 minutos), Compute Engine intenta reservar otro host para sustituir el host defectuoso que has notificado en tu capacidad reservada. Si Compute Engine encuentra un host correcto (es decir, si sustituye correctamente el host defectuoso o encuentra un host correcto que coincida en tu capacidad reservada), Compute Engine migra la VM a ese host. A continuación, la máquina virtual se reiniciará de una de las siguientes formas:
- Si la VM está en el estado REPAIRING y hay recursos disponibles antes o cuando se completa la reparación, Compute Engine reinicia automáticamente la VM en un host correcto.
- De lo contrario, si la VM está en el estado TERMINATED o si los recursos no están disponibles antes o cuando se completa la reparación, el estado de la VM se mantiene o cambia a TERMINATED. Debes reiniciar la VM manualmente cuando quieras que se ejecute. Sin embargo, es posible que no se pueda reiniciar la VM si no hay recursos disponibles cuando lo hagas. Por ejemplo, esto puede ocurrir si otras VMs ya están usando el host reparado.

Informar de un host defectuoso

Para informar de un host defectuoso, sigue estos pasos:

Revisa el host en el que se ejecuta tu máquina virtual.

Para obtener instrucciones, consulta Ver la topología de un clúster H4D.
Opcional: crea una copia de seguridad de los datos de la SSD local. Cuando la VM se detiene, Compute Engine descarta automáticamente los datos de los discos SSD locales que estén conectados a la VM. No puedes recuperar los datos de las unidades SSD locales después de que Compute Engine los descarte.

Para obtener instrucciones sobre cómo conservar los datos de SSD local, consulta Copia de seguridad de datos de SSD local.
Denuncia al anfitrión que no cumple los requisitos. Para informar de un anfitrión que no cumple los requisitos, selecciona una de las siguientes opciones. La operación de reparación del anfitrión se inicia inmediatamente, en un plazo de un minuto después de que se complete la operación de informe de anfitrión defectuoso. Si la máquina virtual deja de responder después de iniciar la operación de informe de host defectuoso, espere al menos 15 minutos y reinicie la máquina virtual.
gcloud
Para informar de un host defectuoso, usa el siguiente gcloud compute instances report-host-as-faultycomando:
```
gcloud compute instances report-host-as-faulty VM_NAME \
    --async \
    --disruption-schedule=IMMEDIATE \
    --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \
    --zone=ZONE
```
Haz los cambios siguientes:
- VM_NAME: el nombre de la VM.
- FAULT_REASON: una lista de problemas del host que ha encontrado tu VM, separados por comas. Por ejemplo, ISSUE_1,ISSUE_2. Puede especificar los siguientes valores:
  - PERFORMANCE: observas una degradación del rendimiento de la CPU o de la operación de red de Cloud RDMA, fallos en la interfaz de red IRDMA o que el dispositivo de red IRDMA no está presente.
  - SILENT_DATA_CORRUPTION: los datos de tu VM están dañados, pero la VM sigue ejecutándose. La corrupción silenciosa de datos puede deberse a problemas como defectos de vCPU, errores de software o problemas del kernel.
  - BEHAVIOR_UNSPECIFIED: no sabes qué problema afecta a tu VM o el problema no se incluye en las otras opciones.
- DESCRIPTION: una descripción del problema que afecta a tu VM, como información de XID o posibles problemas de rendimiento.
- ZONE: la zona en la que se encuentra la VM.
REST
Para denunciar un host defectuoso, haz la siguiente solicitud POST al método instances.reportHostAsFaulty.

Cuando denuncies un host defectuoso, puedes especificar varios motivos a la vez. Por ejemplo, para especificar dos motivos de fallo, haz una solicitud como la siguiente:
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty

{
  "disruptionSchedule": "IMMEDIATE",
  "faultReasons": [
    {
      "behavior": "FAULT_REASON_1",
      "description": "DESCRIPTION_1"
    },
    {
      "behavior": "FAULT_REASON_2",
      "description": "DESCRIPTION_2"
    }
  ]
}
```
Haz los cambios siguientes:
- PROJECT_ID: el ID del proyecto en el que se encuentra la VM.
- ZONE: la zona en la que se encuentra la VM.
- VM_NAME: el nombre de la VM.
- FAULT_REASON_1 y FAULT_REASON_2: cada problema del host que ha encontrado tu VM. Puedes especificar los siguientes valores:
  - PERFORMANCE: observas una degradación del rendimiento de la CPU o de la operación de red RDMA, fallos del dispositivo RDMA o que el dispositivo RDMA no está presente.
  - SILENT_DATA_CORRUPTION: los datos de tu VM están dañados, pero la VM sigue funcionando. La corrupción silenciosa de datos puede deberse a problemas como defectos de vCPUs, errores de software o problemas del kernel.
  - BEHAVIOR_UNSPECIFIED: no sabes cuál es el problema de tu máquina virtual.
- DESCRIPTION_1 y DESCRIPTION_2: una descripción de cada problema del host que hayas especificado, como información de XID o posibles problemas de rendimiento.

Revisar el informe de operaciones de anfitrión defectuosas

Después de informar de un host defectuoso, Compute Engine inicia una serie de operaciones para marcar el host como defectuoso y lo prepara para la reparación. En concreto, durante una operación de informe de host defectuoso, se sigue el siguiente proceso:

Marca el host como defectuoso. Compute Engine crea el informe de la operación del host defectuoso. A continuación, la operación de informe de host defectuoso crea una secuencia de suboperaciones. Estas suboperaciones marcan el host subyacente como defectuoso.
Prepara el host para las reparaciones. Una vez completadas todas las suboperaciones, se inicia la operación de informe de host defectuoso. Compute Engine detiene la máquina virtual e inicia la operación de reparación del host defectuoso. En función del modo de funcionamiento de la reserva especificado en la reserva que usa la VM y si hay hosts en buen estado disponibles, Compute Engine mantiene la VM detenida o intenta migrarla y reiniciarla automáticamente.
Informa de que se ha completado la reparación y repara el host. Compute Engine completa la operación de informe de host defectuoso y se ejecuta la operación de reparación del host.

Para monitorizar el estado de las operaciones de denuncia de host defectuoso (compute.instances.reportHostAsFaulty) en tu proyecto, selecciona una de las siguientes opciones. Para obtener más información sobre otras operaciones que puedes usar para monitorizar reparaciones, migraciones y reinicios automáticos, consulta Comportamientos de mantenimiento y reinicio y Monitorizar y planificar un evento de mantenimiento de host en la documentación de Compute Engine.

Consola (operaciones de VM)

En la Google Cloud consola, ve a la página Operaciones.

Ir a Operaciones
En la tabla que aparece, busca la máquina virtual que has denunciado.
En la fila que contiene la VM, en la columna Estado, puede ver el estado de la operación de notificación de host defectuoso. Cuando se complete la operación, el valor será Hecho.
Opcional: Para verificar si Compute Engine ha reiniciado la VM, consulta los detalles de la VM.

Consola (registros de VM)

En la Google Cloud consola, ve a la página Explorador de registros.

Ir a Explorador de registros
Comprueba que el interruptor Mostrar consulta esté activado.

En el editor de consultas, escribe la siguiente consulta:

resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"

Haz clic en Realizar una consulta. En el panel Resultados de la consulta se muestran los resultados de la consulta.

gcloud

Para ver el estado de las operaciones de host defectuosas en tu proyecto, usa el comando gcloud compute operations list con la marca --filter definida como operationType:compute.instances.reportHostAsFaulty:
```
gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"
```
Si quieres ver los detalles de una operación de host específica que ha fallado, usa el comando gcloud compute operations describe:
```
gcloud compute operations describe OPERATION_NAME \
    --zone="ZONE"
```
Haz los cambios siguientes:
- OPERATION_NAME: el nombre de la operación.
- ZONE: la zona en la que se encuentra la operación.

REST

Para ver el estado de las operaciones de host defectuosas en tu proyecto, haz una solicitud GET al método zoneOperations.list. En la URL de la solicitud, incluya el parámetro de consulta filter con el valor items.operationType:compute.instances.reportHostAsFaulty.

GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaulty

Haz los cambios siguientes:

PROJECT_ID: el nombre de la operación.
ZONE: la zona en la que se encuentran las operaciones.

Siguientes pasos

Si tienes problemas al denunciar un anfitrión que no cumple los requisitos, consulta Solucionar problemas con la API de anfitrión que no cumple los requisitos.

Informar de un host defectuoso Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Limitaciones

Antes de empezar

Console

gcloud

REST

Roles obligatorios

Permisos obligatorios

Información sobre el proceso de informes de anfitrión defectuoso

Informar de un host defectuoso

gcloud

REST

Revisar el informe de operaciones de anfitrión defectuosas

Consola (operaciones de VM)

Consola (registros de VM)

gcloud

REST

Siguientes pasos

Informar de un host defectuoso