Si observas problemas en una VM H4D reservada que no puedes resolver de otra manera (por ejemplo, errores persistentes con el dispositivo RDMA), te recomendamos que informes que su host está defectuoso. Cuando informas que un host tiene fallas, Compute Engine lo registra como tal y, luego, repara automáticamente la VM ejecutando el mantenimiento del host. En el caso de las VMs H4D, Compute Engine intenta migrar la VM a otro host cuando comienza el mantenimiento, lo que puede ayudar a minimizar el tiempo de inactividad de tu carga de trabajo.
En este documento, se explica cómo informar y reparar hosts defectuosos para instancias de máquinas virtuales (VM) que forman parte de clústeres basados en VMs. Para los clústeres de Google Kubernetes Engine (GKE), consulta Cómo informar hosts defectuosos a través de GKE.
Limitaciones
Cuando denuncias un host defectuoso, se aplican las siguientes limitaciones:
Solo puedes denunciar un host defectuoso si la VM que se ejecuta en el host cumple con todas las siguientes condiciones:
La VM se está ejecutando.
La VM usa un tipo de máquina H4D.
La VM usa el modelo de aprovisionamiento vinculado a la reserva.
Google Cloud hace todo lo posible para satisfacer todas tus solicitudes de informes de host defectuosos. Sin embargo, debido a las restricciones de capacidad o los límites de frecuencia, es posible que no siempre se cumpla una solicitud.
Antes de comenzar
-
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
Para usar las muestras de la API de REST en esta página en un entorno de desarrollo local, debes usar las credenciales que proporciones a gcloud CLI.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
Para obtener más información, consulta Autentícate para usar REST en la documentación de autenticación de Google Cloud .
Roles obligatorios
Para obtener los permisos que necesitas para informar sobre un host defectuoso, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Administrador de instancias de Compute (v1) (
roles/compute.instanceAdmin.v1) en la VM o el proyecto -
Para ver el estado de una operación de informe de host defectuoso con Cloud Logging, haz lo siguiente:
Visor de registros (
roles/logging.viewer) en el proyecto
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para denunciar un host defectuoso. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para denunciar un host defectuoso:
-
Para crear un informe de host defectuoso, haz lo siguiente:
compute.instances.updateen la VM -
Para ver una lista de operaciones con Logging:
logging.operations.listen el proyecto -
Para ver los detalles de una operación con Logging:
logging.operations.geten el proyecto -
Para ver una lista de las operaciones en Compute Engine, haz lo siguiente:
compute.zoneOperations.listen el proyecto -
Para ver los detalles de una operación en Compute Engine, haz lo siguiente:
compute.zoneOperations.describeen el proyecto
También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Comprende el proceso de informe de host defectuoso
Después de informar que un host de una VM de H4D está defectuoso, el momento en que se reinicia la VM de H4D varía según el modo operativo de la reserva de la reserva que usaste para crear la VM. Para verificar el modo operativo de una reserva, consulta el campo reservationOperationalMode en la reserva.
Modo administrado ( HIGHLY_AVAILABLE_CAPACITY)Tipos de máquina admitidos H4D Límite de frecuencia de la API de informes de host defectuoso Es posible que las llamadas a la API tengan una tasa limitada. Proceso de informe de host defectuoso Cuando informas que un host está defectuoso para una VM de H4D que se ejecuta en modo administrado, sucede lo siguiente:
- Informa sobre el host defectuoso: La VM permanece en el estado
RUNNINGdurante toda la operación de informe, que suele tardar entre 10 y 12 minutos en completarse. Para revisar el estado de la operación, consulta Revisa las operaciones de host defectuosas del informe en este documento. - Comienza a reparar el host: Después de que se completa la operación para informar un host defectuoso, la operación de reparación del host comienza en un minuto.
Cuando se inicia la operación de reparación del host, la VM se detiene y su estado cambia según el parámetro de configuración de reinicio automático (
automaticRestart) especificado para la VM:- Si el reinicio automático está habilitado para la VM, el estado de la VM cambia a
REPAIRING. La VM se reinicia automáticamente cuando su host está en buen estado, a menos que la detengas antes. - Si el reinicio automático está inhabilitado para la VM, el estado de la VM cambia a
TERMINATED. Debes reiniciar la VM de forma manual después de que su host esté en buen estado.
La reparación del host defectuoso puede tardar entre 3 y 14 días, o incluso más en ocasiones.
- Si el reinicio automático está habilitado para la VM, el estado de la VM cambia a
- Migra y reinicia la VM: Después de que comienza la operación de reparación del host (por lo general, entre 10 y 12 minutos), Compute Engine intenta reservar un host más para reemplazar el host defectuoso que informaste en tu capacidad reservada. Si Compute Engine
encuentra un host en buen estado (si reemplaza correctamente el host defectuoso o encuentra un host en buen estado coincidente en tu capacidad reservada), Compute Engine
migra la VM a ese host. Luego, el reinicio de la VM se realiza de una de las siguientes maneras:
- Si la VM está en el estado
REPAIRINGy los recursos están disponibles antes de que se complete la reparación o cuando se complete, Compute Engine reiniciará automáticamente la VM en un host en buen estado. - De lo contrario, si la VM está en el estado
TERMINATEDo si los recursos no están disponibles antes o cuando se completa la reparación, el estado de la VM permanece enTERMINATEDo cambia a ese estado. Debes reiniciar la VM de forma manual cuando quieras que se ejecute. Sin embargo, es posible que no se pueda reiniciar la VM si no hay recursos disponibles cuando la reinicies. Por ejemplo, esto puede ocurrir si otras VMs ya están usando el host reparado.
- Si la VM está en el estado
Cómo informar un host defectuoso
Para denunciar un host defectuoso, completa los siguientes pasos:
Revisa el host en el que se ejecuta tu VM.
Para obtener instrucciones, consulta Cómo ver la topología del clúster de H4D.
Opcional: Crea una copia de seguridad de los datos del SSD local. Cuando se detiene la VM, Compute Engine descarta automáticamente los datos de los discos SSD locales conectados a la VM. No puedes recuperar los datos de SSD locales después de que Compute Engine los descarta.
Para obtener instrucciones sobre cómo conservar los datos de los SSD locales, consulta Copia de seguridad de datos del SSD local.
Informa el host defectuoso. Para informar un host defectuoso, selecciona una de las siguientes opciones. La operación de reparación del host comienza de inmediato, en el plazo de un minuto después de que se completa la operación de informar host defectuoso. Si la VM deja de responder después de que inicias la operación de informe de host defectuoso, te recomendamos que la reinicies después de esperar al menos 15 minutos.
gcloud
Para informar un host defectuoso, usa el siguiente comando
gcloud compute instances report-host-as-faulty:gcloud compute instances report-host-as-faulty VM_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONEReemplaza lo siguiente:
VM_NAME: el nombre de la VM.FAULT_REASON: Es una lista de problemas del host que encontró tu VM, separados por comas, por ejemplo,ISSUE_1,ISSUE_2. Puedes especificar los siguientes valores:PERFORMANCE: Observas una degradación del rendimiento de la CPU o de la operación de red de Cloud RDMA, fallas en la interfaz de red de IRDMA o que el dispositivo de red de IRDMA no está presente.SILENT_DATA_CORRUPTION: Ves corrupción de datos en tu VM, pero la VM sigue ejecutándose. Los daños silenciosos en los datos pueden deberse a problemas como defectos en la CPU virtual, errores de software o problemas del kernel.BEHAVIOR_UNSPECIFIED: No sabes qué problema afecta a tu VM o el problema no está cubierto por las otras opciones.
DESCRIPTION: Una descripción del problema que afecta a tu VM, como información del XID o posibles problemas de rendimientoZONE: Es la zona en la que existe la VM.
REST
Para informar un host defectuoso, realiza la siguiente solicitud
POSTal métodoinstances.reportHostAsFaulty.Cuando informas sobre un host defectuoso, puedes especificar varios motivos a la vez. Por ejemplo, para especificar dos motivos de falla, realiza una solicitud de la siguiente manera:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }Reemplaza lo siguiente:
PROJECT_ID: Es el ID del proyecto en el que existe la VM.ZONE: Es la zona en la que existe la VM.VM_NAME: el nombre de la VM.FAULT_REASON_1yFAULT_REASON_2: Cada problema del host que encontró tu VM. Puedes especificar los siguientes valores:PERFORMANCE: Observas una degradación del rendimiento de la CPU o de la operación de red RDMA, fallas del dispositivo RDMA o que el dispositivo RDMA no está presente.SILENT_DATA_CORRUPTION: Ves corrupción de datos en tu VM, pero la VM sigue ejecutándose. Los daños silenciosos en los datos pueden deberse a problemas como defectos en las vCPU, errores de software o problemas del kernel.BEHAVIOR_UNSPECIFIED: No sabes cuál es el problema de tu VM.
DESCRIPTION_1yDESCRIPTION_2: Una descripción de cada problema del host que especificaste, como información del XID o posibles problemas de rendimiento.
Revisa las operaciones de informes de hosts defectuosos
Después de que informes un host defectuoso, Compute Engine iniciará una serie de operaciones para marcar el host como defectuoso y prepararlo para su reparación. Específicamente, durante una operación de informe de host defectuoso, se produce el siguiente proceso:
Marca el host como defectuoso. Compute Engine crea la operación de host defectuoso del informe. Luego, la operación para informar un host defectuoso crea una secuencia de suboperaciones. Estas suboperaciones marcan el host subyacente como defectuoso.
Prepara el host para las reparaciones. Una vez que se completan todas las suboperaciones, se inicia la operación para informar sobre el host defectuoso. Compute Engine detiene la VM y comienza la operación de reparación del host defectuoso. Según el modo operativo de la reserva que se especifica en la reserva que usa la VM y si hay hosts en buen estado disponibles, Compute Engine mantiene la VM detenida o intenta migrarla y reiniciarla automáticamente.
Informa la finalización y repara el host. Compute Engine completa la operación de informar un host defectuoso y se ejecuta la operación de reparación del host.
Para hacer un seguimiento del estado de las operaciones de informar host defectuoso (
compute.instances.reportHostAsFaulty) en tu proyecto, selecciona una de las siguientes opciones. Para obtener más información sobre otras operaciones que puedes usar para hacer un seguimiento de las reparaciones, la migración y el reinicio automático, consulta Comportamientos de mantenimiento y reinicio y Supervisa y planifica un evento de mantenimiento del host en la documentación de Compute Engine.Consola (operaciones de VM)
En la consola de Google Cloud , ve a la página Operaciones.
En la tabla que aparece, busca la VM que denunciaste.
En la fila que contiene la VM, en la columna Estado, puedes ver el estado de la operación de informar host defectuoso. Cuando se completa la operación, el valor es Done.
Opcional: Para verificar si Compute Engine reinició la VM, consulta los detalles de la VM.
Consola (registros de VM)
En la consola de Google Cloud , accede a la página Explorador de registros.
Verifica que el botón de activación Mostrar consulta esté en la posición de activado.
En el editor de consultas, ingresa la consulta siguiente:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"Haz clic en Ejecutar consulta. En el panel Resultados de la consulta, se muestran los resultados de la consulta.
gcloud
Para ver el estado de las operaciones de informe de host defectuoso en tu proyecto, usa el comando
gcloud compute operations listcon la marca--filterestablecida enoperationType:compute.instances.reportHostAsFaulty:gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"Si deseas ver los detalles de una operación de host específica con errores, usa el comando
gcloud compute operations describe:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"Reemplaza lo siguiente:
OPERATION_NAME: Es el nombre de la operación.ZONE: Es la zona en la que existe la operación.
REST
Para ver el estado de las operaciones de host defectuoso del informe en tu proyecto, realiza una solicitud
GETal métodozoneOperations.list. En la URL de la solicitud, incluye el parámetro de consultafilterconfigurado comoitems.operationType:compute.instances.reportHostAsFaulty.GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaultyReemplaza lo siguiente:
PROJECT_ID: Es el nombre de la operación.ZONE: Es la zona en la que existen las operaciones.
Próximos pasos
- Si tienes problemas para informar un host defectuoso, consulta Soluciona problemas de la API de Faulty Host.
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2025-12-04 (UTC)
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-12-04 (UTC)"],[],[]] -
Administrador de instancias de Compute (v1) (