Si detectas problemas en una VM H4D reservada que no puedes resolver de otra forma (por ejemplo, errores persistentes con el dispositivo RDMA), te recomendamos que informes de que su host está defectuoso. Cuando informas de que un host tiene un fallo, Compute Engine lo registra como tal y, a continuación, repara automáticamente la máquina virtual ejecutando el mantenimiento del host. En el caso de las máquinas virtuales H4D, Compute Engine intenta migrar la máquina virtual a otro host cuando empieza el mantenimiento, lo que puede ayudar a minimizar el tiempo de inactividad de tu carga de trabajo.
En este documento se explica cómo informar y reparar hosts defectuosos de instancias de máquina virtual (VM) que forman parte de clústeres basados en VMs. En el caso de los clústeres de Google Kubernetes Engine (GKE), consulta Informar de hosts defectuosos a través de GKE.
Limitaciones
Cuando denuncie un host defectuoso, se aplicarán las siguientes limitaciones:
Solo puedes informar de un host defectuoso si la máquina virtual que se ejecuta en el host cumple todas las condiciones siguientes:
La VM se está ejecutando.
La VM usa un tipo de máquina H4D.
La VM usa el modelo de aprovisionamiento vinculado a la reserva.
Google Cloud hace todo lo posible para atender todas tus solicitudes de informes de hosts defectuosos. Sin embargo, debido a las restricciones de capacidad o a los límites de frecuencia, es posible que no siempre se pueda completar una solicitud.
Antes de empezar
-
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
Para usar las muestras de la API REST de esta página en un entorno de desarrollo local, debes usar las credenciales que proporciones a la CLI de gcloud.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
Para obtener más información, consulta el artículo Autenticarse para usar REST de la documentación sobre Google Cloud autenticación.
Roles obligatorios
Para obtener los permisos que necesitas para informar de un host defectuoso, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:
-
Administrador de instancias de Compute (v. 1) (
roles/compute.instanceAdmin.v1) en la VM o en el proyecto -
Para ver el estado de una operación de informe de host defectuoso mediante Cloud Logging, haz lo siguiente:
Visualizador de registros (
roles/logging.viewer) en el proyecto
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para informar de un host defectuoso. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:
Permisos obligatorios
Para denunciar un host defectuoso, se necesitan los siguientes permisos:
-
Para crear un informe de host defectuoso, sigue estos pasos:
compute.instances.updateen la VM -
Para ver una lista de operaciones mediante Logging, haz lo siguiente:
logging.operations.listen el proyecto -
Para ver los detalles de una operación mediante Logging, haz lo siguiente:
logging.operations.geten el proyecto -
Para ver una lista de operaciones en Compute Engine, haz lo siguiente:
compute.zoneOperations.listen el proyecto -
Para ver los detalles de una operación en Compute Engine, sigue estos pasos:
compute.zoneOperations.describeen el proyecto
También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.
Información sobre el proceso de informes de anfitrión defectuoso
Después de informar de un host defectuoso de una VM H4D, el tiempo que tarda en reiniciarse la VM H4D varía en función del modo operativo de la reserva que hayas usado para crear la VM. Para verificar el modo de funcionamiento de una reserva, consulta el campo reservationOperationalMode de la reserva.
Modo gestionado ( HIGHLY_AVAILABLE_CAPACITY)Tipos de máquinas admitidos H4D Limitación de la frecuencia de la API de informes de hosts defectuosos Las llamadas a la API pueden estar limitadas por la frecuencia. Proceso de informe de host defectuoso Cuando informas de un host defectuoso para una VM H4D que se ejecuta en modo gestionado, ocurre lo siguiente:
- Informa del host defectuoso: la máquina virtual permanece en el estado
RUNNINGdurante toda la operación de denuncia, que suele tardar entre 10 y 12 minutos en completarse. Para revisar el estado de la operación, consulta la sección Revisar operaciones de host defectuosas de este documento. - Iniciar la reparación del host: una vez que se haya completado la operación para informar de que el host no funciona correctamente, la operación de reparación del host se iniciará en un minuto.
Cuando se inicia la operación del host de reparación, la VM se detiene y su estado cambia en función de la opción Reinicio automático (
automaticRestart) especificada para la VM:- Si se ha habilitado el reinicio automático de la máquina virtual, el estado de la máquina virtual cambia a
REPAIRING. La VM se reinicia automáticamente cuando su host está en buen estado, a menos que la detengas antes. - Si el reinicio automático está inhabilitado en la VM, el estado de la VM cambia a
TERMINATED. Debes reiniciar manualmente la VM después de que su host esté en buen estado.
Reparar el host defectuoso puede llevar entre 3 y 14 días, o incluso más en ocasiones.
- Si se ha habilitado el reinicio automático de la máquina virtual, el estado de la máquina virtual cambia a
- Migrar y reiniciar la VM: después de que empiece la operación de reparación del host (normalmente, entre 10 y 12 minutos), Compute Engine intenta reservar otro host para sustituir el host defectuoso que has notificado en tu capacidad reservada. Si Compute Engine encuentra un host correcto (es decir, si sustituye correctamente el host defectuoso o encuentra un host correcto que coincida en tu capacidad reservada), Compute Engine migra la VM a ese host. A continuación, la máquina virtual se reiniciará de una de las siguientes formas:
- Si la VM está en el estado
REPAIRINGy hay recursos disponibles antes o cuando se completa la reparación, Compute Engine reinicia automáticamente la VM en un host correcto. - De lo contrario, si la VM está en el estado
TERMINATEDo si los recursos no están disponibles antes o cuando se completa la reparación, el estado de la VM se mantiene o cambia aTERMINATED. Debes reiniciar la VM manualmente cuando quieras que se ejecute. Sin embargo, es posible que no se pueda reiniciar la VM si no hay recursos disponibles cuando lo hagas. Por ejemplo, esto puede ocurrir si otras VMs ya están usando el host reparado.
- Si la VM está en el estado
Informar de un host defectuoso
Para informar de un host defectuoso, sigue estos pasos:
Revisa el host en el que se ejecuta tu máquina virtual.
Para obtener instrucciones, consulta Ver la topología de un clúster H4D.
Opcional: crea una copia de seguridad de los datos de la SSD local. Cuando la VM se detiene, Compute Engine descarta automáticamente los datos de los discos SSD locales que estén conectados a la VM. No puedes recuperar los datos de las unidades SSD locales después de que Compute Engine los descarte.
Para obtener instrucciones sobre cómo conservar los datos de SSD local, consulta Copia de seguridad de datos de SSD local.
Denuncia al anfitrión que no cumple los requisitos. Para informar de un anfitrión que no cumple los requisitos, selecciona una de las siguientes opciones. La operación de reparación del anfitrión se inicia inmediatamente, en un plazo de un minuto después de que se complete la operación de informe de anfitrión defectuoso. Si la máquina virtual deja de responder después de iniciar la operación de informe de host defectuoso, espere al menos 15 minutos y reinicie la máquina virtual.
gcloud
Para informar de un host defectuoso, usa el siguiente
gcloud compute instances report-host-as-faultycomando:gcloud compute instances report-host-as-faulty VM_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONEHaz los cambios siguientes:
VM_NAME: el nombre de la VM.FAULT_REASON: una lista de problemas del host que ha encontrado tu VM, separados por comas. Por ejemplo,ISSUE_1,ISSUE_2. Puede especificar los siguientes valores:PERFORMANCE: observas una degradación del rendimiento de la CPU o de la operación de red de Cloud RDMA, fallos en la interfaz de red IRDMA o que el dispositivo de red IRDMA no está presente.SILENT_DATA_CORRUPTION: los datos de tu VM están dañados, pero la VM sigue ejecutándose. La corrupción silenciosa de datos puede deberse a problemas como defectos de vCPU, errores de software o problemas del kernel.BEHAVIOR_UNSPECIFIED: no sabes qué problema afecta a tu VM o el problema no se incluye en las otras opciones.
DESCRIPTION: una descripción del problema que afecta a tu VM, como información de XID o posibles problemas de rendimiento.ZONE: la zona en la que se encuentra la VM.
REST
Para denunciar un host defectuoso, haz la siguiente solicitud
POSTal métodoinstances.reportHostAsFaulty.Cuando denuncies un host defectuoso, puedes especificar varios motivos a la vez. Por ejemplo, para especificar dos motivos de fallo, haz una solicitud como la siguiente:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }Haz los cambios siguientes:
PROJECT_ID: el ID del proyecto en el que se encuentra la VM.ZONE: la zona en la que se encuentra la VM.VM_NAME: el nombre de la VM.FAULT_REASON_1yFAULT_REASON_2: cada problema del host que ha encontrado tu VM. Puedes especificar los siguientes valores:PERFORMANCE: observas una degradación del rendimiento de la CPU o de la operación de red RDMA, fallos del dispositivo RDMA o que el dispositivo RDMA no está presente.SILENT_DATA_CORRUPTION: los datos de tu VM están dañados, pero la VM sigue funcionando. La corrupción silenciosa de datos puede deberse a problemas como defectos de vCPUs, errores de software o problemas del kernel.BEHAVIOR_UNSPECIFIED: no sabes cuál es el problema de tu máquina virtual.
DESCRIPTION_1yDESCRIPTION_2: una descripción de cada problema del host que hayas especificado, como información de XID o posibles problemas de rendimiento.
Revisar el informe de operaciones de anfitrión defectuosas
Después de informar de un host defectuoso, Compute Engine inicia una serie de operaciones para marcar el host como defectuoso y lo prepara para la reparación. En concreto, durante una operación de informe de host defectuoso, se sigue el siguiente proceso:
Marca el host como defectuoso. Compute Engine crea el informe de la operación del host defectuoso. A continuación, la operación de informe de host defectuoso crea una secuencia de suboperaciones. Estas suboperaciones marcan el host subyacente como defectuoso.
Prepara el host para las reparaciones. Una vez completadas todas las suboperaciones, se inicia la operación de informe de host defectuoso. Compute Engine detiene la máquina virtual e inicia la operación de reparación del host defectuoso. En función del modo de funcionamiento de la reserva especificado en la reserva que usa la VM y si hay hosts en buen estado disponibles, Compute Engine mantiene la VM detenida o intenta migrarla y reiniciarla automáticamente.
Informa de que se ha completado la reparación y repara el host. Compute Engine completa la operación de informe de host defectuoso y se ejecuta la operación de reparación del host.
Para monitorizar el estado de las operaciones de denuncia de host defectuoso (
compute.instances.reportHostAsFaulty) en tu proyecto, selecciona una de las siguientes opciones. Para obtener más información sobre otras operaciones que puedes usar para monitorizar reparaciones, migraciones y reinicios automáticos, consulta Comportamientos de mantenimiento y reinicio y Monitorizar y planificar un evento de mantenimiento de host en la documentación de Compute Engine.Consola (operaciones de VM)
En la Google Cloud consola, ve a la página Operaciones.
En la tabla que aparece, busca la máquina virtual que has denunciado.
En la fila que contiene la VM, en la columna Estado, puede ver el estado de la operación de notificación de host defectuoso. Cuando se complete la operación, el valor será Hecho.
Opcional: Para verificar si Compute Engine ha reiniciado la VM, consulta los detalles de la VM.
Consola (registros de VM)
En la Google Cloud consola, ve a la página Explorador de registros.
Comprueba que el interruptor Mostrar consulta esté activado.
En el editor de consultas, escribe la siguiente consulta:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"Haz clic en Realizar una consulta. En el panel Resultados de la consulta se muestran los resultados de la consulta.
gcloud
Para ver el estado de las operaciones de host defectuosas en tu proyecto, usa el comando
gcloud compute operations listcon la marca--filterdefinida comooperationType:compute.instances.reportHostAsFaulty:gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"Si quieres ver los detalles de una operación de host específica que ha fallado, usa el comando
gcloud compute operations describe:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"Haz los cambios siguientes:
OPERATION_NAME: el nombre de la operación.ZONE: la zona en la que se encuentra la operación.
REST
Para ver el estado de las operaciones de host defectuosas en tu proyecto, haz una solicitud
GETal métodozoneOperations.list. En la URL de la solicitud, incluya el parámetro de consultafiltercon el valoritems.operationType:compute.instances.reportHostAsFaulty.GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaultyHaz los cambios siguientes:
PROJECT_ID: el nombre de la operación.ZONE: la zona en la que se encuentran las operaciones.
Siguientes pasos
- Si tienes problemas al denunciar un anfitrión que no cumple los requisitos, consulta Solucionar problemas con la API de anfitrión que no cumple los requisitos.
A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2025-12-04 (UTC).
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-12-04 (UTC)."],[],[]] -
Administrador de instancias de Compute (v. 1) (