Si observas un problema en una instancia de A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High (8 GPUs) que no puedes resolver por tu cuenta, puedes informar que su host está defectuoso. Un ejemplo de este tipo de problema podría ser un rendimiento más lento dentro de un clúster o temperaturas de GPU constantemente altas.
Cuando informas que un host está defectuoso, Compute Engine repara automáticamente la instancia de procesamiento ejecutando el mantenimiento del host.
- En el caso de las instancias A4 y A3 Ultra, Compute Engine intenta migrar la instancia a otro host cuando comienza el mantenimiento, si tienes capacidad reservada sin usar o si hay capacidad disponible en la zona de la instancia. Informar que un host es defectuoso te ayuda a minimizar el tiempo de inactividad de tu carga de trabajo.
- En el caso de las instancias A3 Mega y A3 High, Compute Engine detiene la instancia, realiza las reparaciones necesarias del host y, luego, reinicia la instancia en el mismo host.
En este documento, se explica cómo informar y reparar instancias de host defectuosas que forman parte de un clúster de Slurm o de otros clústeres basados en instancias de procesamiento. Para informar sobre hosts defectuosos en un clúster de Google Kubernetes Engine (GKE), consulta Cómo informar sobre hosts defectuosos a través de GKE.
Limitaciones
Cuando denuncias un host defectuoso, se aplican las siguientes limitaciones:
Solo puedes informar sobre un host defectuoso si la instancia de procesamiento que se ejecuta en el host cumple con todas las siguientes condiciones:
La instancia de procesamiento se está ejecutando.
La instancia de procesamiento usa un tipo de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs).
La instancia de procesamiento usa el modelo de aprovisionamiento vinculado a la reserva.
Si borras una instancia de procesamiento mientras la operación
reportHostAsFaultyestá en curso, esta operación fallará.reportHostAsFaultyGoogle Cloud hace todo lo posible para satisfacer todas tus solicitudes de informes de host defectuosos. Sin embargo, debido a las restricciones de capacidad o los límites de frecuencia, es posible que no siempre se cumpla una solicitud.
Antes de comenzar
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
Para usar las muestras de la API de REST incluidas en esta página en un entorno de desarrollo local, debes usar las credenciales que proporciones a la gcloud CLI.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
Para obtener más información, consulta Autentícate para usar REST en la documentación de autenticación de Google Cloud .
Roles obligatorios
Para obtener los permisos que necesitas para informar sobre un host defectuoso, pídele a tu administrador que te otorgue los siguientes roles de IAM :
-
Administrador de instancias de Compute (v1) (
roles/compute.instanceAdmin.v1) en la instancia de Compute o el proyecto -
Para ver el estado de una operación de informe de host defectuoso con Cloud Logging, haz lo siguiente:
Visor de registros (
roles/logging.viewer) en el proyecto
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para denunciar un host defectuoso. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para denunciar un host defectuoso:
-
Para crear un informe de host defectuoso, haz lo siguiente:
compute.instances.updateen la instancia de procesamiento -
Para ver una lista de operaciones con Logging:
logging.operations.listen el proyecto -
Para ver los detalles de una operación con Logging:
logging.operations.geten el proyecto -
Para ver una lista de las operaciones en Compute Engine:
compute.zoneOperations.listen el proyecto -
Para ver los detalles de una operación en Compute Engine, haz lo siguiente:
compute.zoneOperations.describeen el proyecto
También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Comprende el proceso de informe de host defectuoso
Después de informar que un host está defectuoso para una instancia de procesamiento, el momento en que se reinicia la instancia de procesamiento varía según el modo operativo de la reserva que se especifica en la reserva que usa la instancia de procesamiento. Para verificar el modo operativo de una reserva, consulta el camporeservationOperationalMode en la reserva.
En la siguiente tabla, se resume el proceso de host defectuoso para los dos modos operativos de reserva disponibles: modo All Capacity y modo administrado.
Modo All Capacity (ALL_CAPACITY) |
Modo administrado (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| Tipos de máquina admitidos | A4X Max y A4X | A4, A3 Ultra, A3 Mega y A3 High |
| Límite de frecuencia de la API de informes de host defectuoso | No se aplican límites de frecuencia. | Es posible que las llamadas a la API tengan una tasa limitada. |
| Proceso de informe de host defectuoso |
Cuando informas que un host está defectuoso para una instancia de procesamiento que se ejecuta en el modo All Capacity, sucede lo siguiente:
|
Cuando informas que un host está defectuoso para una instancia de procesamiento que se ejecuta en el modo administrado, sucede lo siguiente:
|
Cómo informar un host defectuoso
Para denunciar un host defectuoso, completa los siguientes pasos:
Revisa el host en el que se ejecuta tu instancia de procesamiento.
Para obtener instrucciones, consulta Cómo ver la topología de una instancia de procesamiento.
Opcional: Crea una copia de seguridad de los datos del SSD local. Cuando se detiene la instancia, Compute Engine descarta automáticamente los datos de los discos SSD locales conectados a la instancia. No puedes recuperar los datos de SSD locales después de que Compute Engine los descarta.
Para obtener instrucciones sobre cómo conservar los datos de los SSD locales, consulta Copia de seguridad de datos del SSD local.
Informa el host defectuoso. Para informar un host defectuoso, selecciona una de las siguientes opciones. La operación de reparación del host comienza de inmediato, en el plazo de un minuto después de que se completa la operación de informe de host defectuoso. Si la instancia deja de responder después de que inicias la operación de informe de host defectuoso, te recomendamos que reinicies la instancia de procesamiento después de esperar al menos 15 minutos.
gcloud
Para informar sobre un host defectuoso, usa el siguiente comando
gcloud compute instances report-host-as-faulty:gcloud compute instances report-host-as-faulty INSTANCE_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONEReemplaza lo siguiente:
INSTANCE_NAME: Es el nombre de la instancia de procesamiento.FAULT_REASON: Es una lista de problemas del host que encontró tu instancia de procesamiento, separados por comas, por ejemplo,ISSUE_1,ISSUE_2. Puedes especificar los siguientes valores:PERFORMANCE: Las GPUs conectadas a la instancia de procesamiento tienen problemas de rendimiento en comparación con otras GPUs del clúster, no se ven errores de XID en los registros y Compute Engine no detecta otros patrones de falla habituales, como la corrupción silenciosa de datos.SILENT_DATA_CORRUPTION: Ves corrupción de datos en tu instancia de procesamiento, pero esta sigue ejecutándose. La corrupción silenciosa de datos puede deberse a problemas como defectos en las vCPU, errores de software o problemas del kernel.UNRECOVERABLE_GPU_ERROR: Identificaste un error irrecuperable de la GPU con un XID.BEHAVIOR_UNSPECIFIED: No sabes cuál es el problema de tu instancia de procesamiento.
DESCRIPTION: Es una descripción del problema que afecta a tu instancia de procesamiento, como información del XID o posibles problemas de rendimiento.ZONE: Es la zona en la que existe la instancia de procesamiento.
REST
Para informar un host defectuoso, realiza la siguiente solicitud
POSTal métodoinstances.reportHostAsFaulty.Cuando informas sobre un host defectuoso, puedes especificar varios motivos del error a la vez. Por ejemplo, para especificar dos motivos de falla, realiza una solicitud de la siguiente manera:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }Reemplaza lo siguiente:
PROJECT_ID: Es el ID del proyecto en el que existe la instancia de procesamiento.ZONE: Es la zona en la que existe la instancia de procesamiento.INSTANCE_NAME: Es el nombre de la instancia de procesamiento.FAULT_REASON_1yFAULT_REASON_2: Cada problema de host que encontró tu instancia de procesamiento. Puedes especificar los siguientes valores:PERFORMANCE: Las GPUs conectadas a la instancia de procesamiento tienen problemas de rendimiento en comparación con otras GPUs del clúster, no se ven errores de XID en los registros y Compute Engine no detecta otros patrones de falla habituales, como la corrupción silenciosa de datos.SILENT_DATA_CORRUPTION: Ves corrupción de datos en tu instancia de procesamiento, pero esta sigue ejecutándose. La corrupción silenciosa de datos puede deberse a problemas como defectos en las vCPU, errores de software o problemas del kernel.UNRECOVERABLE_GPU_ERROR: Identificaste un error irrecuperable de la GPU con un XID.BEHAVIOR_UNSPECIFIED: No sabes cuál es el problema de tu instancia de procesamiento.
DESCRIPTION_1yDESCRIPTION_2: Una descripción de cada problema del host que especificaste, como información del XID o posibles problemas de rendimiento.
Revisa las operaciones para informar que el host está defectuoso
Después de que informas que un host está defectuoso, Compute Engine inicia una serie de operaciones para marcar el host como defectuoso y lo prepara para su reparación. Específicamente, durante una operación de informe de host defectuoso, se produce el siguiente proceso:
Marca el host como defectuoso. Compute Engine crea la operación de host defectuoso del informe. Luego, la operación para informar que el host está defectuoso crea una secuencia de suboperaciones. Estas suboperaciones marcan el host subyacente como defectuoso.
Prepara el host para las reparaciones. Una vez que se completan todas las suboperaciones, comienza la operación de informar host defectuoso. Compute Engine detiene la instancia de procesamiento y comienza la operación de reparación del host defectuoso. Según el modo operativo de la reserva especificado en la reserva que usa la instancia de procesamiento y si hay hosts en buen estado disponibles, Compute Engine mantiene detenida la instancia de procesamiento o intenta migrarla y reiniciarla automáticamente.
Completa el informe y repara el host. Compute Engine completa la operación de informar que el host está defectuoso y se ejecuta la operación de reparación del host.
Para hacer un seguimiento del estado de las operaciones de informar host defectuoso (compute.instances.reportHostAsFaulty) en tu proyecto, selecciona una de las siguientes opciones. Para obtener más información sobre otras operaciones que puedes usar para hacer un seguimiento de las reparaciones, la migración y el reinicio automático, consulta Comportamientos de mantenimiento y reinicio y Supervisa y planifica un evento de mantenimiento del host en la documentación de Compute Engine.
Consola (operaciones de instancias)
En la consola de Google Cloud , ve a la página Operaciones.
En la tabla que aparece, ubica la instancia de procesamiento que denunciaste.
En la fila que contiene la instancia de procesamiento, en la columna Estado, puedes ver el estado de la operación para informar un host defectuoso. Cuando se completa la operación, el valor es Listo.
Opcional: Para verificar si Compute Engine reinició la instancia de procesamiento, consulta los detalles de la instancia.
Consola (registros de instancias de procesamiento)
En la consola de Google Cloud , accede a la página Explorador de registros.
Verifica que el botón de activación Mostrar consulta esté en la posición de activado.
En el editor de consultas, ingresa la consulta siguiente:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"Haz clic en Ejecutar consulta. En el panel Resultados de la consulta, se muestran los resultados de la consulta.
gcloud
Para ver el estado de las operaciones de informe de host defectuoso en tu proyecto, usa el comando
gcloud compute operations listcon la marca--filterestablecida enoperationType:reportHostAsFaulty:gcloud compute operations list --filter="operationType:reportHostAsFaulty"Si deseas ver los detalles de una operación de host específica con errores, usa el comando
gcloud compute operations describe:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"Reemplaza lo siguiente:
OPERATION_NAME: Es el nombre de la operación.ZONE: Es la zona en la que existe la operación.
REST
Para ver el estado de las operaciones de host defectuoso del informe en tu proyecto, realiza una solicitud GET al método zoneOperations.list.
En la URL de la solicitud, incluye el parámetro de consulta filter configurado como items.operationType:reportHostAsFaulty.
GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:reportHostAsFaulty
Reemplaza lo siguiente:
PROJECT_ID: Es el nombre de la operación.ZONE: Es la zona en la que existen las operaciones.
Próximos pasos
- Si tienes problemas para informar un host defectuoso, consulta Soluciona problemas de la API de Faulty Host.
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2026-02-24 (UTC)