Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acerca de los eventos del host

Linux Windows

Durante la vida útil de una instancia de máquina virtual (VM) o de Bare Metal, la máquina anfitrión en la que se ejecuta tu instancia puede experimentar varios eventos del host. Un evento de host puede incluir el mantenimiento normal de la infraestructura de Compute Engine o, en casos excepcionales, un error de host. Puedes configurar la política de mantenimiento del host para elegir cómo responden tus instancias de procesamiento durante un evento de host o después de él.

De forma predeterminada, la mayoría de las instancias están configuradas para la migración en vivo durante los eventos del host. Para todas las series de máquinas, excepto Z3, puedes anular este comportamiento y configurar explícitamente las instancias para que finalicen y, de manera opcional, se reinicien.

Algunas instancias de procesamiento no admiten la migración en vivo, como las siguientes:

Instancias H4D
Instancias de Bare Metal
Instancias con GPUs conectadas
Instancias Z3 con más de 18 TiB de SSD de Titanium conectados

Estas instancias finalizan durante los eventos del host. Para obtener más información, consulta Comportamientos de mantenimiento y reinicio.

Tipos de eventos del host

Hay dos tipos de eventos del host, que se describen con más detalle en las siguientes secciones:

Eventos de mantenimiento
Errores del host

Si tu instancia deja de responder, también se puede activar un reinicio o una finalización de la instancia.

Eventos de mantenimiento

Un evento de mantenimiento es cuando Compute Engine debe realizar una actividad de mantenimiento o reparación que requiere que las VMs se muevan fuera del servidor host. Si habilitas la política de mantenimiento del host de migración en vivo para un tipo de instancia compatible, Compute Engine mueve la instancia a un host nuevo y se produce una interrupción mínima en tu aplicación.

Compute Engine también aplica algunas actualizaciones de hipervisor y redes básicas en segundo plano sin interrupciones, ya que retiene la instancia en el mismo host.

El comportamiento de la instancia durante un evento de mantenimiento puede variar según los usuarios de la instancia y el tipo de máquina.

Para las VMs de usuario único, la frecuencia aproximada de los eventos de mantenimiento del host planificados es de cada 4 a 6 semanas. La compatibilidad con la migración en vivo depende de la política de mantenimiento del host para la VM de usuario único.

Puedes encontrar información sobre el comportamiento de mantenimiento de cada tipo de máquina en la página de la familia de máquinas correspondiente, de la siguiente manera:

Serie C:
- C2 y C2D: Familia de máquinas optimizadas para procesamiento
- C4N: Familia de máquinas optimizadas para redes
- Todas las demás series C: Familia de máquinas de uso general
Series E, N y T: Familia de máquinas de uso general
Serie H: Familia de máquinas optimizadas para procesamiento
Series M y X: Familia de máquinas con optimización de memoria
Serie Z: Familia de máquinas optimizadas para el almacenamiento

Para las familias de máquinas optimizadas para aceleradores, consulta las siguientes páginas:

GPUs: Controla eventos de mantenimiento del host de GPU.
TPUs: Prepárate para los eventos de mantenimiento en la documentación de Cloud TPU.

Errores del host

Un error de host (compute.instances.hostError) significa que hubo un problema de hardware o software en la máquina física o en la infraestructura del centro de datos que aloja tu instancia de procesamiento que causó la falla de tu instancia. Un error de host que implica una falla total de hardware o, también, otros problemas de hardware podría evitar la migración en vivo de la instancia. Si la instancia está configurada para reiniciarse de manera automática, que es la configuración predeterminada, Compute Engine reinicia la instancia, por lo general, dentro de los tres minutos posteriores a la detección del error. Según el problema, el reinicio puede tardar hasta 5.5 minutos.

En ocasiones, una instancia de procesamiento puede dejar de responder antes de que se señale un error de host. Puedes reducir el tiempo que Compute Engine espera para reiniciar o finalizar la instancia si configuras el tiempo de espera de recuperación de errores del host. Para obtener más información, consulta Configura políticas de disponibilidad.

Las fallas físicas de hardware y software pueden ocurrir de forma ocasional, pero son casos poco frecuentes. Para proteger tus aplicaciones y servicios de estos eventos del sistema que pueden ser disruptivos, revisa los siguientes recursos:

Google también ofrece servicios administrados como App Engine y el entorno flexible de App Engine.

Descripción general de la política de mantenimiento del host

La política de mantenimiento del host de una instancia determina su comportamiento durante los siguientes eventos del host:

Evento de mantenimiento
Evento de error del host o instancia que no responde

Puedes configurar las instancias para que se sigan ejecutando durante el mantenimiento del host, mientras que Compute Engine las migra en vivo a otro host, o puedes optar por detener las instancias.

Puedes cambiar la política de mantenimiento del host de una instancia si configuras los siguientes parámetros:

Comportamiento de mantenimiento: Indica si la instancia se migra en vivo o se detiene cuando ocurre un evento de mantenimiento.
Comportamiento de reinicio: Indica si Compute Engine reinicia o finaliza la instancia si esta falla, experimenta un error de host o deja de responder.
Tiempo de detección de error del host: Es la cantidad máxima de tiempo que Compute Engine espera para reiniciar o finalizar una instancia después de detectar que la instancia no responde.
Tiempo de recuperación de SSD local: Es la cantidad máxima de tiempo que Compute Engine dedica a recuperar los datos en los discos SSD locales después de detectar un error de host. Los datos del SSD local se pierden si transcurre el tiempo especificado sin una recuperación correcta.

Es posible actualizar la política de mantenimiento del host de una instancia en cualquier momento con el objetivo de controlar cómo quieres que se comporten tus instancias.

Comportamientos de mantenimiento y reinicio

Cuando ocurre un evento del host, la instancia de procesamiento puede usar la migración en vivo o se puede finalizar la instancia. Si se finaliza una instancia, puedes elegir reiniciarla tú mismo o hacer que Compute Engine la reinicie automáticamente.

Es posible que las siguientes series de máquinas no admitan la migración en vivo y, en su lugar, requieran la finalización durante los eventos del host:

Z3 (incluidas Z3-metal), X4 y H4D instancias finalizan y se reinician en su ubicación.
Las instancias de Bare Metal finalizan y se reinician, lo que significa que pueden reiniciarse en un host diferente. Para obtener más detalles, consulta la documentación "Experiencia de mantenimiento" de la serie de máquinas. Por ejemplo, para los tipos de máquinas Bare Metal C3, consulta Experiencia de mantenimiento para instancias C3.
Instancias de Confidential VMs excepto los tipos de máquinas N2D con plataformas de CPU AMD EPYC Milan que ejecutan SEV de AMD.
Instancias con GPUs
Instancias con TPUs

Migración en vivo

De forma predeterminada, la mayoría de los tipos de instancias están configurados para la migración en vivo, excepto los tipos de instancias mencionados en la sección anterior.

Durante la migración en vivo, Compute Engine migra de manera automática tu instancia lejos de un evento de mantenimiento de infraestructura, y la instancia permanece en ejecución durante la migración. Es posible que la instancia experimente un período breve de disminución del rendimiento, pero, en general, la mayoría de las instancias no deberían tener un rendimiento notablemente diferente. Esto resulta ideal para las instancias que requieren un tiempo de actividad constante y pueden tolerar un corto período de disminución del rendimiento.

Cuando Compute Engine migra tu instancia, informa un evento del sistema que se publica en la lista de operaciones de zona y en los registros de eventos del sistema. Si quieres revisar este evento puedes ver las operaciones de Compute Engine para una zona específica. Los eventos de migración en vivo tienen el siguiente tipo de operación:

compute.instances.migrateOnHostMaintenance

Finalizar y reiniciar

Si no deseas que tu instancia realice una migración en vivo o si tu tipo de instancia no admite la migración en vivo, puedes permitir que se detenga la instancia cuando ocurre un evento del host.Google Cloud Con esta configuración, si ocurre un evento del host, Compute Engine envía una señal de apagado suave para cerrar la instancia. Luego, espera 60 segundos para que la instancia se apague de forma correcta y establece el estado de la instancia en TERMINATED. Si la instancia no se cierra de forma correcta en 60 segundos, se finaliza de forma forzosa.

Esta opción es ideal si tus instancias exigen un rendimiento máximo y constante, y si tu aplicación en general está diseñada para manejar fallas o reinicios de instancias.

Cuando Compute Engine detiene una instancia debido a un evento del host, informa un evento del sistema que se publica en la lista de operaciones de zona y en los registros de eventos del sistema. Si quieres revisar este evento puedes ver las operaciones de Compute Engine para una zona específica. Los eventos de finalización de instancias tienen el siguiente tipo de operación:

compute.instances.terminateOnHostMaintenance

Reinicio automático

Si la instancia está configurada para detenerse cuando hay un evento de mantenimiento o si falla debido a un problema del hardware subyacente, Compute Engine puede reiniciar la instancia automáticamente. La instancia se reinicia en el mismo servidor host o se mueve a otro servidor en la misma zona que no participa en el evento de mantenimiento.

De forma predeterminada, Compute Engine intenta recuperar las instancias con discos SSD locales conectados durante una hora. Si se alcanza el límite de tiempo, Compute Engine intenta reiniciar la instancia en un servidor host diferente en la misma zona. Las instancias Z3, X4 y H4D tienen diferentes tiempos de espera predeterminados. Estos tipos de instancias se reinician en el mismo servidor host después de la finalización de la instancia.

Para configurar el reinicio automático, establece el campo automaticRestart de la política de mantenimiento del host en true. Esta configuración no se aplica si la instancia se desconecta debido a una interrupción zonal o mediante una operación manual, como llamar a sudo shutdown dentro del SO invitado.

Cuando Compute Engine reinicia tu instancia de forma automática, informa un evento del sistema que se publica en la lista de operaciones de zona. Si quieres revisar este evento puedes ver las operaciones de Compute Engine para una zona específica. Los eventos de reinicio automático tienen el siguiente tipo de operación:

compute.instances.automaticRestart

Persistencia de disco después de la finalización de la instancia

Debido a que Persistent Disk y Hyperdisk son almacenamiento conectado a la red, cuando se reinicia la instancia, Compute Engine vuelve a conectar el disco de arranque y cualquier disco secundario a la instancia. Los datos en esos discos se mantienen durante la migración en vivo y los reinicios de instancias.

Compute Engine conserva los datos en los discos SSD locales después de un evento del host cuando es posible. Sin embargo, Compute Engine no garantiza la persistencia de los datos en las SSD locales.

Los discos SSD locales se conservan en los siguientes casos:
- Reinicias el sistema operativo (SO) invitado.
- Configuras la instancia para la migración en vivo y la instancia pasa por un evento de mantenimiento del host.
- Se produce un error de host y Compute Engine vuelve a conectar la instancia a los discos SSD locales dentro del límite de tiempo de espera.
- Optas por conservar los datos de las SSD locales cuando detienes o suspendes la instancia (vista previa).
- Una instancia de procesamiento con discos SSD locales conectados que solo admite la finalización y el reinicio automático pasa por un evento de mantenimiento. La instancia se reinicia en su ubicación, lo que conserva los datos de las SSD locales, en lugar de migrar a un host nuevo.
Los discos SSD locales no se conservan en los siguientes casos:
- Cierras el sistema operativo invitado y fuerzas la detención de la instancia.
- Creas una VM Spot o VM interrumpible, y la VM pasa por el proceso de interrupción.
- Configuras la instancia para que se detenga en eventos de mantenimiento de host en lugar de usar la migración en vivo, y la instancia pasa por un evento de mantenimiento de host.
- Configuras un disco SSD local de forma incorrecta y se vuelve inalcanzable.
- Inhabilitas la facturación del proyecto, lo que detiene la instancia.
- Si automaticRestart no está configurado en tu instancia.
- Se produce un error de host y Compute Engine no puede volver a conectar los discos a la instancia antes de que venza el tiempo de espera. En este caso, la instancia se reinicia sin recuperar los discos SSD locales. Cuando se reinicia la instancia, Compute Engine conecta discos SSD locales en blanco a la instancia reiniciada. Debes formatear y activar estos discos antes de que la instancia pueda usarlos. Los datos de los discos SSD locales originales no se pueden recuperar.

Google Cloud usa un enfoque de mejor esfuerzo para mantener intactos los datos de las SSD locales. Sin embargo, hay casos en los que los datos no se pueden recuperar, como un tiempo de espera. Para obtener más información sobre cuándo se conservan los discos SSD locales, consulta Persistencia de datos de SSD locales.

Tiempo de espera de recuperación de SSD locales

Cuando se produce un error de host, Compute Engine intenta recuperar los discos SSD locales conectados a la instancia. Puedes controlar cuánto tiempo dedica Compute Engine a intentar recuperar los datos con la configuración localSsdRecoveryTimeout de la política del host.

De forma predeterminada, Compute Engine dedica 1 hora a recuperar los datos, pero los valores válidos para esta configuración están entre 0 y 168, en incrementos de 1 hora. Para las instancias Z3, el valor predeterminado es 6, lo que significa que las instancias Z3 intentarán recuperar los datos de las SSD locales durante 6 horas antes de alcanzar el límite de tiempo de espera.

Si estableces el tiempo de espera de recuperación de SSD local en 0, Compute Engine no intentará recuperar los discos SSD locales conectados. La instancia se reinicia lo antes posible y los datos de las SSD locales no se pueden recuperar. Usa esta configuración si reanudar la carga de trabajo es más importante que recuperar los datos de las SSD locales.

Si el tiempo de espera de recuperación no se establece en 0, pero se alcanza el límite de tiempo antes de que se recuperen los datos de las SSD locales, Compute Engine reinicia la instancia sin el disco SSD local. Compute Engine conecta discos SSD locales en blanco a la instancia reiniciada. Debes formatear y activar estos discos antes de que la instancia pueda usarlos.

La instancia está en un REPAIRING estado mientras Compute Engine intenta recuperar los discos SSD locales. La instancia y los discos SSD locales no están disponibles durante este tiempo.

Si estableces el tiempo de espera de recuperación de SSD local en el valor máximo de 168, la instancia permanece en el estado REPAIRING durante un máximo de 7 días mientras Compute Engine intenta recuperar los discos SSD locales.

Detén la recuperación del disco SSD local

Puedes interrumpir el proceso de recuperación del disco SSD local antes de que Compute Engine alcance el límite de tiempo de espera de recuperación. Para hacerlo, usa el comando gcloud compute instances stop con la marca --discard-local-ssd=True.

Este comando detiene el proceso de recuperación, detiene la instancia de procesamiento y descarta los datos de las SSD locales. Luego, puedes reiniciar la instancia. Consulta Detén una instancia con SSD local para obtener más información.

Para establecer el tiempo de espera de recuperación de SSD local, consulta Establece la política de mantenimiento del host de la instancia.

Programación del mantenimiento

Google Cloud proporciona funciones que permiten un control más estricto sobre el mantenimiento. Si usas ciertas familias de máquinas, puedes especificar las preferencias de mantenimiento y recibir notificaciones de los próximos eventos de mantenimiento a través de Cloud Logging, el servidor de metadatos de la instancia, el comando compute instances describe de gcloud CLI o el método instances.describe de REST. Cuando recibes una notificación, tienes un período durante el cual puedes iniciar el mantenimiento programado en el momento que elijas. Si no activas el mantenimiento programado, el evento de mantenimiento se produce al final del período de notificación, que es la hora programada que aparece en la notificación.

Puedes usar estas funciones junto con la política de mantenimiento del host para personalizar un programa de mantenimiento que se adapte a tu carga de trabajo.

¿Qué sigue?

Obtén más información sobre la migración en vivo.
Obtén más información sobre la configuración de la política de mantenimiento del host de la instancia.
Obtén más información sobre cómo recibir avisos de migración en vivo.
Obtén más información sobre cómo simular el mantenimiento del host.
Obtén más información sobre cómo controlar los eventos de mantenimiento del host de GPU.
Obtén más información sobre la migración en vivo de VM de usuario único de forma manual.