En este documento, se describen las prácticas recomendadas para crear un entorno de redes seguro y resiliente para las cargas de trabajo de AI Hypercomputer. Estas recomendaciones están dirigidas a arquitectos, ingenieros y desarrolladores de redes que desean configurar y, luego, implementar cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA) en AI Hypercomputer.
Establece roles de IAM claros y restringidos
Configurar IAM correctamente ayuda a mejorar la seguridad y el éxito de tus implementaciones de AI Hypercomputer. En los entornos de producción, los permisos inadecuados o mal configurados pueden provocar errores de implementación. Las implementaciones de AI Hypercomputer, en especial las que usan Cluster Toolkit, suelen fallar en entornos con medidas de seguridad reforzadas en los que la cuenta de servicio predeterminada de Compute Engine no tiene el rol amplio de Editor.
Para ayudar a mitigar los problemas de implementación que puedan ocurrir debido a problemas de permisos, sigue las prácticas recomendadas que se indican en esta sección.
Usa cuentas de servicio dedicadas
Para mayor seguridad y control, evita usar la cuenta de servicio predeterminada de Compute Engine. En su lugar, crea una cuenta de servicio dedicada para tu implementación de AI Hypercomputer.
Otorga los roles de IAM necesarios
Otorga los siguientes roles de IAM a la cuenta de servicio dedicada que creaste:
- Administrador de Compute (
roles/compute.admin): Proporciona control total de los recursos de Compute Engine. - Usuario de cuenta de servicio (
roles/iam.serviceAccountUser): Permite que la cuenta de servicio se adjunte a otros recursos, lo que es fundamental para herramientas como Packer cuando se compilan imágenes personalizadas. - Administrador de almacenamiento (
roles/storage.admin): Requiere acceso a los buckets de Cloud Storage y su administración, por ejemplo, para almacenar imágenes de Packer o cualquier otro artefacto. - Administrador de Logging (
roles/logging.admin): Permite que la cuenta de servicio configure el registro y vea los registros, lo que es fundamental para la depuración.
Verifica los permisos antes de la implementación
Antes de iniciar una implementación, verifica que tu cuenta de servicio tenga los permisos necesarios. Ejecuta el comando gcloud projects get-iam-policy:
gcloud projects get-iam-policy PROJECT_ID \
--flatten="bindings[].members" \ format='table(bindings.role)' \
--filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"
Reemplaza lo siguiente:
PROJECT_ID: Es el ID de tu proyecto de Google Cloud .SERVICE_ACCOUNT_EMAIL: La dirección de correo electrónico de la cuenta de servicio que deseas verificar.
Este comando enumera todos los roles otorgados a tu cuenta de servicio en el proyecto especificado. Asegúrate de que los roles que se indican en Otorga los roles de IAM necesarios aparezcan en el resultado.
Restringe el acceso a la red pública y refuerza la configuración del firewall
Restringe el acceso a la red pública y refuerza la configuración del firewall para mejorar la seguridad. Esta práctica de seguridad fundamental mitiga el riesgo de reglas de firewall predeterminadas demasiado permisivas.
Los errores de configuración de la máquina virtual (VM) pueden ocurrir en entornos de producción debido a configuraciones de firewall restrictivas que no están presentes en las pruebas internas. Es posible que los ingenieros tengan dificultades para diagnosticar estas fallas sin conocer las reglas de firewall específicas.
Revisa y actualiza tus reglas de firewall para minimizar la exposición directa a Internet. Para obtener más información sobre las reglas de firewall de VPC, consulta Reglas de firewall de VPC.
Estandariza la configuración predeterminada de las redes internas
Estandariza la configuración predeterminada de las redes internas para reducir los riesgos y los desafíos de configuración. Los comportamientos de redes predeterminados pueden generar riesgos o desafíos de configuración en entornos complejos o reforzados en cuanto a la seguridad. Google recomienda las siguientes configuraciones:
- Usa DNS zonal: Para los proyectos nuevos, establece el sistema de nombres de dominio (DNS) interno como Solo DNS zonal. Este enfoque ayuda a reducir el impacto de una posible interrupción global del DNS. Para obtener más información sobre el uso de DNS zonal, consulta Descripción general del uso de DNS zonal.
- Inhabilita las direcciones IP externas: Cuando sea posible, inhabilita las direcciones IP externas. Antes de inhabilitar las direcciones IP, debes planificar y probar cuidadosamente en un entorno de pruebas, ya que algunos servicios, como los grupos de instancias administrados (MIG) o los clústeres de GKE con nodos públicos, dependen de ellas. Para obtener más información sobre cómo limitar las direcciones IP públicas, consulta Cómo limitar las direcciones IP públicas en Google Cloud.
Resumen de prácticas recomendadas
En la siguiente tabla, se resumen las prácticas recomendadas de este documento.
| Tema | Tarea |
|---|---|
| IAM | Establece roles de IAM claros y restringidos |
| Firewall | Restringe el acceso a la red pública y refuerza la configuración del firewall |
| Configuración predeterminada de la red | Estandariza la configuración predeterminada de redes internas |
¿Qué sigue?
- Obtén más información sobre las prácticas recomendadas para usar cuentas de servicio.
- Obtén más información sobre las reglas de firewall de VPC.
- Obtén más información sobre la arquitectura de red de AI Hypercomputer.