Práticas recomendadas de rede

Este documento descreve as práticas recomendadas para criar um ambiente de rede seguro e resiliente para cargas de trabalho de hipercomputadores de IA. Essas recomendações são destinadas a arquitetos, engenheiros e desenvolvedores de rede que querem configurar e implantar cargas de trabalho de inteligência artificial (IA) e machine learning (ML) no Hipercomputador de IA.

Estabelecer papéis do IAM claros e restritos

Configurar o IAM corretamente ajuda a melhorar a segurança e o sucesso das implantações do Hipercomputador de IA. Em ambientes de produção, permissões inadequadas ou mal configuradas podem causar falhas de implantação. As implantações do AI Hypercomputer, principalmente as que usam o Cluster Toolkit, costumam falhar em ambientes com posturas de segurança reforçadas em que a conta de serviço padrão do Compute Engine não tem a função ampla Editor.

Para ajudar a reduzir problemas de implantação que podem ocorrer devido a problemas de permissão, siga as práticas recomendadas listadas nesta seção.

Usar contas de serviço dedicadas

Para mais segurança e controle, evite usar a conta de serviço padrão do Compute Engine. Em vez disso, crie uma conta de serviço dedicada para sua implantação do AI Hypercomputer.

Conceder os papéis necessários do IAM

Conceda os seguintes papéis do IAM à conta de serviço dedicada que você criou:

  • Administrador do Compute (roles/compute.admin): fornece controle total dos recursos do Compute Engine.
  • Usuário da conta de serviço (roles/iam.serviceAccountUser): permite que a conta de serviço seja anexada a outros recursos, o que é crucial para ferramentas como o Packer ao criar imagens personalizadas.
  • Administrador do Storage (roles/storage.admin): exige acesso e gerenciamento de buckets do Cloud Storage, por exemplo, para armazenar imagens do Packer ou outros artefatos.
  • Administrador do Logging (roles/logging.admin): permite que a conta de serviço configure o registro em log e veja os registros, o que é essencial para a depuração.

Verificar permissões antes da implantação

Antes de iniciar uma implantação, verifique se a conta de serviço tem as permissões necessárias. Execute o comandogcloud projects get-iam-policy :

gcloud projects get-iam-policy PROJECT_ID \
    --flatten="bindings[].members" \ format='table(bindings.role)' \
    --filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"

Substitua:

  • PROJECT_ID: o ID do seu projeto do Google Cloud .
  • SERVICE_ACCOUNT_EMAIL: o endereço de e-mail da conta de serviço que você quer verificar.

Esse comando lista todos os papéis concedidos à sua conta de serviço no projeto especificado. Verifique se os papéis listados em Conceder papéis necessários do IAM aparecem na saída.

Restringir o acesso à rede pública e reforçar as configurações de firewall

Restrinja o acesso à rede pública e reforce as configurações de firewall para melhorar a segurança. Essa prática fundamental de segurança reduz o risco de regras de firewall padrão muito permissivas.

Falhas na configuração de máquinas virtuais (VMs) podem ocorrer em ambientes de produção devido a configurações restritivas de firewall que não estão presentes em testes internos. Os engenheiros podem ter dificuldade em diagnosticar essas falhas sem conhecimento de regras de firewall específicas.

Revise e atualize suas regras de firewall para minimizar a exposição direta à Internet. Para mais informações sobre regras de firewall da VPC, consulte Regras de firewall da VPC.

Padronizar os padrões de rede internos

Padronize os padrões de rede interna para reduzir riscos e desafios de configuração. Os comportamentos de rede padrão podem criar riscos ou desafios de configuração em ambientes complexos ou reforçados com segurança. O Google recomenda as seguintes configurações:

  • Usar DNS zonal:para novos projetos, defina o Sistema de Nomes de Domínio (DNS) interno como "Somente DNS zonal". Essa abordagem ajuda a reduzir o impacto de uma possível interrupção global do DNS. Para mais informações sobre como usar o DNS zonal, consulte Visão geral do uso do DNS zonal.
  • Desative IP externo externos:quando possível, desative endereços IP externo. Antes de desativar os endereços IP, planeje e teste com cuidado em um ambiente de staging, já que alguns serviços, como grupos gerenciados de instâncias (MIGs) ou clusters do GKE com nós públicos, dependem deles. Para mais informações sobre como limitar endereços IP públicos, consulte Limitar endereços IP públicos no Google Cloud.

Resumo das práticas recomendadas

A tabela a seguir resume as práticas recomendadas neste documento:

Tópico Tarefa
IAM Estabeleça papéis do IAM claros e restritos
Firewall Restringir o acesso à rede pública e reforçar as configurações de firewall
Padrões de rede Padronizar os padrões de rede interna

A seguir