Práticas recomendadas de segurança do Dataproc

Proteger o ambiente do Dataproc é fundamental para proteger dados sensíveis e evitar acesso não autorizado. Este documento descreve as principais práticas recomendadas para melhorar a postura de segurança do Dataproc, incluindo recomendações para segurança de rede, Identity and Access Management, criptografia e configuração de cluster seguro.

Segurança de rede

  • Implante o Dataproc em uma VPC particular. Crie uma nuvem privada virtual dedicada para seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.

  • Use IPs particulares. Para proteger seus clusters do Dataproc contra exposição à Internet pública, use endereços IP particulares para maior segurança e isolamento.

  • Configure regras de firewall. Implemente regras de firewall rigorosas para controlar o tráfego de entrada e saída dos clusters do Dataproc. Permita apenas as portas e protocolos necessários.

  • Use o peering de rede. Para maior isolamento, estabeleça o peering de rede VPC entre a VPC do Dataproc e outras VPCs sensíveis para comunicação controlada.

  • Ative o gateway de componentes. Ative o gateway de componentes do Dataproc ao criar clusters para acessar com segurança as UIs do ecossistema Hadoop, como a interface do servidor YARN, HDFS ou Spark, em vez de abrir as portas do firewall.

Identity and Access Management

Criptografia

  • Criptografar dados em repouso. Para criptografia de dados em repouso, use o Cloud Key Management Service (KMS) ou as chaves de criptografia gerenciadas pelo cliente (CMEK). Além disso, use políticas da organização para aplicar a criptografia de dados em repouso para a criação de clusters.

  • Criptografar dados em trânsito. Ative o SSL/TLS para comunicação entre componentes do Dataproc (ativando o modo seguro do Hadoop) e serviços externos. Isso protege os dados em movimento.

  • Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de secrets.

Configuração de cluster seguro

  • Autenticar usando o Kerberos. Para evitar acesso não autorizado a recursos de cluster, implemente o modo seguro do Hadoop usando Kerberos autenticação. Para mais informações, consulte Multi-locatário seguro com o Kerberos.

  • Use uma senha principal raiz forte e um armazenamento seguro baseado em KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente recursos de proteção de segurança para todos os componentes de código aberto em execução no cluster.

  • Ativar o login do SO. Ative o Login do SO para maior segurança ao gerenciar nós de cluster usando SSH.

  • Separe os buckets de preparo e temporários no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets de preparo e temporários para cada cluster do Dataproc.

  • Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger seus dados sensíveis, como chaves de API, senhas e certificados. Use-o para gerenciar, acessar e auditar seus secrets em Google Cloud.

  • Use restrições organizacionais personalizadas. É possível usar uma política personalizada da organização para permitir ou negar operações específicas em clusters do Dataproc. Por exemplo, se uma solicitação para criar ou atualizar um cluster não atender à validação de restrição personalizada definida pela política da organização, a solicitação falhará e um erro será retornado ao autor da chamada.

A seguir

Saiba mais sobre outros recursos de segurança do Dataproc: