Proteger o ambiente do Dataproc é fundamental para proteger dados sensíveis e evitar acesso não autorizado. Este documento descreve as principais práticas recomendadas para melhorar a postura de segurança do Dataproc, incluindo recomendações para segurança de rede, Identity and Access Management, criptografia e configuração de cluster seguro.
Segurança de rede
Implante o Dataproc em uma VPC particular. Crie uma nuvem privada virtual dedicada para seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.
Use IPs particulares. Para proteger seus clusters do Dataproc contra exposição à Internet pública, use endereços IP particulares para maior segurança e isolamento.
Configure regras de firewall. Implemente regras de firewall rigorosas para controlar o tráfego de entrada e saída dos clusters do Dataproc. Permita apenas as portas e protocolos necessários.
Use o peering de rede. Para maior isolamento, estabeleça o peering de rede VPC entre a VPC do Dataproc e outras VPCs sensíveis para comunicação controlada.
Ative o gateway de componentes. Ative o gateway de componentes do Dataproc ao criar clusters para acessar com segurança as UIs do ecossistema Hadoop, como a interface do servidor YARN, HDFS ou Spark, em vez de abrir as portas do firewall.
Identity and Access Management
Isolar permissões. Use contas de serviço de plano de dados diferentes para clusters diferentes. Atribua às contas de serviço apenas as permissões de que os clusters precisam para executar as cargas de trabalho.
Evite depender da conta de serviço padrão do Google Compute Engine (GCE). Não use a conta de serviço padrão para seus clusters.
Siga o princípio de privilégio mínimo. Conceda apenas as permissões mínimas necessárias para contas de serviço e usuários do Dataproc.
Aplique o controle de acesso baseado em papéis (RBAC). Considere definir as permissões de IAM para cada cluster.
Use papéis personalizados. Crie papéis personalizados do IAM detalhados e adaptados a funções de trabalho específicas no ambiente do Dataproc.
Revise regularmente. Audite regularmente as permissões e os papéis do IAM para identificar e remover privilégios excessivos ou não utilizados.
Criptografia
Criptografar dados em repouso. Para criptografia de dados em repouso, use o Cloud Key Management Service (KMS) ou as chaves de criptografia gerenciadas pelo cliente (CMEK). Além disso, use políticas da organização para aplicar a criptografia de dados em repouso para a criação de clusters.
Criptografar dados em trânsito. Ative o SSL/TLS para comunicação entre componentes do Dataproc (ativando o modo seguro do Hadoop) e serviços externos. Isso protege os dados em movimento.
Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de secrets.
Configuração de cluster seguro
Autenticar usando o Kerberos. Para evitar acesso não autorizado a recursos de cluster, implemente o modo seguro do Hadoop usando Kerberos autenticação. Para mais informações, consulte Multi-locatário seguro com o Kerberos.
Use uma senha principal raiz forte e um armazenamento seguro baseado em KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente recursos de proteção de segurança para todos os componentes de código aberto em execução no cluster.
Ativar o login do SO. Ative o Login do SO para maior segurança ao gerenciar nós de cluster usando SSH.
Separe os buckets de preparo e temporários no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets de preparo e temporários para cada cluster do Dataproc.
Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger seus dados sensíveis, como chaves de API, senhas e certificados. Use-o para gerenciar, acessar e auditar seus secrets em Google Cloud.
Use restrições organizacionais personalizadas. É possível usar uma política personalizada da organização para permitir ou negar operações específicas em clusters do Dataproc. Por exemplo, se uma solicitação para criar ou atualizar um cluster não atender à validação de restrição personalizada definida pela política da organização, a solicitação falhará e um erro será retornado ao autor da chamada.
A seguir
Saiba mais sobre outros recursos de segurança do Dataproc:
- Multi-locatário seguro com contas de serviço
- Configurar uma VM confidencial com criptografia de memória inline
- Ativar um serviço de autorização em cada VM de cluster