Rede de clusters do Dataproc com o Private Service Connect

Esta página fornece orientações sobre como configurar a conectividade de rede para clusters do Dataproc ao usar o Private Service Connect. Ela explica a interação entre o Private Service Connect e o peering de nuvem privada virtual para diferentes casos de uso do Dataproc. Ela também resume as semelhanças e diferenças de recursos entre o Acesso privado do Google, o Private Service Connect e o Cloud NAT.

Visão geral

Os clusters do Dataproc exigem conectividade de rede com Google Cloud APIs e serviços, como a API Dataproc, o Cloud Storage e o Cloud Logging, e com recursos do usuário, como fontes de dados em outras redes de nuvem privada virtual ou ambientes locais.

Por padrão, os clusters do Dataproc criados com versões de imagem 2.2 e mais recentes são criados apenas com endereços IP internos. O Dataproc ativa automaticamente o Acesso privado do Google na sub-rede regional usada pelo cluster somente com IP interno para permitir conexões com APIs e serviços do Google sem se conectar à Internet pública.

Para fornecer um controle de rede mais granular, é possível configurar um cluster para usar o Private Service Connect, que encaminha o tráfego para APIs e serviços do Google compatíveis por um endpoint particular na rede VPC. Isso pode ser benéfico para segurança e conformidade.

Opções comuns de rede privada

Esta seção descreve os recursos e as diferenças do Acesso privado do Google, Private Service Connect e do Cloud NAT.

  • O Acesso privado do Google é um caminho unidirecional para que as VMs alcancem os serviços públicos do Google sem usar a Internet. É semelhante a uma saída especial da sua vizinhança (sub-rede VPC) que leva diretamente ao shopping de serviços do Google, ignorando as vias públicas. Todos na vizinhança podem usá-lo. O Dataproc ativa automaticamente o Acesso privado do Google na sub-rede regional usada pelo Serverless para clusters do Apache Spark criados com a versão de imagem 2.2 e mais recentes.

  • O Private Service Connect cria um endpoint particular bidirecional para um serviço localizado na rede VPC. É semelhante a um caminho particular dedicado do seu local (rede VPC) diretamente para um serviço. Ele tem um endereço no seu local (um endereço IP interno na rede VPC) e só você pode usá-lo.

  • O Cloud NAT permite que VMs com endereços IP particulares acessem a Internet.

Recursos e diferenças

Recurso Acesso privado do Google (PGA) Private Service Connect (PSC)
Como funciona Direciona o tráfego de uma VM para um intervalo especial de endereços IP do Google (private.googleapis.com). Cria uma regra de encaminhamento (endpoint) na rede VPC que representa o serviço do Google.
Endereço IP A VM se conecta a um endereço IP do Google. A VM se conecta a um endereço IP interno que você possui na rede VPC.
Direção Somente de saída: a VM inicia uma conexão com o Google. Bidirecional: a VM se conecta ao serviço, e o serviço pode iniciar o tráfego de retorno.
Escopo Ativado ou desativado para uma sub-rede inteira. Implantado como um recurso de endpoint específico.
Serviços Conecta-se apenas a APIs do Google, como a API Cloud Storage, BigQuery ou Dataproc. Conecta-se a APIs do Google, serviços de outras empresas e seus próprios serviços.

Para o Dataproc, o Acesso privado do Google é o método mais simples, tradicional para permitir que as VMs do cluster entrem em contato com o plano de controle do Dataproc. O Private Service Connect é uma abordagem mais recente e flexível que oferece controle refinado, principalmente em redes complexas ou multitenant.

Por que usar o Private Service Connect? Mesmo que o cluster do Dataproc tenha endereços IP somente internos com o Acesso privado do Google ativado (a configuração padrão para clusters de versão de imagem 2.2+), o Private Service Connect oferece as seguintes vantagens:

  • Em vez de usar o conjunto compartilhado de endpoints do Acesso privado do Google para se conectar a APIs e serviços do Google, o Private Service Connect permite criar um endpoint particular com um endereço IP interno na sua rede VPC que é mapeado diretamente para um serviço específico do Google.

  • É possível criar regras de firewall que permitem o tráfego apenas para o endereço IP do endpoint do Private Service Connect. Por exemplo, é possível configurar uma regra que permita o tráfego de saída das VMs do cluster do Dataproc exclusivamente para o endereço IP interno do endpoint do Private Service Connect para o BigQuery, negando todo o outro tráfego de saída. Essa é uma abordagem mais segura do que criar regras de firewall mais amplas com o Acesso privado do Google.

  • O uso do endpoint do Private Service Connect na rede VPC torna o caminho de rede explícito e mais fácil de auditar para segurança e conformidade, já que o tráfego para um serviço como o Cloud Storage não compartilha um caminho com outro tráfego de API.

Caminhos particulares e públicos

O Acesso privado do Google, o Private Service Connect, e o Cloud NAT permitem que hosts com RFC 1918 endereços alcancem Google Cloud serviços. Eles também permitem que Google Cloud recursos com endereços RFC 1918 particulares iniciem conexões com Google Cloud serviços.

Uma distinção importante a ser feita ao avaliar diferentes opções de conexão é se o tráfego que usa a conexão permanece particular ou viaja pela Internet pública.

  • O Acesso privado do Google e o Private Service Connect mantêm o tráfego na rede particular do Google. Os dados não viajam pela Internet pública para alcançar Google Cloud serviços, o que é ideal para segurança e desempenho previsível.

  • O Cloud NAT alcança um Google Cloud serviço conectando-se a um endpoint público para o serviço. O tráfego sai da rede VPC pelo gateway NAT e viaja pela Internet.

Como cada opção funciona

Confira um detalhamento de cada mecanismo de conexão:

Método Caminho para o serviço Endpoint de destino Caso de uso principal
Acesso privado do Google Rede particular do Google Endereços IP especiais do Google (private.googleapis.com) Acesso simples no nível da sub-rede para que as VMs alcancem as APIs do Google de maneira particular.
Private Service Connect Rede particular do Google Um endpoint de endereço IP particular na rede VPC Acesso granular e seguro a APIs do Google, serviços de terceiros ou seus próprios serviços.
Cloud NAT Internet pública Endereço IP público do serviço Acesso geral à Internet de saída para VMs com endereços IP particulares.

Configure o Private Service Connect

Para usar o Private Service Connect com o cluster do Dataproc, configure os endpoints e o DNS necessários do Private Service Connect na rede VPC para todas as APIs do Google de que o Dataproc depende. Para instruções sobre como configurar a sub-rede e o DNS, consulte Sobre como acessar APIs do Google por endpoints.

Ativar o peering, se necessário

Embora o Private Service Connect forneça acesso particular a muitos serviços do Google, talvez seja necessário ativar o peering de VPC, principalmente nos seguintes cenários:

  • Outras redes de nuvem privada virtual: o Private Service Connect se conecta a serviços gerenciados pelo Google, não diretamente a outras redes VPC do cliente. Se as fontes de dados, aplicativos personalizados ou outros serviços estiverem localizados em uma rede VPC diferente do cluster do Dataproc, geralmente o peering de VPC será necessário para ativar a comunicação particular entre essas redes.

  • Redes locais: se o cluster do Dataproc acessar dados ou serviços no ambiente local, será necessário uma conexão Cloud VPN ou Cloud Interconnect com a rede local, geralmente combinada com o peering de VPC.

  • Comunicação interna abrangente com os serviços do Google: embora o Private Service Connect forneça acesso particular a serviços configurados do Google, como o Cloud Storage e o BigQuery, as comunicações internas do plano de controle ou recursos específicos do Dataproc possam exigir o peering de VPC para uma rede com ampla acessibilidade de serviços do Google para acessar a infraestrutura subjacente do Google ou outras APIs do Google.

  • Acesso a fontes de dados em outras redes VPC: se os jobs do Dataproc lerem ou gravarem em fontes de dados, como o Cloud SQL, bancos de dados autogerenciados e aplicativos personalizados, que estão localizados em uma rede VPC diferente, é necessário estabelecer o peering de VPC entre a sua rede VPC do cluster do Dataproc e a rede VPC que contém essas fontes de dados. O Private Service Connect não fornece comunicação entre redes VPC entre redes de propriedade do cliente.

  • Conectividade híbrida: para implantações de nuvem híbrida em que os clusters do Dataproc precisam interagir com recursos em um data center local, o peering de VPC é essencial para conectar a rede local à sua Google Cloud rede VPC usando o Cloud VPN ou o Cloud Interconnect.

Solucionar problemas do Private Service Connect

Se o cluster do Dataproc com o Private Service Connect (sem peering de VPC) não for criado ou tiver problemas de conectividade, siga estas etapas para ajudar a solucionar e resolver o problema:

  • Confirmar o acesso à API necessário:

    • Verifique se todas as APIs necessárias do Google estão ativadas no seu Google Cloud projeto.
  • Verificar a configuração do endpoint do Private Service Connect:

    • Verifique se um endpoint do Private Service Connect está configurado corretamente para todas as APIs do Google de que o cluster precisa, como dataproc.googleapis.com, storage.googleapis.com, logging.googleapis.com, bigquery.googleapis.com, compute.googleapis.com.

    • Use ferramentas como dig ou nslookup de uma VM na sub-rede VPC para confirmar se os registros DNS dos serviços necessários são resolvidos corretamente para os endereços IP particulares na rede VPC usando o endpoint do Private Service Connect.

  • Verificar as regras de firewall:

    • Verifique se as regras de firewall na rede VPC permitem conexões de saída de instâncias de cluster do Dataproc para endpoints do Private Service Connect.

    • Se você estiver usando a VPC compartilhada, verifique se as regras de firewall adequadas estão configuradas no projeto host.

  • Examinar os registros do cluster do Dataproc:

    • Analise os registros de criação de cluster no Logging para detectar erros relacionados à rede, como connection refused, timeout, ou "unreachable host. Esses erros podem indicar uma rota ausente ou uma regra de firewall incorreta. Examine os registros do console serial das instâncias de cluster.
  • Avaliar a necessidade de peering de VPC:

    • Com base nas dependências da carga de trabalho, se o cluster do Dataproc exigir conectividade com recursos que não são gerenciados pelo Google, como bancos de dados em uma rede VPC separada e servidores locais, estabeleça o peering de VPC.

    • Examine os requisitos de rede dos Google Cloud serviços com que o cluster do Dataproc interage Alguns serviços podem ter requisitos de peering específicos, mesmo quando usados com o Private Service Connect.

Seguir as práticas recomendadas

  • Planejamento abrangente da arquitetura de rede: antes de implantar o Dataproc com o Private Service Connect, projete cuidadosamente a arquitetura de rede, considerando todas as dependências implícitas e explícitas e os caminhos de fluxo de dados. Isso inclui identificar todas as APIs do Google com que o cluster do Dataproc interage durante o provisionamento e a operação.

  • Testar a conectividade: teste completamente a conectividade de rede do cluster do Dataproc com todos os serviços e fontes de dados necessários durante as fases de desenvolvimento e preparo.

  • Usar o Network Intelligence Center: use as Google Cloud ferramentas do Network Intelligence Center, como o Connectivity Tests, para diagnosticar e solucionar problemas de conectividade de rede.

A seguir