Introdução à rede do Cloud Data Fusion

Esta página fornece informações gerais sobre a ligação às suas origens de dados a partir de instâncias públicas ou privadas do Cloud Data Fusion de ambientes de conceção e execução.

Antes de começar

As redes no Cloud Data Fusion requerem uma compreensão básica do seguinte:

Projeto de inquilino

O Cloud Data Fusion cria um projeto de inquilino que contém os recursos e os serviços necessários para gerir pipelines em seu nome, como quando executa pipelines nos clusters do Dataproc que residem no seu projeto de cliente.

O projeto de inquilino não é exposto diretamente, mas quando cria uma instância privada, usa o nome do projeto para configurar o peering de VPC. Cada instância privada no projeto de inquilino tem a sua própria rede VPC e sub-rede.

O projeto pode ter várias instâncias do Cloud Data Fusion. Gerir os recursos e os serviços que contém quando acede a uma instância na IU do Cloud Data Fusion ou na CLI do Google Cloud.
Para mais informações, consulte a documentação da infraestrutura de serviços acerca dos projetos de inquilinos.

Projeto de cliente

O cliente cria e é proprietário deste projeto. Por predefinição, o Cloud Data Fusion cria um cluster Dataproc efémero neste projeto para executar os seus pipelines.

Instância do Cloud Data Fusion

Uma instância do Cloud Data Fusion é uma implementação exclusiva do Cloud Data Fusion, onde cria e executa pipelines. Pode criar várias instâncias num único projeto e especificar a Google Cloud região na qual criar as instâncias do Cloud Data Fusion. Com base nos seus requisitos e restrições de custos, pode criar uma instância que use a edição Developer, Basic ou Enterprise do Cloud Data Fusion. Cada instância contém uma implementação única e independente do Cloud Data Fusion que contém um conjunto de serviços que processam a gestão, a orquestração, a coordenação e a gestão de metadados do ciclo de vida da pipeline. Estes serviços são executados através de recursos de execução prolongada num projeto de inquilino.

Diagrama de rede

Os diagramas seguintes mostram as associações quando cria pipelines de dados que extraem, transformam, misturam, agregam e carregam dados de várias origens de dados no local e na nuvem.

Consulte os diagramas para controlar a saída numa instância privada e estabelecer ligação a uma origem pública.

Design e execução de pipelines

O Cloud Data Fusion oferece a separação dos ambientes de design e execução, o que lhe permite criar um pipeline uma vez e, em seguida, executá-lo em vários ambientes. O ambiente de design reside no projeto do inquilino, enquanto o ambiente de execução está num ou mais projetos de clientes.

Exemplo: cria o seu pipeline com os serviços do Cloud Data Fusion, como o Wrangler e a Pré-visualização. Esses serviços são executados no projeto de inquilino, onde o acesso aos dados é controlado pela função de agente do serviço Cloud Data Fusion gerido pela Google. Em seguida, executa o pipeline no seu projeto de cliente para que use o cluster do Dataproc. No projeto do cliente, a conta de serviço do Compute Engine predefinida controla o acesso aos dados. Pode configurar o seu projeto para usar uma conta de serviço personalizada.

Para mais informações sobre a configuração de contas de serviço, consulte o artigo Contas de serviço do Cloud Data Fusion.

Ambiente de design

Quando cria uma instância do Cloud Data Fusion no seu projeto de cliente, o Cloud Data Fusion cria automaticamente um projeto de inquilino gerido pela Google separado para executar os serviços necessários para gerir o ciclo de vida dos pipelines e dos metadados, a IU do Cloud Data Fusion e as ferramentas de tempo de design, como a pré-visualização e o Wrangler.

Resolução de DNS no Cloud Data Fusion

Para resolver nomes de domínios no seu ambiente de tempo de design quando organiza e pré-visualiza os dados que está a transferir para o Google Cloud, use o DNS Peering (disponível a partir do Cloud Data Fusion 6.7.0). Permite-lhe usar domínios ou nomes de anfitrião para origens e destinos, que não precisa de reconfigurar com tanta frequência como os endereços IP.

A resolução de DNS é recomendada no seu ambiente de tempo de conceção no Cloud Data Fusion, quando testa ligações e pré-visualiza pipelines que usam nomes de domínios de servidores no local ou outros (como bases de dados ou servidores FTP) numa rede VPC privada.

Para mais informações, consulte os artigos Interligação de DNS e Encaminhamento de DNS na nuvem.

Ambiente de execução

Depois de validar e implementar o pipeline numa instância, executa o pipeline manualmente ou é executado de acordo com um horário ou um acionador do estado do pipeline.

Quer o ambiente de execução seja aprovisionado e gerido pelo Cloud Data Fusion ou pelo cliente, o ambiente existe no seu projeto de cliente.

Instâncias públicas (predefinição)

A forma mais fácil de aprovisionar uma instância do Cloud Data Fusion é criar uma instância pública. Serve bem como ponto de partida e dá acesso a pontos finais externos na Internet pública.

Uma instância pública no Cloud Data Fusion usa a rede VPC predefinida no seu projeto.

A rede VPC predefinida tem o seguinte:

  • Sub-redes geradas automaticamente para cada região
  • Tabelas de encaminhamento
  • Regras de firewall para garantir a comunicação entre os seus recursos de computação

Redes entre regiões

Quando cria um novo projeto, uma vantagem da rede VPC predefinida é que preenche automaticamente uma sub-rede por região com um intervalo de endereços IP predefinido, expresso como um bloco CIDR. Os intervalos de endereços IP começam com 10.128.0.0/20, 10.132.0.0/20, em todas as Google Cloud regiões globais.

Para garantir que os seus recursos de computação se ligam entre si em várias regiões, a rede VPC predefinida define as rotas locais predefinidas para cada sub-rede. Ao configurar a rota predefinida para a Internet (0.0.0.0/0), obtém acesso à Internet e captura qualquer tráfego de rede não encaminhado.

Regras de firewall

A rede VPC predefinida fornece um conjunto de regras de firewall:

Predefinição Descrição
Permitir predefinição icmp Ative o protocolo icmp para a origem 0.0.0.0/0
Permitir predefinição interna Ative tcp:0-65535; udp:0-65535; icmp para a origem 10.128.0.0/9, que abrange os endereços IP mínimo 10.128.0.1 a máximo 10.255.255.254
Permitir predefinição rdp Ative tcp:3389 para a origem 0.0.0.0/0
Permitir predefinição ssh Ative tcp:22 para a origem 0.0.0.0/0

Estas predefinições da rede VPC minimizam os pré-requisitos para configurar serviços na nuvem, incluindo o Cloud Data Fusion. Devido a preocupações com a segurança da rede, as organizações não permitem frequentemente que use a rede VPC predefinida para operações empresariais. Sem a rede VPC predefinida, não pode criar uma instância pública do Cloud Data Fusion. Em alternativa, crie uma instância privada.

A rede VPC predefinida não concede acesso aberto aos recursos. Em alternativa, a gestão de identidade e de acesso (IAM) controla o acesso:

  • É necessária uma identidade validada para iniciar sessão em Google Cloud.
  • Depois de iniciar sessão, precisa de autorização explícita (por exemplo, a função de leitor) para ver os Google Cloud serviços.

Instâncias privadas

Algumas organizações exigem que todos os respetivos sistemas de produção estejam isolados de endereços IP públicos. Uma instância privada do Cloud Data Fusion cumpre esse requisito em todos os tipos de definições de rede da VPC.

Private Service Connect no Cloud Data Fusion

As instâncias do Cloud Data Fusion podem ter de estabelecer ligação a recursos localizados no local, no Google Cloudou noutros fornecedores de nuvem. Quando usa o Cloud Data Fusion com endereços IP internos, as ligações a recursos externos são estabelecidas através da rede VPC no seu projeto.Google Cloud O tráfego na rede não passa pela Internet pública. Quando o Cloud Data Fusion tem acesso à sua VPC através da interligação de redes VPC, existem limitações que se tornam evidentes quando usa redes de grande escala.

Com as interfaces do Private Service Connect, o Cloud Data Fusion liga-se à sua VPC sem usar o intercâmbio da rede da VPC. A interface do Private Service Connect é um tipo de Private Service Connect que oferece uma forma de o Cloud Data Fusion iniciar ligações privadas e seguras a redes VPC do consumidor. Isto não só oferece a flexibilidade e a facilidade de acesso (como a interligação de redes VPC), como também oferece a autorização explícita e o controlo do lado do consumidor que o Private Service Connect oferece. Para mais informações, consulte o artigo Crie uma instância privada com o Private Service Connect.

Acesso a dados em ambientes de conceção e execução

Numa instância pública, a comunicação de rede ocorre através da Internet aberta, o que não é recomendado para ambientes críticos. Para aceder em segurança às suas origens de dados, execute sempre os seus pipelines a partir de uma instância privada no seu ambiente de execução.

Acesso a fontes

Ao aceder a origens de dados, instâncias públicas e privadas:

  • fazer chamadas de saída para Google Cloud APIs através do acesso privado da Google
  • comunicar com um ambiente de execução (Dataproc) através do intercâmbio da VPC

A tabela seguinte compara instâncias públicas e privadas durante a conceção e a execução para várias origens de dados:

Origens de dados Instância pública do Cloud Data Fusion
(tempo de conceção)
Cloud Data Fusion Dataproc na nuvem pública
(execução)
Instância do Cloud Data Fusion na nuvem privada
(tempo de conceção)
Dataproc do Cloud Data Fusion privado
(execução)
Google Cloud origem
(depois de conceder autorizações e definir regras de firewall)
Origem no local
(depois de configurar a VPN/Interconnect, conceder autorizações e definir regras de firewall)
Origem da Internet pública
(depois de conceder autorizações e definir regras da firewall)

O que se segue?