Crie uma instância privada com interligação de VPCs

Esta página descreve como criar uma instância do Cloud Data Fusion com um endereço IP interno. Cria a instância numa rede VPC ou numa rede VPC partilhada.

Uma instância privada do Cloud Data Fusion tem as seguintes vantagens:

  • As ligações à instância são estabelecidas através de uma rede VPC privada no seu projeto Google Cloud . O tráfego na rede não passa pela Internet pública.

  • A instância pode ligar-se aos seus recursos nas instalações, como bases de dados relacionais, porque a sua rede nas instalações se liga àGoogle Cloud rede VPC privada através do Cloud VPN ou do Cloud Interconnect. Pode aceder em segurança aos seus recursos no local, como bases de dados, através da rede privada sem abrir o acesso a Google Cloud.

Objetivos

  • Configure a rede VPC ou a rede VPC partilhada.
  • Atribua um intervalo de IP que vai ser usado para implementar a instância do Cloud Data Fusion no projeto de inquilino.
  • Crie a instância privada do Cloud Data Fusion.
  • Configure o intercâmbio da rede da VPC entre a VPC que contém a instância do Cloud Data Fusion e a VPC que contém o projeto de inquilino associado.
  • Para redes de VPC partilhada, configure as autorizações da gestão de identidade e de acesso (IAM).
  • Se a sua instância privada usar a versão 6.2.0 ou anterior do Cloud Data Fusion, crie uma regra de firewall.
  • Permitir que diferentes Google Cloud serviços comuniquem internamente entre si ativando o acesso privado à Google na sub-rede do Dataproc.

Antes de começar

  • Para saber mais sobre a arquitetura de implementação do Cloud Data Fusion, consulte a secção Redes.

Configure a rede de VPC

Se ainda não o fez, crie uma rede VPC ou uma rede VPC partilhada.

Para configurar a sua rede VPC, tem de atribuir um intervalo de endereços IP.

Atribua um intervalo de IP

Rede da VPC

Se não estiver a usar uma rede VPC partilhada, o Cloud Data Fusion atribui um intervalo de IPs por predefinição quando cria uma instância.

Rede de VPC partilhada

Para usar uma VPC partilhada, tem de atribuir um intervalo de IP à sua instância do Cloud Data Fusion.

Para atribuir um intervalo de IPs à sua instância do Cloud Data Fusion, siga estes passos:

  1. Na Google Cloud consola, aceda à página Redes VPC.

    Aceda a redes de VPC

  2. Na coluna Nome, clique na rede VPC na qual quer criar uma instância privada do Cloud Data Fusion.

    É apresentada a página Detalhes da rede VPC.

  3. Clique em Ligação de serviço privada. Se lhe for pedido, ative a API Service Networking clicando em Ativar API.

    Configure os detalhes da rede VPC.

  4. Clique em Atribuir intervalo de IPs.

    1. Atribua um nome ao intervalo de IPs.

    2. Para Intervalo de IPs, clique em Automático.

    3. Especifique um tamanho do prefixo de 22.

    4. Clique em Atribuir.

      Atribua um intervalo de IP.

Crie uma instância privada

Crie a instância privada do Cloud Data Fusion numa rede VPC ou numa rede VPC partilhada.

Rede da VPC

Para criar a instância numa rede VPC, use a consolaGoogle Cloud ou o cURL.

Se usar a Google Cloud consola para criar a sua instância privada, o Cloud Data Fusion atribui o intervalo de endereços IP /22 por predefinição. Para escolher um intervalo de IP diferente, tem de usar o comando cURL.

Consola

  1. Aceda à página Criar instância do Data Fusion.

    Aceda a Criar instância do Data Fusion

  2. Introduza um nome de instância e uma descrição para a instância.

  3. Selecione a região na qual criar a instância.

  4. Selecione uma versão do Cloud Data Fusion e uma edição.

  5. Especifique a conta de serviço do Dataproc a usar para executar o seu pipeline do Cloud Data Fusion no Dataproc. A conta do Compute Engine predefinida está pré-selecionada.

  6. Expanda o menu Opções avançadas e clique em Ativar IP privado.

  7. No campo Rede, escolha uma rede na qual criar a instância.

  8. Clique em Criar. O processo de criação da instância demora até 30 minutos a ser concluído.

cURL

Para sua conveniência, pode exportar as seguintes variáveis ou substituir diretamente estes valores nos seguintes comandos:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Para criar a instância, chame o respetivo método create():

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Substitua o seguinte:

  • INSTANCE_ID: a string de ID que a nova instância deve receber.
  • NETWORK_NAME: o nome da rede VPC onde quer criar a sua instância privada.
  • IP_RANGE: o intervalo de IP que atribuiu. Para encontrar o intervalo de IP na Google Cloud consola, aceda a Detalhes da rede VPC > Ligação de serviço privado > Intervalo de IP interno .

Rede de VPC partilhada

Para criar a sua instância numa rede VPC partilhada, use o cURL e não a Google Cloud consola.

cURL

Para sua conveniência, pode exportar as seguintes variáveis. Em alternativa, pode substituir diretamente estes valores nos seguintes comandos:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Para criar a instância, chame o respetivo método create():

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Substitua o seguinte:

  • INSTANCE_ID: a string de ID que a nova instância deve receber.
  • SHARED_VPC_HOST_PROJECT_ID: O ID do projeto que alberga a rede VPC partilhada.
  • NETWORK_NAME: o nome da rede VPC na qual quer criar a instância privada.
  • IP_RANGE: o intervalo de IPs que atribuiu. Para encontrar o intervalo de IPs na Google Cloud consola, aceda à página Detalhes da rede VPC > Ligação de serviço privado > Intervalo de IPs internos.

Configure o intercâmbio da rede de VPC

Os serviços do Cloud Data Fusion que usa no seu ambiente de design (por exemplo: Wrangler, Connection Manager e Schema Validation) iniciam ligações de rede da VPC do projeto de inquilino aos sistemas de origem. O Cloud Data Fusion usa o intercâmbio da rede da VPC para estabelecer a conetividade de rede com a VPC ou a VPC partilhada que contém a sua instância. A interligação de redes VPC permite que o Cloud Data Fusion aceda a recursos na sua rede através de endereços IP internos usando a sua própria VPC e os respetivos controlos. Para estabelecer ligação a um recurso noutra rede, consulte os passos para exemplos de utilização de ligações.

A secção seguinte descreve como criar uma configuração de intercâmbio entre a sua rede e a rede do projeto de inquilino do Cloud Data Fusion.

Obtenha o ID do projeto de inquilino

Para criar uma configuração de peering, precisa do ID do projeto de inquilino.

  1. Aceda à página Instâncias do Cloud Data Fusion.

    Aceda a Instâncias

  2. Na coluna Nome da instância, selecione a instância.

  3. Na página Detalhes da instância, copie o ID do projeto de inquilino, que é necessário quando criar uma ligação de peering nos passos seguintes.

Crie uma ligação de intercâmbio

  1. Aceda à página Intercâmbio da rede da VPC.

    Aceda ao intercâmbio da rede da VPC

  2. Clique em Criar associação > Continuar.

  3. Na página Criar ligação de peering apresentada, faça o seguinte:

    1. Introduza um Nome para a ligação de peering.
    2. Em A sua rede de VPC, selecione a rede que contém a sua instância do Cloud Data Fusion.
    3. Para Rede VPC com peering, selecione Noutro projeto.
    4. Para o ID do projeto, introduza o ID do projeto de inquilino que encontrou anteriormente neste tutorial.
    5. Para Nome da rede VPC, selecione uma rede ou introduza INSTANCE_REGION-INSTANCE_ID.

      Substitua o seguinte:

      • INSTANCE_REGION: a região na qual criou a sua instância do Cloud Data Fusion.
      • INSTANCE_ID: o ID da sua instância do Cloud Data Fusion.
    6. Selecione a versão do Protocolo de Internet para a ligação de peering para trocar rotas IPv4 e IPv6 entre a sua rede de VPC e a rede de VPC com peering. Para mais informações, consulte o artigo Interligação de redes VPC.

    7. Selecione Exportar encaminhamentos personalizados para que os encaminhamentos personalizados possam ser exportados da sua rede de VPC para a rede de VPC do inquilino.

    8. Escolha se quer permitir que os encaminhamentos de sub-rede com IPv4 público sejam importados ou exportados para a sua rede de VPC.

    9. Clique em Criar.

    O intercâmbio da rede da VPC fica ativo pouco depois de ser criado.

Configure as autorizações do IAM

Rede da VPC

Ignore este passo e aceda a Criar uma regra de firewall.

Rede de VPC partilhada

Se criar a sua instância do Cloud Data Fusion numa rede de VPC partilhada, tem de conceder a função de utilizador da rede de computação às seguintes contas de serviço. Para conceder autorizações a todas as sub-redes, atribua a função ao projeto anfitrião da VPC partilhada.

Para controlar ainda mais o acesso, conceda a função a uma sub-rede específica e a função de visitante da rede no projeto anfitrião.

  • Conta de serviço do Cloud Data Fusion: service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
  • Conta de serviço do Dataproc: service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com

PROJECT_NUMBER é o número do Google Cloud projeto que contém a sua instância do Cloud Data Fusion.

Para mais informações, consulte o artigo Conceder acesso às contas de serviço necessárias.

Crie uma regra de firewall

Crie uma regra de firewall na sua rede VPC que permita ligações SSH de entrada a partir do intervalo de IP especificado quando criou a sua instância privada do Cloud Data Fusion.

Este passo é necessário para as versões do Cloud Data Fusion anteriores à 6.2.0. Permite a comunicação entre o Cloud Data Fusion e os clusters do Dataproc que executam pipelines.

Pode criar a regra de firewall através da Google Cloud consola ou através da CLI gcloud.

Consola

Consulte o artigo Criar regras de firewall.

gcloud

Execute o seguinte comando:

gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID

Substitua o seguinte:

  • FIREWALL_NAME: O nome da regra de firewall a criar.
  • IP_RANGE: O intervalo de IPs que atribuiu.
  • NETWORK_NAME: o nome da rede à qual a regra de firewall está anexada. É o nome da rede da VPC na qual criou a instância privada.
  • PROJECT_ID: O ID do projeto que está a alojar a rede VPC.

Passos para exemplos de utilização da ligação

As secções seguintes descrevem exemplos de utilização relacionados com a ligação para instâncias privadas.

Ative o acesso privado à Google

Para aceder a recursos através de endereços IP internos, o Cloud Data Fusion tem de criar os clusters do Dataproc e executar os pipelines de dados numa sub-rede com acesso privado à Google. Tem de ativar o acesso privado à Google para a sub-rede que contém os clusters do Dataproc.

  • Se apenas existir uma sub-rede na região onde os clusters do Dataproc são iniciados, o cluster é iniciado nessa sub-rede.
  • Se existirem várias sub-redes numa região, tem de configurar o Cloud Data Fusion para selecionar a sub-rede com acesso privado à Google para iniciar clusters do Dataproc.

Para ativar o acesso privado à Google para a sub-rede, consulte a configuração do acesso privado à Google.

Opcional: estabeleça ligação a outras origens

Depois de criar uma instância privada no Cloud Data Fusion, pode estabelecer ligação a outras origens, como os seguintes exemplos de utilização:

Opcional: ative o peering de DNS

Ative o intercâmbio de DNS nos seguintes casos:

  • Quando o Cloud Data Fusion se liga a sistemas através de nomes de anfitrião e não de endereços IP
  • Quando o sistema de destino é implementado atrás de um balanceador de carga, como acontece em algumas implementações SAP

O que se segue?