Creare un'istanza privata con il peering VPC

Questa pagina descrive come creare un'istanza Cloud Data Fusion con un indirizzo IP interno. Crea l'istanza in una rete VPC o in una rete VPC condivisa.

Un'istanza Cloud Data Fusion privata offre i seguenti vantaggi:

  • Le connessioni all'istanza vengono stabilite tramite una rete VPC privata nel tuo Google Cloud progetto. Il traffico sulla rete non passa attraverso la rete internet pubblica.

  • L'istanza può connettersi alle tue risorse on-premise, come i database relazionali , perché la tua rete on-premise si connette alla Google Cloud rete VPC privata tramite Cloud VPN o Cloud Interconnect. Puoi accedere in modo sicuro alle tue risorse on-premise, come i database, tramite la rete privata senza aprire l'accesso a Google Cloud.

Obiettivi

  • Configura la rete VPC o la rete VPC condiviso.
  • Alloca un intervallo IP che verrà utilizzato per il deployment dell'istanza Cloud Data Fusion nel progetto tenant.
  • Crea l'istanza privata di Cloud Data Fusion.
  • Configura il peering di rete VPC tra il VPC che contiene l'istanza Cloud Data Fusion e il VPC che contiene il progetto tenant associato.
  • Per le reti VPC condivise, configura le autorizzazioni Identity and Access Management (IAM).
  • Se la tua istanza privata utilizza Cloud Data Fusion versione 6.2.0 o precedenti, crea una regola firewall.
  • Consenti a servizi diversi Google Cloud di comunicare internamente tra loro abilitando l'accesso privato Google nella subnet di Managed Service per Apache Spark.

Prima di iniziare

  • Per scoprire di più sull'architettura di deployment di Cloud Data Fusion, consulta la sezione Networking.

Configura la rete VPC

Se non l'hai ancora fatto, crea una rete VPC o una rete VPC condivisa.

Per configurare la rete VPC, devi allocare un intervallo di indirizzi IP.

Alloca un intervallo IP

Rete VPC

Se non utilizzi una rete VPC condiviso, Cloud Data Fusion alloca un intervallo IP per impostazione predefinita quando crei un'istanza.

Rete VPC condiviso

Crea un'istanza privata

Crea l'istanza Cloud Data Fusion privata in una rete VPC o in una rete VPC condiviso.

Rete VPC

Per creare l'istanza in una rete VPC, utilizza la Google Cloud console o cURL.

Se utilizzi la Google Cloud console per creare l'istanza privata, Cloud Data Fusion alloca l'intervallo di indirizzi IP /22 per impostazione predefinita. Per scegliere un intervallo IP diverso, devi utilizzare il comando cURL.

Console

  1. Vai alla pagina Crea istanza Data Fusion.

    Vai a Crea istanza Data Fusion

  2. Inserisci un nome e una descrizione per l'istanza.

  3. Seleziona la regione in cui creare l'istanza.

  4. Seleziona una versione e un'edizione di Cloud Data Fusion.

  5. Specifica l' account di servizio di Managed Service per Apache Spark da utilizzare per l'esecuzione della pipeline Cloud Data Fusion in Managed Service per Apache Spark. L'account Compute Engine predefinito è preselezionato.

  6. Espandi il menu Opzioni avanzate e fai clic su Abilita IP privato.

  7. Nel campo Rete, scegli una rete in cui creare l'istanza.

  8. Fai clic su Crea. Il processo di creazione dell'istanza richiede fino a 30 minuti.

cURL

Per tua comodità, puoi esportare le seguenti variabili o sostituire direttamente questi valori nei seguenti comandi:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Per creare l'istanza, chiama il relativo create() metodo:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Sostituisci quanto segue:

  • INSTANCE_ID: la stringa ID che deve essere assegnata alla nuova istanza.
  • NETWORK_NAME: il nome della rete VPC in cui vuoi creare l'istanza privata.
  • IP_RANGE: L'intervallo IP che hai allocato. Per trovare l'intervallo IP nella Google Cloud console, vai a Dettagli rete VPC > Connessione privata ai servizi > Intervallo IP interno .

Rete VPC condiviso

Per creare l'istanza in una rete VPC condiviso, utilizza cURL, non la Google Cloud console.

cURL

Per tua comodità, puoi esportare le seguenti variabili. In alternativa, puoi sostituire direttamente questi valori nei seguenti comandi:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Per creare l'istanza, chiama il relativo create() metodo:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Sostituisci quanto segue:

  • INSTANCE_ID: la stringa ID che deve essere assegnata alla nuova istanza.
  • SHARED_VPC_HOST_PROJECT_ID: l'ID del progetto che ospita la VPC condiviso condivisa.
  • NETWORK_NAME: il nome della rete VPC in cui vuoi creare l'istanza privata.
  • IP_RANGE: L'intervallo IP che hai allocato. Per trovare l'intervallo IP nella Google Cloud console, vai alla pagina Dettagli rete VPC > Connessione privata ai servizi > Intervallo IP interno.

Configura il peering di rete VPC

I servizi Cloud Data Fusion che utilizzi nell' ambiente di progettazione (ad esempio: Wrangler, Connection Manager e Schema Validation) avviano le connessioni di rete dal VPC del progetto tenant ai sistemi di origine. Cloud Data Fusion utilizza il peering di rete VPC per stabilire la connettività di rete al VPC o al VPC condiviso che contiene la tua istanza. Il peering di rete VPC consente a Cloud Data Fusion di accedere alle risorse nella tua rete tramite indirizzi IP interni utilizzando il tuo VPC e i relativi controlli. Per connetterti a una risorsa in un altro network, consulta i passaggi per i casi d'uso della connessione.

La sezione seguente descrive come creare una configurazione di peering tra la tua rete e la rete del progetto tenant di Cloud Data Fusion.

Recupera l'ID progetto tenant

Per creare una configurazione di peering, devi avere l' ID progetto tenant.

  1. Vai alla pagina Istanze di Cloud Data Fusion.

    Vai a Istanze

  2. Nella colonna Nome istanza, seleziona l'istanza.

  3. Nella pagina Dettagli istanza, copia l'ID progetto tenant, necessario quando crei una connessione in peering nei passaggi seguenti.

Crea una connessione in peering

  1. Vai alla pagina Peering di rete VPC.

    Vai a Peering di rete VPC

  2. Fai clic su Crea connessione > Continua.

  3. Nella pagina Crea connessione in peering che si apre, procedi nel seguente modo:

    1. Inserisci un nome per la connessione in peering.
    2. Per La tua rete VPC, seleziona la rete che contiene la tua istanza Cloud Data Fusion.
    3. Per Rete VPC in peering, seleziona In un altro progetto.
    4. In ID progetto, inserisci l' ID progetto tenant che hai trovato in precedenza in questo tutorial.
    5. In Nome rete VPC, seleziona una rete o inserisci INSTANCE_REGION-INSTANCE_ID.

      Sostituisci quanto segue:

      • INSTANCE_REGION: la regione in cui hai creato l'istanza Cloud Data Fusion.
      • INSTANCE_ID: l'ID dell'istanza Cloud Data Fusion.
    6. Seleziona la versione del protocollo internet per la connessione in peering per scambiare le route IPv4 e IPv6 tra la tua rete VPC e la rete VPC in peering. Per saperne di più, consulta Peering di rete VPC.

    7. Seleziona Esporta route personalizzate in modo che le route personalizzate possano essere esportate dalla tua rete VPC alla rete VPC tenant.

    8. Scegli se consentire l'importazione o l'esportazione di route di subnet con IPv4 pubblico nella tua rete VPC.

    9. Fai clic su Crea.

    Il peering di rete VPC diventa attivo poco dopo la creazione.

Imposta le autorizzazioni IAM

Rete VPC

Salta questo passaggio e vai a Creare una regola firewall.

Rete VPC condiviso

Se crei l'istanza Cloud Data Fusion in una rete VPC condiviso, devi concedere il ruolo Utente di rete Compute ai seguenti service account. Per concedere le autorizzazioni a tutte le subnet, concedi il ruolo al progetto host del VPC condiviso.

Per controllare ulteriormente l'accesso, concedi invece il ruolo a una subnet specifica e il ruolo Visualizzatore rete su il progetto host.

  • Account di servizio Cloud Data Fusion: service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
  • Service account di Managed Service per Apache Spark: service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com

PROJECT_NUMBER è il numero del Google Cloud progetto che contiene l'istanza Cloud Data Fusion.

Per saperne di più, consulta Concedere l'accesso ai service account richiesti.

Crea una regola firewall

Crea una regola firewall sulla rete VPC che consenta le connessioni SSH in entrata dall'intervallo IP specificato quando hai creato l'istanza Cloud Data Fusion privata.

Questo passaggio è obbligatorio per le versioni di Cloud Data Fusion precedenti alla 6.2.0. Consente la comunicazione tra Cloud Data Fusion e i cluster Managed Service per Apache Spark che eseguono pipeline.

Puoi creare la regola firewall utilizzando la Google Cloud console o utilizzando gcloud CLI.

Console

Consulta Creare regole firewall.

gcloud

Esegui questo comando:

gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID

Sostituisci quanto segue:

  • FIREWALL_NAME: il nome della regola firewall da creare.
  • IP_RANGE: l'intervallo IP che hai allocato.
  • NETWORK_NAME: il nome della rete a cui è collegata la regola firewall. È il nome della rete VPC in cui hai creato l'istanza privata.
  • PROJECT_ID: l'ID del progetto che ospita la rete VPC.

Passaggi per i casi d'uso della connessione

Le sezioni seguenti descrivono i casi d'uso relativi alla connessione per le istanze private.

Abilita l'accesso privato Google

Per accedere alle risorse tramite indirizzi IP interni, Cloud Data Fusion deve creare i cluster Managed Service per Apache Spark ed eseguire le pipeline di dati in una subnet con accesso privato Google. Devi abilitare l'accesso privato Google per la subnet che contiene i cluster Managed Service per Apache Spark.

  • Se nella regione in cui vengono avviati i cluster Managed Service per Apache Spark è presente una sola subnet, il cluster viene avviato in quella subnet.
  • Se in una regione sono presenti più subnet, devi configurare Cloud Data Fusion in modo che selezioni la subnet con accesso privato Google per l'avvio dei cluster Managed Service per Apache Spark.

Per abilitare l'accesso privato Google per la subnet, consulta Configurazione dell'accesso privato Google.

(Facoltativo) Connettiti ad altre origini

Dopo aver creato un'istanza privata in Cloud Data Fusion, puoi connetterti ad altre origini, ad esempio i seguenti casi d'uso:

(Facoltativo) Abilita il peering DNS

Abilita il peering DNS nei seguenti casi:

  • Quando Cloud Data Fusion si connette ai sistemi tramite nomi host e non indirizzi IP
  • Quando il sistema di destinazione viene sottoposto a deployment dietro un bilanciatore del carico, come avviene in alcuni deployment SAP

Passaggi successivi