Questa pagina fornisce informazioni di base sulla connessione alle origini dati da istanze Cloud Data Fusion pubbliche o private da ambienti di progettazione ed esecuzione.
Prima di iniziare
Il networking in Cloud Data Fusion richiede una comprensione di base di quanto segue:
Progetto tenant
Cloud Data Fusion crea un progetto tenant che contiene le risorse e i servizi necessari per gestire le pipeline per tuo conto, ad esempio quando esegue pipeline sui cluster Managed Service for Apache Spark che si trovano nel progetto del cliente.
Il progetto tenant non è esposto direttamente, ma quando crei un'istanza privata, utilizzi il nome del progetto per configurare il peering VPC. Ogni istanza privata nel progetto tenant ha la propria
rete VPC e subnet.
Il progetto può avere più istanze Cloud Data Fusion. Gestisci le risorse e i servizi che contiene quando accedi a un'istanza nell'interfaccia utente di Cloud Data Fusion o in Google Cloud CLI.
Per saperne di più, consulta la documentazione di Service Infrastructure sui
progetti tenant.
Progetto cliente
Il cliente crea e possiede questo progetto. Per impostazione predefinita, Cloud Data Fusion crea un cluster Managed Service for Apache Spark temporaneo in questo progetto per eseguire le pipeline.
Istanza Cloud Data Fusion
Un'istanza di Cloud Data Fusion è un deployment unico di Cloud Data Fusion, in cui progetti ed esegui pipeline. Puoi creare più istanze in un singolo progetto e specificare la Google Cloud regione in cui creare le istanze Cloud Data Fusion. In base ai tuoi requisiti e ai vincoli di costo, puoi creare un'istanza che utilizza l'edizione Developer, Basic o Enterprise di Cloud Data Fusion. Ogni istanza contiene un deployment di Cloud Data Fusion unico e indipendente che include un insieme di servizi che gestiscono il ciclo di vita, l'orchestrazione, il coordinamento e la gestione dei metadati delle pipeline. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.
Diagramma di rete
I seguenti diagrammi mostrano le connessioni quando crei pipeline di dati che estraggono, trasformano, combinano, aggregano e caricano dati da varie origini dati on-premise e cloud.
Consulta i diagrammi per controllare l'uscita in un'istanza privata e connettersi a un'origine pubblica.
Progettazione ed esecuzione della pipeline
Cloud Data Fusion offre la separazione degli ambienti di progettazione ed esecuzione, il che ti consente di progettare una pipeline una sola volta ed eseguirla in più ambienti. L'ambiente di progettazione si trova nel progetto tenant, mentre l'ambiente di esecuzione si trova in uno o più progetti cliente.
Esempio: progetti la pipeline utilizzando i servizi Cloud Data Fusion, come Wrangler e Anteprima. Questi servizi vengono eseguiti nel progetto tenant, dove l'accesso ai dati è controllato dal ruolo Cloud Data Fusion Service Agent gestito da Google. Quindi esegui la pipeline nel progetto cliente in modo che utilizzi il cluster Managed Service for Apache Spark. Nel progetto cliente, l'account di servizio Compute Engine predefinito controlla l'accesso ai dati. Puoi configurare il tuo progetto in modo che utilizzi un account di servizio personalizzato.
Per ulteriori informazioni sulla configurazione dei service account, consulta Service account Cloud Data Fusion.
Ambiente di progettazione
Quando crei un'istanza Cloud Data Fusion nel tuo progetto cliente, Cloud Data Fusion crea automaticamente un progetto tenant separato e gestito da Google per eseguire i servizi necessari per gestire il ciclo di vita di pipeline e metadati, la UI di Cloud Data Fusion e gli strumenti di progettazione come Anteprima e Wrangler.
Risoluzione DNS in Cloud Data Fusion
Per risolvere i nomi di dominio nell'ambiente di progettazione quando manipoli e visualizzi in anteprima i dati che stai trasferendo in Google Cloud, utilizza il peering DNS (disponibile a partire da Cloud Data Fusion 6.7.0). Consente di utilizzare domini o nomi host per origini e sink, che non è necessario riconfigurare con la stessa frequenza degli indirizzi IP.
La risoluzione DNS è consigliata nell'ambiente di progettazione in Cloud Data Fusion, quando testi le connessioni e visualizzi l'anteprima delle pipeline che utilizzano nomi di dominio di server on-premise o di altri server (come database o server FTP) in una rete VPC privata.
Per saperne di più, consulta Peering DNS e Forwarding DNS di Cloud DNS.
Ambiente di esecuzione
Dopo aver verificato ed eseguito il deployment della pipeline in un'istanza, esegui la pipeline manualmente oppure viene eseguita in base a una pianificazione temporale o a un trigger dello stato della pipeline.
Indipendentemente dal fatto che l'ambiente di esecuzione venga sottoposto a provisioning e gestito da Cloud Data Fusion o dal cliente, l'ambiente esiste nel progetto cliente.
Istanze pubbliche (impostazione predefinita)
Il modo più semplice per eseguire il provisioning di un'istanza Cloud Data Fusion è creare un'istanza pubblica. È un ottimo punto di partenza e fornisce l'accesso a endpoint esterni su internet pubblico.
Un'istanza pubblica in Cloud Data Fusion utilizza la rete VPC predefinita nel tuo progetto.
La rete VPC predefinita presenta le seguenti caratteristiche:
- Subnet generate automaticamente per ogni regione
- Tabelle di routing
- Regole firewall per garantire la comunicazione tra le risorse di computing
Networking tra regioni
Quando crei un nuovo progetto, un vantaggio della rete VPC predefinita è che compila automaticamente una subnet per regione utilizzando un intervallo di indirizzi IP predefinito, espresso come blocco CIDR. Gli intervalli di indirizzi IP iniziano con
10.128.0.0/20, 10.132.0.0/20, in tutte le regioni globali Google Cloud .
Per garantire che le risorse di computing si connettano tra loro tra le regioni, la rete VPC predefinita imposta le route locali predefinite per ogni subnet. Se configuri la route predefinita a internet (0.0.0.0/0), ottieni
l'accesso a internet e acquisisci il traffico di rete non instradato.
Regole firewall
La rete VPC predefinita fornisce un insieme di regole firewall:
| Predefinito | Descrizione |
|---|---|
Autorizzazione predefinita icmp |
Abilita il protocollo icmp per l'origine 0.0.0.0/0 |
| Default allow internal | Attiva tcp:0-65535; udp:0-65535; icmp per l'origine 10.128.0.0/9, che copre gli indirizzi IP da 10.128.0.1 a 10.255.255.254. |
Autorizzazione predefinita rdp |
Attiva tcp:3389 per l'origine 0.0.0.0/0 |
Autorizzazione predefinita ssh |
Attiva tcp:22 per l'origine 0.0.0.0/0 |
Queste impostazioni predefinite della rete VPC riducono al minimo i prerequisiti per la configurazione dei servizi cloud, incluso Cloud Data Fusion. A causa di problemi di sicurezza della rete, le organizzazioni spesso non consentono di utilizzare la rete VPC predefinita per le operazioni aziendali. Senza la rete VPC predefinita, non puoi creare un'istanza Cloud Data Fusion pubblica. Al contrario, crea un'istanza privata.
La rete VPC predefinita non concede l'accesso aperto alle risorse. Al contrario, Identity and Access Management (IAM) controlla l'accesso:
- Per accedere a Google Cloudè richiesta un'identità convalidata.
- Dopo aver eseguito l'accesso, devi disporre dell'autorizzazione esplicita (ad esempio, il ruolo Visualizzatore) per visualizzare i servizi. Google Cloud
Istanze private
Alcune organizzazioni richiedono che tutti i loro sistemi di produzione siano isolati dagli indirizzi IP pubblici. Un'istanza privata di Cloud Data Fusion soddisfa questo requisito in tutti i tipi di impostazioni della rete VPC.
Private Service Connect in Cloud Data Fusion
Le istanze di Cloud Data Fusion potrebbero dover connettersi a risorse situate on-premise, su Google Cloudo su altri provider cloud. Quando utilizzi Cloud Data Fusion con indirizzi IP interni, le connessioni alle risorse esterne vengono stabilite tramite la rete VPC nel tuo progettoGoogle Cloud . Il traffico sulla rete non passa attraverso la rete internet pubblica. Quando a Cloud Data Fusion viene fornito l'accesso al tuo VPC utilizzando il peering di rete VPC, esistono limitazioni che diventano evidenti quando utilizzi reti su larga scala.
Con le interfacce Private Service Connect, Cloud Data Fusion si connette al tuo VPC senza utilizzare il peering di rete VPC. L'interfaccia Private Service Connect è un tipo di Private Service Connect che consente a Cloud Data Fusion di avviare connessioni private e sicure alle reti VPC consumer. In questo modo, non solo si ottiene la flessibilità e la facilità di accesso (come il peering di rete VPC), ma anche l'autorizzazione esplicita e il controllo lato consumer offerti da Private Service Connect. Per ulteriori informazioni, consulta Creare un'istanza privata con Private Service Connect.
Accesso ai dati negli ambienti di progettazione ed esecuzione
In un'istanza pubblica, la comunicazione di rete avviene tramite internet aperto, il che non è consigliato per gli ambienti critici. Per accedere in modo sicuro alle tue origini dati, esegui sempre le pipeline da un'istanza privata nel tuo ambiente di esecuzione.
Accesso alle fonti
Quando accedi alle origini dati, alle istanze pubbliche e private:
- effettuare chiamate in uscita alle API Google Cloud utilizzando l'accesso privato Google
- comunicare con un ambiente di esecuzione (Managed Service for Apache Spark) tramite il peering VPC
La seguente tabella confronta le istanze pubbliche e private durante la progettazione e l'esecuzione per varie origini dati:
| Origini dati | Istanza Cloud Data Fusion pubblica (in fase di progettazione) |
Servizio gestito Cloud Data Fusion pubblico per Apache Spark (esecuzione) |
Istanza Cloud Data Fusion privata (in fase di progettazione) |
Private Cloud Data Fusion Managed Service per Apache Spark (esecuzione) |
|---|---|---|---|---|
| Google Cloud source (dopo aver concesso le autorizzazioni e impostato le regole firewall) |
||||
| Origine on-premise (dopo aver configurato VPN/Interconnect, concesso le autorizzazioni e impostato le regole firewall) |
||||
| Origine internet pubblica (dopo aver concesso le autorizzazioni e impostato le regole firewall) |
Passaggi successivi
- Controllo dell'accesso in Cloud Data Fusion
- Service account in Cloud Data Fusion
- Creare un'istanza pubblica
- Creazione di un'istanza privata