Questa pagina fornisce indicazioni sulla configurazione della connettività di rete per i cluster Dataproc quando si utilizza Private Service Connect. Spiega l'interazione tra Private Service Connect e il peering di Virtual Private Cloud per diversi casi d'uso di Dataproc. Riassume anche le somiglianze e le differenze tra le funzionalità di accesso privato Google, Private Service Connect e Cloud NAT.
Panoramica
I cluster Dataproc richiedono la connettività di rete a Google Cloud API e servizi, come l'API Dataproc, Cloud Storage e Cloud Logging, e a risorse utente, come le origini dati in altre reti Virtual Private Cloud o in ambienti on-premise.
Per impostazione predefinita, i cluster Dataproc creati con le versioni dell'immagine 2.2 e successive
vengono creati con solo indirizzi IP interni. Dataproc abilita automaticamente
l'accesso privato Google
sulla subnet regionale utilizzata dal cluster con solo IP interni per
consentire le connessioni alle API e ai servizi Google senza connettersi alla
rete internet pubblica.
Per fornire un controllo di rete più granulare, puoi configurare un cluster in modo che utilizzi Private Service Connect, che instrada il traffico verso le API e i servizi Google supportati tramite un endpoint privato all'interno della rete VPC. Questo può essere utile per la sicurezza e la conformità.
Opzioni di rete privata comuni
Questa sezione descrive le funzionalità e le differenze tra l'accesso privato Google, Private Service Connect e Cloud NAT.
L'accesso privato Google è un percorso unidirezionale per le VM per raggiungere i servizi pubblici di Google senza utilizzare internet. È simile a un'uscita stradale speciale dal tuo quartiere (subnet VPC) che porta direttamente a l centro commerciale dei servizi Google, bypassando le strade pubbliche. Tutti nel quartiere possono utilizzarlo. Dataproc abilita automaticamente l'accesso privato Google sulla subnet regionale utilizzata dai cluster Serverless per Apache Spark creati con la versione dell'immagine
2.2e successive.Private Service Connect crea un endpoint privato bidirezionale per un servizio che si trova all'interno della rete VPC. È simile a un percorso privato dedicato dalla tua posizione (rete VPC) direttamente a un servizio. Ha un indirizzo nella tua posizione (un indirizzo IP interno nella rete VPC) e solo tu puoi utilizzarlo.
Cloud NAT consente alle VM con indirizzi IP privati di accedere a internet.
Funzionalità e differenze
| Funzionalità | Accesso privato Google (PGA) | Private Service Connect (PSC) |
|---|---|---|
| Come funziona | Indirizza il traffico da una VM a un intervallo di indirizzi IP Google speciale (private.googleapis.com). |
Crea una regola di forwarding (endpoint) all'interno della rete VPC che rappresenta il servizio Google. |
| Indirizzo IP | La VM si connette a un indirizzo IP di proprietà di Google. | La VM si connette a un indirizzo IP interno di tua proprietà all'interno della rete VPC. |
| Direzione | Solo in uscita: la VM avvia una connessione a Google. | Bidirezionale: la VM si connette al servizio e il servizio può avviare il traffico di ritorno. |
| Ambito | Attivato o disattivato per un'intera subnet. | Eseguito il deployment come risorsa endpoint specifica. |
| Servizi | Si connette solo alle API di Google, come l'API Cloud Storage, BigQuery o Dataproc. | Si connette alle API di Google, ai servizi di altre aziende e ai tuoi servizi. |
Per Dataproc, l'accesso privato Google è il metodo tradizionale più semplice per consentire alle VM del cluster di contattare il piano di controllo Dataproc. Private Service Connect è un approccio più recente e flessibile che offre un controllo granulare, in particolare nelle reti complesse o multi-tenant.
Perché utilizzare Private Service Connect? Anche se il cluster Dataproc
ha indirizzi IP solo interni con l'accesso privato Google
abilitato (la configurazione predefinita per i cluster con versione dell'immagine 2.2+),
Private Service Connect offre i seguenti vantaggi:
Anziché utilizzare l'insieme condiviso di endpoint di accesso privato Google per connetterti alle API e ai servizi Google, Private Service Connect ti consente di creare un endpoint privato con un indirizzo IP interno all'interno della rete VPC che esegue il mapping direttamente a un servizio Google specifico.
Puoi creare regole firewall che consentono il traffico solo all' indirizzo IP dell'endpoint Private Service Connect. Ad esempio, puoi configurare una regola che consenta il traffico in uscita dalle VM del cluster Dataproc esclusivamente all'indirizzo IP interno dell'endpoint Private Service Connect per BigQuery, negando tutto il resto del traffico in uscita. Questo è un approccio più sicuro rispetto alla creazione di regole firewall più ampie con l'accesso privato Google.
L'utilizzo dell'endpoint Private Service Connect all'interno della rete VPC rende il percorso di rete esplicito e più facile da controllare per la sicurezza e la conformità, poiché il traffico verso un servizio come Cloud Storage non condivide un percorso con altro traffico API.
Percorsi privati e pubblici
L'accesso privato Google, Private Service Connect,
e Cloud NAT consentono agli host con
RFC 1918 indirizzi di raggiungere
Google Cloud i servizi. Consentono inoltre alle Google Cloud risorse con
indirizzi RFC 1918privati di avviare connessioni ai Google Cloud servizi.
Una distinzione importante da fare quando si valutano le diverse opzioni di connessione è se il traffico che utilizza la connessione rimane privato o viaggia sulla rete internet pubblica.
L'accesso privato Google e Private Service Connect mantengono il traffico all'interno della rete privata di Google. I dati non viaggiano sulla rete internet pubblica per raggiungere i servizi, il che è ideale per la sicurezza e le prestazioni prevedibili. Google Cloud
Cloud NAT raggiunge un Google Cloud servizio connettendosi a un endpoint pubblico per il servizio. Il traffico esce dalla rete VPC tramite il gateway NAT e viaggia su internet.
Come funziona ogni opzione
Ecco una suddivisione di ogni meccanismo di connessione:
| Metodo | Percorso al servizio | Endpoint di destinazione | Caso d'uso primario |
|---|---|---|---|
| Accesso privato Google | Rete privata Google | Indirizzi IP Google speciali (private.googleapis.com) |
Accesso semplice a livello di subnet per le VM per raggiungere privatamente le API di Google. |
| Private Service Connect | Rete privata Google | Un endpoint con indirizzo IP privato all'interno della rete VPC | Accesso granulare e sicuro alle API di Google, a servizi di terze parti o ai tuoi servizi. |
| Cloud NAT | Rete internet pubblica | Indirizzo IP pubblico del servizio | Accesso a internet in uscita di uso generale per le VM con indirizzi IP privati. |
Configurare Private Service Connect
Per utilizzare Private Service Connect con il tuo cluster Dataproc, devi configurare gli endpoint Private Service Connect e il DNS necessari nella tua rete VPC per tutte le API di Google da cui dipende Dataproc. Per istruzioni sulla configurazione della subnet e del DNS, consulta Informazioni sull'accesso alle API di Google tramite endpoint.
Abilitare il peering, se necessario
Sebbene Private Service Connect fornisca l'accesso privato a molti servizi Google, potrebbe essere necessario abilitare anche il peering VPC, in particolare nei seguenti scenari:
Altre reti Virtual Private Cloud: Private Service Connect si connette ai servizi gestiti da Google, non direttamente ad altre reti VPC dei clienti. Se le origini dati, le applicazioni personalizzate o altri servizi si trovano in una rete VPC diversa dal cluster Dataproc, in genere è necessario il peering VPC per abilitare la comunicazione privata tra queste reti.
Reti on-premise: se il cluster Dataproc accede a dati o servizi nel tuo ambiente on-premise, avrai bisogno di una connessione Cloud VPN o Cloud Interconnect alla tua rete on-premise, spesso combinata con il peering VPC.
Comunicazione interna completa ai servizi Google: sebbene Private Service Connect fornisca l'accesso privato ai servizi Google configurati, come Cloud Storage e BigQuery, le comunicazioni del piano di controllo interno o funzionalità Dataproc specifiche potrebbero richiedere il peering VPC a una rete con un'ampia accessibilità ai servizi Google per accedere all'infrastruttura Google sottostante o ad altre API di Google.
Accesso alle origini dati in altre reti VPC: se i job Dataproc leggono o scrivono in origini dati, come Cloud SQL, database autogestiti e applicazioni personalizzate, che si trovano in una rete VPC diversa, devi stabilire il peering VPC tra la rete VPC del cluster Dataproc e la rete VPC contenente queste origini dati. Private Service Connect non fornisce la comunicazione tra reti VPC tra reti di proprietà del cliente.
Connettività ibrida: per i deployment cloud ibridi in cui i cluster Dataproc devono interagire con le risorse in un data center on-premise, il peering VPC è essenziale per connettere la rete on-premise alla rete Google Cloud VPC utilizzando Cloud VPN o Cloud Interconnect.
Risolvere i problemi di Private Service Connect
Se il cluster Dataproc con Private Service Connect (senza peering VPC) non riesce a creare o presenta problemi di connettività, segui questi passaggi per risolvere il problema:
Conferma l'accesso API richiesto:
- Verifica che tutte le API di Google necessarie siano abilitate nel tuo Google Cloud progetto.
Verifica la configurazione dell'endpoint Private Service Connect:
Verifica che un endpoint Private Service Connect sia configurato correttamente per tutte le API di Google richieste dal cluster, ad esempio
dataproc.googleapis.com,storage.googleapis.com,logging.googleapis.com,bigquery.googleapis.com,compute.googleapis.com.Utilizza strumenti come
digonslookupda una VM all'interno della subnet VPC per verificare che i record DNS per i servizi richiesti vengano risolti correttamente negli indirizzi IP privati all'interno della rete VPC utilizzando l'endpoint Private Service Connect.
Controlla le regole firewall:
Verifica che le regole firewall nella rete VPC consentano le connessioni in uscita dalle istanze del cluster Dataproc agli endpoint Private Service Connect.
Se utilizzi il VPC condiviso, verifica che nel progetto host siano configurate regole firewall appropriate.
Esamina i log del cluster Dataproc:
- Esamina i log di creazione del cluster in Logging per eventuali
errori relativi alla rete, ad esempio
connection refused,timeout, o "unreachable host. Questi errori possono indicare una route mancante o una regola firewall errata. Esamina i log della console seriale delle istanze del cluster.
- Esamina i log di creazione del cluster in Logging per eventuali
errori relativi alla rete, ad esempio
Valuta la necessità del peering VPC:
In base alle dipendenze del carico di lavoro, se il tuo cluster Dataproc richiede la connettività alle risorse non gestite da Google, come i database in una rete VPC separata e i server on-premise, stabilisci il peering VPC.
Esamina i requisiti di rete dei Google Cloud servizi con cui interagisce il cluster Dataproc. Alcuni servizi potrebbero avere requisiti di peering specifici anche se utilizzati con Private Service Connect.
Seguire le best practice
Pianificazione completa dell'architettura di rete: prima di eseguire il deployment di Dataproc con Private Service Connect, progetta attentamente l'architettura di rete, tenendo conto di tutte le dipendenze implicite ed esplicite e dei percorsi di flusso dei dati. Ciò include l'identificazione di tutte le API di Google con cui interagisce il cluster Dataproc durante il provisioning e l'operazione.
Testare la connettività: testa attentamente la connettività di rete da il cluster Dataproc a tutti i servizi e le origini dati richiesti durante le fasi di sviluppo e staging.
Utilizzare il Network Intelligence Center: utilizza gli strumenti di Google Cloud Network Intelligence Center, come i test di connettività, per diagnosticare e risolvere i problemi di connettività di rete.
Passaggi successivi
- Scopri di più su Private Service Connect.
- Scopri il peering di rete VPC.
- Esplora la configurazione di rete del cluster Dataproc .