Auf dieser Seite finden Sie eine Anleitung zum Konfigurieren der Netzwerkverbindung für Dataproc-Cluster bei Verwendung von Private Service Connect. Darin wird die Interaktion zwischen Private Service Connect und Virtual Private Cloud Peering für verschiedene Dataproc-Anwendungsfälle erläutert. Außerdem werden die Ä9hnlichkeiten und Unterschiede zwischen den Funktionen von privatem Google-Zugriff, Private Service Connect und Cloud NAT zusammengefasst.
Übersicht
Dataproc-Cluster benötigen eine Netzwerkverbindung zu Google Cloud APIs und Diensten wie der Dataproc API, Cloud Storage und Cloud Logging sowie zu Nutzer ressourcen wie Datenquellen in anderen Virtual Private Cloud-Netzwerken oder lokalen Umgebungen.
Standardmäßig werden Dataproc-Cluster, die mit Image-Versionen 2.2 und später
erstellt wurden, nur mit internen IP-Adressen erstellt. Dataproc aktiviert automatisch
den privaten Google-Zugriff
im regionalen Subnetz, das vom Cluster mit nur internen IP-Adressen verwendet wird, um
Verbindungen zu Google APIs und ‑Diensten zu ermöglichen, ohne eine Verbindung zum
öffentlichen Internet herzustellen.
Für eine detailliertere Netzwerksteuerung können Sie einen Cluster so konfigurieren, dass er Private Service Connect verwendet. Dadurch wird der Traffic zu unterstützten Google APIs und ‑Diensten über einen privaten Endpunkt in Ihrem VPC-Netzwerk weitergeleitet. Dies kann für Sicherheit und Compliance von Vorteil sein.
Häufig verwendete Optionen für private Netzwerke
In diesem Abschnitt werden die Funktionen und Unterschiede von privatem Google-Zugriff, Private Service Connect und Cloud NAT beschrieben.
Der private Google-Zugriff ist ein unidirektionaler Pfad für VMs, um ohne Internet auf öffentliche Google-Dienste zuzugreifen. Er ähnelt einer speziellen Ausfahrt von Ihrer Nachbarschaft (VPC-Subnetz), die direkt zum Google-Dienstzentrum führt, ohne öffentliche Straßen zu nutzen. Jeder in der Nachbarschaft kann sie verwenden. Dataproc aktiviert automatisch den privaten Google-Zugriff im regionalen Subnetz, das von Serverless for Apache Spark-Clustern verwendet wird, die mit Image-Version
2.2und höher erstellt wurden.Private Service Connect erstellt einen privaten, bidirektionalen Endpunkt für einen Dienst, der sich in Ihrem VPC Netzwerk befindet. Er ähnelt einem dedizierten privaten Pfad von Ihrem Standort (VPC-Netzwerk) direkt zu einem Dienst. Er hat eine Adresse an Ihrem Standort (eine interne IP Adresse in Ihrem VPC-Netzwerk) und nur Sie können ihn verwenden.
Cloud NAT ermöglicht VMs mit privaten IP-Adressen den Zugriff auf das Internet.
Funktionen und Unterschiede
| Funktion | Privater Google-Zugriff (Private Google Access, PGA) | Private Service Connect (PSC) |
|---|---|---|
| Funktionsweise | Leitet Traffic von einer VM zu einem speziellen Google-IP-Adressbereich (private.googleapis.com) weiter. |
Erstellt eine Weiterleitungsregel (Endpunkt) in Ihrem VPC-Netzwerk, die den Google-Dienst darstellt. |
| IP-Adresse | Ihre VM stellt eine Verbindung zu einer Google-eigenen IP-Adresse her. | Ihre VM stellt eine Verbindung zu einer internen IP-Adresse her, die sich in Ihrem VPC-Netzwerk befindet. |
| Richtung | Nur ausgehend: Ihre VM initiiert eine Verbindung zu Google. | Bidirektional: Ihre VM stellt eine Verbindung zum Dienst her und der Dienst kann Rücktraffic initiieren. |
| Umfang | Für ein gesamtes Subnetz aktiviert oder deaktiviert. | Als spezifische Endpunktressource bereitgestellt. |
| Dienste | Verbindet sich nur mit Google APIs wie Cloud Storage, BigQuery oder der Dataproc API. | Verbindet sich mit Google APIs, Diensten anderer Unternehmen und Ihren eigenen Diensten. |
Für Dataproc ist der private Google-Zugriff die einfachere, herkömmliche Methode, um Cluster-VMs die Kontaktaufnahme mit der Dataproc Steuerungsebene zu ermöglichen. Private Service Connect ist ein neuerer und flexiblerer Ansatz, der Ihnen eine detaillierte Steuerung ermöglicht, insbesondere in komplexen oder mandantenfähigen Netzwerken.
Warum Private Service Connect verwenden? Auch wenn Ihr Dataproc
Cluster nur interne IP-Adressen mit aktiviertem privatem Google-Zugriff hat (die Standardkonfiguration für 2.2+ Image-Version-Cluster),
bietet Private Service Connect die folgenden Vorteile:
Anstatt das freigegebene Set von Endpunkten für den privaten Google-Zugriff zu verwenden, um eine Verbindung zu Google APIs und ‑Diensten herzustellen, können Sie mit Private Service Connect einen privaten Endpunkt mit einer internen IP-Adresse in Ihrem VPC-Netzwerk erstellen, der direkt einem bestimmten Google-Dienst zugeordnet ist.
Sie können Firewallregeln erstellen, die Traffic nur zur IP-Adresse des Private Service Connect-Endpunkts zulassen. Sie können beispielsweise eine Regel konfigurieren, die ausgehenden Traffic von Dataproc-Cluster-VMs ausschließlich zur internen IP-Adresse des Private Service Connect-Endpunkts für BigQuery zulässt und den gesamten anderen ausgehenden Traffic ablehnt. Dies ist ein sichererer Ansatz als das Erstellen umfassenderer Firewallregeln mit dem privaten Google-Zugriff.
Durch die Verwendung des Private Service Connect-Endpunkts in Ihrem VPC-Netzwerk wird der Netzwerkpfad explizit und lässt sich leichter auf Sicherheit und Compliance prüfen, da der Traffic zu einem Dienst wie Cloud Storage keinen Pfad mit anderem API-Traffic teilt.
Private und öffentliche Pfade
Mit dem privaten Google-Zugriff, Private Service Connect,
und Cloud NAT können Hosts mit
RFC 1918 Adressen Dienste erreichen.
Google Cloud Außerdem können Google Cloud Ressourcen mit
privaten RFC 1918 Adressen Verbindungen zu Google Cloud Diensten initiieren.
Ein wichtiger Unterschied bei der Bewertung verschiedener Verbindungsoptionen ist, ob der Traffic über die Verbindung privat bleibt oder über das öffentliche Internet übertragen wird.
Mit dem privaten Google-Zugriff und Private Service Connect bleibt der Traffic im privaten Netzwerk von Google. Daten werden nicht über das öffentliche Internet übertragen, um Google Cloud Dienste zu erreichen. Das ist ideal für Sicherheit und vorhersehbare Leistung.
Cloud NAT erreicht einen Google Cloud Dienst, indem eine Verbindung zu einem öffentlichen Endpunkt für den Dienst hergestellt wird. Der Traffic verlässt Ihr VPC-Netzwerk über das NAT-Gateway und wird über das Internet übertragen.
Funktionsweise der einzelnen Optionen
Hier eine Aufschlüsselung der einzelnen Verbindungsmechanismen:
| Methode | Pfad zum Dienst | Zielendpunkt | Primärer Anwendungsfall |
|---|---|---|---|
| Privater Google-Zugriff | Privates Google-Netzwerk | Spezielle Google-IP-Adressen (private.googleapis.com) |
Einfacher Zugriff auf Subnetzebene für VMs, um privat auf Google APIs zuzugreifen. |
| Private Service Connect | Privates Google-Netzwerk | Ein privater IP-Adressendpunkt in Ihrem VPC-Netzwerk | Granularer, sicherer Zugriff auf Google APIs, Dienste von Drittanbietern oder Ihre eigenen Dienste. |
| Cloud NAT | Öffentliches Internet | Öffentliche IP-Adresse des Dienstes | Allgemeiner ausgehender Internetzugriff für VMs mit privaten IP-Adressen. |
Private Service Connect konfigurieren
Wenn Sie Private Service Connect mit Ihrem Dataproc-Cluster verwenden möchten, müssen Sie die erforderlichen Private Service Connect-Endpunkte und DNS in Ihrem VPC Netzwerk für alle Google APIs konfigurieren, von denen Dataproc abhängt. Eine Anleitung zum Einrichten Ihres Subnetzes und zum Konfigurieren von DNS finden Sie unter Zugriff auf Google APIs über Endpunkte.
Bei Bedarf Peering aktivieren
Private Service Connect bietet zwar privaten Zugriff auf viele Google-Dienste, Sie müssen aber möglicherweise auch VPC-Peering aktivieren, insbesondere in den folgenden Szenarien:
Andere Virtual Private Cloud-Netzwerke: Private Service Connect stellt eine Verbindung zu von Google verwalteten Diensten her, nicht direkt zu anderen VPC -Netzwerken von Kunden. Wenn sich Ihre Datenquellen, benutzerdefinierten Anwendungen oder andere Dienste in einem anderen VPC-Netzwerk als Ihr Dataproc-Cluster befinden, ist in der Regel VPC-Peering erforderlich, um die private Kommunikation zwischen diesen Netzwerken zu ermöglichen.
Lokale Netzwerke: Wenn Ihr Dataproc-Cluster auf Daten oder Dienste in Ihrer lokalen Umgebung zugreift, benötigen Sie eine Cloud VPN- oder Cloud Interconnect-Verbindung zu Ihrem lokalen Netzwerk, oft in Kombination mit VPC-Peering.
Umfassende interne Kommunikation mit Google-Diensten: Private Service Connect bietet zwar privaten Zugriff auf konfigurierte Google-Dienste wie Cloud Storage und BigQuery, aber für die interne Kommunikation der Steuerungsebene oder bestimmte Dataproc-Funktionen ist möglicherweise VPC-Peering zu einem Netzwerk mit umfassender Google-Dienstverfügbarkeit erforderlich, um auf die zugrunde liegende Google-Infrastruktur oder andere Google APIs zuzugreifen.
Zugriff auf Datenquellen in anderen VPC-Netzwerken: Wenn Ihre Dataproc-Jobs Daten aus Datenquellen wie Cloud SQL, selbstverwalteten Datenbanken und benutzerdefinierten Anwendungen lesen oder in diese schreiben, die sich in einem anderen VPC-Netzwerk befinden, müssen Sie VPC-Peering zwischen Ihrem Dataproc-Cluster-VPC-Netzwerk und dem VPC Netzwerk einrichten, das diese Datenquellen enthält. Private Service Connect bietet keine VPC-Netzwerk-übergreifende Kommunikation zwischen kundeneigenen Netzwerken.
Hybridkonnektivität: Für Hybrid-Cloud-Bereitstellungen, bei denen Dataproc-Cluster mit Ressourcen in einem lokalen Rechenzentrum interagieren müssen, ist VPC-Peering unerlässlich, um Ihr lokales Netzwerk über Cloud VPN oder Cloud Interconnect mit Ihrem Google Cloud VPC Netzwerk zu verbinden.
Fehlerbehebung bei Private Service Connect
Wenn Ihr Dataproc-Cluster mit Private Service Connect (ohne VPC-Peering) nicht erstellt werden kann oder Verbindungsprobleme auftreten, führen Sie die folgenden Schritte aus, um das Problem zu beheben:
Erforderlichen API-Zugriff bestätigen:
- Prüfen Sie, ob alle erforderlichen Google APIs in Ihrem Google Cloud Projekt aktiviert sind.
Konfiguration des Private Service Connect-Endpunkts prüfen:
Prüfen Sie, ob ein Private Service Connect-Endpunkt korrekt konfiguriert ist für alle Google APIs, die der Cluster benötigt, z. B.
dataproc.googleapis.com,storage.googleapis.com,logging.googleapis.com,bigquery.googleapis.com,compute.googleapis.com.Verwenden Sie Tools wie
digodernslookupvon einer VM im VPC Subnetz, um zu bestätigen, dass die DNS-Einträge für die erforderlichen Dienste mithilfe des Private Service Connect-Endpunkts korrekt zu den privaten IP-Adressen in Ihrem VPC-Netzwerk aufgelöst werden.
Firewallregeln prüfen:
Prüfen Sie, ob Firewallregeln in Ihrem VPC-Netzwerk ausgehende Verbindungen von Dataproc-Clusterinstanzen zu Private Service Connect-Endpunkten zulassen.
Wenn Sie eine freigegebene VPC verwenden, prüfen Sie, ob die entsprechenden Firewallregeln im Hostprojekt konfiguriert sind.
Dataproc-Clusterlogs prüfen:
- Prüfen Sie die Clustererstellungslogs in Logging auf netzwerkbezogene Fehler wie
connection refused,timeoutoder "unreachable host. Diese Fehler können auf eine fehlende Route oder eine falsche Firewallregel hinweisen. Prüfen Sie die Logs der seriellen Konsole von Clusterinstanzen.
- Prüfen Sie die Clustererstellungslogs in Logging auf netzwerkbezogene Fehler wie
Bedarf an VPC-Peering prüfen:
Wenn Ihr Dataproc-Cluster aufgrund von Arbeitslastabhängigkeiten eine Verbindung zu Ressourcen benötigt, die nicht von Google verwaltet werden, z. B. Datenbanken in einem separaten VPC-Netzwerk und lokalen Servern, richten Sie VPC Peering ein.
Prüfen Sie die Netzwerkanforderungen der Google Cloud Dienste, mit denen Ihr Dataproc-Cluster interagiert wird. Für einige Dienste gelten möglicherweise bestimmte Peering-Anforderungen, auch wenn sie mit Private Service Connect verwendet werden.
Best Practices befolgen
Umfassende Planung der Netzwerkarchitektur: Bevor Sie Dataproc mit Private Service Connect bereitstellen, müssen Sie Ihre Netzwerkarchitektur sorgfältig planen und alle impliziten und expliziten Abhängigkeiten sowie Datenflusspfade berücksichtigen. Dazu gehört, alle Google APIs zu identifizieren, mit denen Ihr Dataproc-Cluster während der Bereitstellung und des Betriebs interagiert.
Verbindung testen: Testen Sie die Netzwerkverbindung von Ihrem Dataproc-Cluster zu allen erforderlichen Diensten und Datenquellen während der Entwicklungs- und Staging-Phasen gründlich.
Network Intelligence Center verwenden: Verwenden Sie die Tools von Google Cloud Network Intelligence Center wie Konnektivitätstests, um Probleme mit der Netzwerkverbindung zu diagnostizieren und zu beheben.
Nächste Schritte
- Weitere Informationen zu Private Service Connect.
- Informationen zum VPC-Netzwerk-Peering
- Informationen zur Netzwerkkonfiguration von Dataproc-Clustern networking configuration