Einführung in die Cloud Data Fusion-Netzwerke

Diese Seite enthält Hintergrundinformationen zum Herstellen einer Verbindung zu Ihren Datenquellen von öffentlichen oder privaten Cloud Data Fusion-Instanzen aus Design- und Ausführungsumgebungen.

Hinweis

Für die Verwendung von Netzwerken in Cloud Data Fusion sind grundlegende Kenntnisse der folgenden Themen erforderlich:

Mandantenprojekt

Cloud Data Fusion erstellt ein Mandantenprojekt, das die Ressourcen und Dienste enthält, die zum Verwalten von Pipelines in Ihrem Namen erforderlich sind, z. B. wenn Pipelines in den Managed Service for Apache Spark-Clustern ausgeführt werden, die sich in Ihrem Kundenprojekt befinden.

Das Mandantenprojekt ist für Sie nicht direkt sichtbar. Wenn Sie jedoch eine private Instanz erstellen, verwenden Sie den Namen des Projekts, um VPC-Peering einzurichten. Jede private Instanz im Mandantenprojekt hat ein eigenes VPC-Netzwerk und Subnetz.

Das Projekt kann mehrere Cloud Data Fusion-Instanzen haben. Sie verwalten die Ressourcen und Dienste, die es enthält, wenn Sie über die Cloud Data Fusion-UI oder die Google Cloud CLI auf eine Instanz zugreifen.
Weitere Informationen finden Sie in der Service Infrastructure-Dokumentation zu Mandantenprojekten.

Kundenprojekt

Der Kunde erstellt und besitzt dieses Projekt. Standardmäßig erstellt Cloud Data Fusion in diesem Projekt einen sitzungsspezifischen Managed Service for Apache Spark-Cluster, um Ihre Pipelines auszuführen.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion, in der Sie Pipelines entwerfen und ausführen. Sie können mehrere Instanzen in einem einzelnen Projekt erstellen und die Google Cloud Region angeben, in der die Cloud Data Fusion Instanzen erstellt werden sollen. Je nach Anforderungen und Kostenbeschränkungen können Sie eine Instanz erstellen, die die Developer-, Basic- oder Enterprise Version von Cloud Data Fusion verwendet. Jede Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.

Netzwerkdiagramm

Die folgenden Diagramme zeigen die Verbindungen, wenn Sie Datenpipelines erstellen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.

Informationen zu Diagrammen zur Steuerung des ausgehenden Traffics in einer privaten Instanz und zum Herstellen einer Verbindung zu einer öffentlichen Quelle finden Sie unter Ausgehenden Traffic in einer privaten Instanz steuern und Verbindung mit einer öffentlichen Quelle herstellen.

Pipelineentwurf und -ausführung

Cloud Data Fusion bietet eine Trennung von Design- und Ausführungsumgebungen, sodass Sie eine Pipeline einmal entwerfen und dann in mehreren Umgebungen ausführen können. Die Designumgebung befindet sich im Mandantenprojekt, während sich die Ausführungsumgebung in einem oder mehreren Kundenprojekten befindet.

Beispiel: Sie entwerfen Ihre Pipeline mit Cloud Data Fusion-Diensten wie Wrangler und Vorschau. Diese Dienste werden im Mandantenprojekt ausgeführt, in dem der Zugriff auf Daten von der von Google verwalteten Rolle Cloud Data Fusion-Dienst-Agent gesteuert wird. Anschließend führen Sie die Pipeline in Ihrem Kundenprojekt aus, damit sie Ihren Managed Service for Apache Spark-Cluster verwendet. Im Kundenprojekt wird der Zugriff auf Daten vom Compute Engine-Standarddienstkonto gesteuert. Sie können Ihr Projekt für die Verwendung eines benutzerdefinierten Dienstkontos konfigurieren.

Weitere Informationen zum Konfigurieren von Dienstkonten finden Sie unter Cloud Data Fusion-Dienstkonten.

Designumgebung

Wenn Sie in Ihrem Kundenprojekt eine Cloud Data Fusion-Instanz erstellen, erstellt Cloud Data Fusion automatisch ein separates, von Google verwaltetes Mandantenprojekt, um die Dienste auszuführen, die zum Verwalten des Lebenszyklus von Pipelines und Metadaten, der Cloud Data Fusion-UI und Designtools wie Vorschau und Wrangler erforderlich sind.

DNS-Auflösung in Cloud Data Fusion

Verwenden Sie DNS-Peering (verfügbar ab Cloud Data Fusion 6.7.0), um Domainnamen in Ihrer Designumgebung aufzulösen, wenn Sie die Daten bearbeiten und in der Vorschau ansehen, die Sie übertragen Google Cloud. So können Sie Domain- oder Hostnamen für Quellen und Senken verwenden, die Sie nicht so oft neu konfigurieren müssen wie IP-Adressen.

Die DNS-Auflösung wird in Ihrer Designumgebung in Cloud Data Fusion empfohlen, wenn Sie Verbindungen testen und Pipelines in der Vorschau ansehen, die Domainnamen von lokalen oder anderen Servern (z. B. Datenbanken oder FTP-Servern) in einem privaten VPC-Netzwerk verwenden.

Weitere Informationen finden Sie unter DNS-Peering und Cloud DNS-Weiterleitung.

Ausführungsumgebung

Nachdem Sie Ihre Pipeline in einer Instanz überprüft und bereitgestellt haben, wird sie entweder manuell oder nach einem Zeitplan bzw. einem Trigger für den Pipelinestatus ausgeführt.

Unabhängig davon, ob die Ausführungsumgebung von Cloud Data Fusion oder dem Kunden bereitgestellt und verwaltet wird, ist die Umgebung in Ihrem Kundenprojekt vorhanden.

Öffentliche Instanzen (Standard)

Am einfachsten stellen Sie eine Cloud Data Fusion-Instanz bereit, indem Sie eine öffentliche Instanz erstellen. Es dient als Ausgangspunkt und bietet Zugriff auf externe Endpunkte im öffentlichen Internet.

Eine öffentliche Instanz in Cloud Data Fusion verwendet das Standard-VPC-Netzwerk in Ihrem Projekt.

Das Standard-VPC-Netzwerk hat Folgendes:

  • Automatisch generierte Subnetze für jede Region
  • Tabellen weiterleiten
  • Firewallregeln für die Kommunikation zwischen Ihren Rechenressourcen

Netzwerke über Regionen hinweg

Wenn Sie ein neues Projekt erstellen, hat das Standard-VPC-Netzwerk den Vorteil, dass es ein Subnetz pro Region automatisch mit einem vordefinierten IP-Adressbereich befüllt, der als CIDR-Block ausgedrückt wird. Die IP-Adressbereiche beginnen in den Google Cloud globalen Regionen mit 10.128.0.0/20, 10.132.0.0/20.

Damit Ihre Computing-Ressourcen regionenübergreifend miteinander verbunden sind, legt das Standard-VPC-Netzwerk die standardmäßigen lokalen Routen für jedes Subnetz fest. Durch das Einrichten der Standardroute zum Internet (0.0.0.0/0) erhalten Sie Zugriff auf das Internet und erfassen den nicht weitergeleiteten Netzwerktraffic.

Firewallregeln

Das Standard-VPC-Netzwerk bietet eine Reihe von Firewallregeln:

Standard Beschreibung
icmp standardmäßig zulassen icmp-Protokoll für Quelle 0.0.0.0/0 aktivieren
Intern standardmäßig zulassen tcp:0-65535; udp:0-65535; icmp für die Quelle 10.128.0.0/9 aktivieren, die mindestens 10.128.0.1 bis maximal 10.255.255.254 IP-Adressen umfasst.
standardmäßig rdp zulassen tcp:3389 für Quelle 0.0.0.0/0 aktivieren
ssh standardmäßig zulassen tcp:22 für Quelle 0.0.0.0/0 aktivieren

Diese Standardeinstellungen für VPC-Netzwerk minimieren die Voraussetzungen für die Einrichtung von Cloud-Diensten, einschließlich Cloud Data Fusion. Aufgrund von Bedenken hinsichtlich der Netzwerksicherheit können Sie das Standard-VPC-Netzwerk häufig nicht für Geschäftsvorgänge verwenden. Ohne das standardmäßige VPC-Netzwerk können Sie keine öffentliche Cloud Data Fusion-Instanz erstellen. Erstellen Sie stattdessen eine private Instanz.

Das Standard-VPC-Netzwerk gewährt keinen offenen Zugriff auf Ressourcen. Stattdessen steuert Identity and Access Management (IAM) den Zugriff:

  • Für die Anmeldung bei Google Cloudist eine validierte Identität erforderlich.
  • Nach der Anmeldung benötigen Sie eine explizite Berechtigung (z. B. die Betrachterrolle), um Dienste aufzurufen Google Cloud .

Private Instanzen

Bei einigen Organisationen müssen alle ihre Produktionssysteme von öffentlichen IP-Adressen isoliert sein. Eine private Cloud Data Fusion-Instanz erfüllt diese Anforderung in allen Arten von VPC-Netzwerkeinstellungen.

Private Service Connect in Cloud Data Fusion

Cloud Data Fusion-Instanzen müssen möglicherweise eine Verbindung zu Ressourcen herstellen, die sich lokal, in Google Cloudoder bei anderen Cloud-Anbietern befinden. Wenn Sie Cloud Data Fusion mit internen IP-Adressen verwenden, werden Verbindungen zu externen Ressourcen über das VPC-Netzwerk in Ihrem Google Cloud Projekt hergestellt. Traffic über das Netzwerk wird nicht über das öffentliche Internet geleitet. Wenn Cloud Data Fusion über VPC-Netzwerk-Peering Zugriff auf Ihre VPC erhält, gibt es Einschränkungen, die bei der Verwendung von großen Netzwerken deutlich werden.

Mit Private Service Connect-Schnittstellen stellt Cloud Data Fusion eine Verbindung zu Ihrer VPC her, ohne VPC-Netzwerk-Peering zu verwenden. Die Private Service Connect-Schnittstelle ist eine Art von Private Service Connect mit der Cloud Data Fusion private und sichere Verbindungen zu VPC-Netzwerken von Nutzern initiieren kann. Dies bietet nicht nur die Flexibilität und den einfachen Zugriff (wie VPC-Netzwerk-Peering), sondern auch die explizite Autorisierung und die nutzerseitige Steuerung, die Private Service Connect bietet. Weitere Informationen finden Sie unter Private Instanz mit Private Service Connect erstellen.

Zugriff auf Daten in Design- und Ausführungsumgebungen

In einer öffentlichen Instanz erfolgt die Netzwerkkommunikation über das offene Internet, was für kritische Umgebungen nicht empfohlen wird. Für den sicheren Zugriff auf Ihre Datenquellen führen Sie Ihre Pipelines immer von einer privaten Instanz in Ihrer Ausführungsumgebung aus.

Zugriff auf Quellen

Beim Zugriff auf Datenquellen, öffentliche und private Instanzen:

  • Ausgehende Aufrufe von Google Cloud APIs mit privater Google-Zugriff ausführen
  • Mit einer Ausführungsumgebung (Managed Service for Apache Spark) über VPC-Peering kommunizieren

In der folgenden Tabelle werden öffentliche und private Instanzen während des Entwurfs und der Ausführung für verschiedene Datenquellen verglichen:

Datenquelle Öffentliche Cloud Data Fusion-Instanz
(Entwicklungszeit)
Öffentlicher Cloud Data Fusion Managed Service for Apache Spark
(Ausführung)
Private Cloud Data Fusion-Instanz
(Entwicklungszeit)
Privater Cloud Data Fusion Managed Service for Apache Spark
(Ausführung)
Google Cloud Quelle
(nachdem Sie Berechtigungen erteilt und Firewall regeln festgelegt haben)
Lokale Quelle
(nach dem Einrichten von VPN/Interconnect, Gewähren von Berechtigungen und Festlegen von Firewallregeln)
Öffentliche Internetquelle
(nachdem Sie Berechtigungen erteilt und Firewall Regeln festgelegt haben)

Nächste Schritte