Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten. Mit der Cloud Data Fusion-Web-UI können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann in verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können in wenigen Minuten anfangen, Cloud Data Fusion kennenzulernen.

Cloud Data Fusion kennenlernen

In den folgenden Abschnitten werden die Hauptkomponenten von Cloud Data Fusion erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Das Mandantenprojekt übernimmt alle Konfigurationen für Netzwerk und Firewall vom Kundenprojekt.

Cloud Data Fusion: Console

Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, besteht aus einer Reihe von API-Vorgängen und einer Weboberfläche, die sich mit der Cloud Data Fusion-Instanz selbst befasst, z. B. mit dem Erstellen, Löschen, Neustarten und Aktualisieren.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebene bezeichnet, ist eine Reihe von REST API- und Web-UI-Vorgängen, die sich mit dem Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten befassen.

Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanz 
  • Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Google Cloud -Konsole eine Cloud Data Fusion-Instanz.
  • Sie können mehrere Instanzen in einem einzelnen Google Cloud -Projekt erstellen und die Google Cloud -Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.
  • Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.
  • Jede Cloud Data Fusion-Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einer einzelnen Instanz werden die Daten und Metadaten einer Entität in einem Namespace unabhängig von einem anderen Namespace gespeichert.
Pipeline 
  • Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
  • Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
  • Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs ausdrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind.
Pipelineknoten 
  • Auf der Seite „Studio“ der Cloud Data Fusion-Weboberfläche werden Pipelines als eine Reihe von Knoten dargestellt, die in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet sind und einen unidirektionalen Fluss bilden.
  • Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und anderen Knoten können Sie Datenpipelines in der Web-UI von Cloud Data Fusion entwickeln.
Plug-in 
  • Plug-ins sind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können.
  • Cloud Data Fusion stellt Plug-ins für Quellen, Transformationen, Aggregate, Senken, Fehlererfassung, Benachrichtigungsveröffentlichung, Aktionen sowie Aktionen nach der Ausführung bereit.
  • Ein Plug-in wird manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
  • Informationen zum Entdecken und Zugreifen auf die beliebten Cloud Data Fusion-Plug-ins finden Sie unter Cloud Data Fusion-Plug-ins.
Hub  Klicken Sie in der Cloud Data Fusion-Web-UI auf Hub, um Plug-ins, Beispielpipelines und andere Integrationen aufzurufen. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist sie im Hub in allen kompatiblen Instanzen sichtbar. Dies gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Pipeline-Vorschau 
  • Mit Cloud Data Fusion Studio können Sie die Genauigkeit des Pipeline-Designs mit Vorschau für die Teilmenge der Daten testen.
  • Eine Pipeline in der Vorschau wird im Mandantenprojekt ausgeführt.
Pipelineausführung 
  • Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines.
  • Cloud Data Fusion unterstützt Managed Service for Apache Spark als Ausführungsumgebung.
  • Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Managed Service for Apache Spark-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.
  • Wenn Sie Ihre Managed Service for Apache Spark-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Managed Service for Apache Spark-Clustern ausführen.
Berechnungsprofil 
  • Ein Compute-Profil gibt an, wie und wo eine Pipeline ausgeführt wird. In einem Profil sind sämtliche Informationen zusammengefasst, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind.
  • Ein Rechenprofil enthält beispielsweise Folgendes:
    • Bereitsteller für die Ausführung
    • Ressourcen (Arbeitsspeicher und CPU)
    • Minimale und maximale Knotenanzahl
    • Andere Werte
  • Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
  • Das standardmäßige Compute-Profil von Cloud Data Fusion ist „Autoscaling“.
Wiederverwendbare Pipeline 
  • Mit wiederverwendbaren Datenpipelines in Cloud Data Fusion kann eine einzelne Pipeline erstellt werden, mit der ein Datenintegrationsmuster auf eine Vielzahl von Anwendungsfällen und Datasets angewendet werden kann.
  • Wiederverwendbare Pipelines lassen sich besser verwalten, da die meisten Konfigurationen einer Pipeline zur Ausführungszeit festgelegt werden, anstatt sie zur Designzeit fest zu codieren.
Trigger 
  • Cloud Data Fusion unterstützt das Erstellen eines Triggers für eine Datenpipeline (die nachgelagerte Pipeline), damit sie nach Abschluss einer oder mehrerer verschiedener Pipelines (vorgelagerte Pipelines) ausgeführt wird. Sie wählen aus, wann die nachgelagerte Pipeline ausgeführt wird, z. B. bei Erfolg, Fehler, Stopp oder einer beliebigen Kombination der vorgelagerten Pipeline.
  • Trigger sind in den folgenden Fällen nützlich:
    • Bereinigen Ihrer Daten und für mehrere nachgelagerte Pipelines zur Verwendung zur Verfügung stellen.
    • Informationen wie Laufzeitargumente und Plug-in-Konfigurationen zwischen Pipelines freigeben. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
    • Eine Reihe dynamischer Pipelines haben, die mit den Daten von Stunde, Tag, Woche oder Monat ausgeführt werden können, anstelle einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Cloud Data Fusion-Ressourcen:

Nächste Schritte