Schritt 3: Integrationsmechanismus festlegen

Auf dieser Seite wird der dritte Schritt zum Bereitstellen der Cortex Framework Data Foundation, dem Kern des Cortex Frameworks, beschrieben. In diesem Schritt konfigurieren Sie die Integration mit der ausgewählten Datenquelle. Wenn Sie Beispieldaten verwenden, überspringen Sie diesen Schritt.

Überblick über die Integration

Mit dem Cortex Framework können Sie Daten aus verschiedenen Quellen und anderen Plattformen zentralisieren. So wird eine zentrale Datenquelle für Ihre Daten geschaffen. Cortex Data Foundation wird auf unterschiedliche Weise in die einzelnen Datenquellen integriert. Die meisten folgen jedoch einem ähnlichen Verfahren:

  • Source-to-Raw-Ebene:Daten aus der Datenquelle werden mithilfe von APIs in das Roh-Dataset aufgenommen. Dies wird durch die Verwendung von Dataflow-Pipelines erreicht, die über Managed Airflow-DAGs ausgelöst werden.
  • Rohdatenschicht zur CDC-Schicht: Wenden Sie die CDC-Verarbeitung auf das Rohdatenset an und speichern Sie die Ausgabe im CDC-Dataset. Dies wird durch Managed Airflow-DAGs erreicht, in denen BigQuery-SQL-Anweisungen ausgeführt werden.
  • CDC-Ebene zur Berichtsebene:Erstellt endgültige Berichtstabellen aus CDC-Tabellen im Berichts-Dataset. Dies geschieht entweder durch das Erstellen von Laufzeitansichten auf CDC-Tabellen oder durch das Ausführen von Managed Airflow DAGs für materialisierte Daten in BigQuery-Tabellen – je nach Konfiguration. Weitere Informationen zur Konfiguration finden Sie unter Datei mit benutzerdefinierten Berichtseinstellungen.

In der Datei config.json werden die Einstellungen konfiguriert, die für die Verbindung mit Datenquellen zum Übertragen von Daten aus verschiedenen Arbeitslasten erforderlich sind. In den folgenden Ressourcen finden Sie die Integrationsoptionen für jede Datenquelle.

Weitere Informationen zu den Entity-Relationship-Diagrammen, die von den einzelnen Datenquellen unterstützt werden, finden Sie im Ordner docs im Repository „Cortex Framework Data Foundation“.

K9-Bereitstellung

Der K9-Deployer vereinfacht die Integration verschiedener Datenquellen. Der K9-Deployer ist ein vordefiniertes Dataset in der BigQuery-Umgebung, das für die Aufnahme, Verarbeitung und Modellierung von Komponenten zuständig ist, die für verschiedene Datenquellen wiederverwendet werden können.

Die Dimension time kann beispielsweise für alle Datenquellen wiederverwendet werden, in denen Tabellen Analysen auf Grundlage eines gregorianischen Kalenders enthalten müssen. Der K9-Deployer kombiniert externe Daten wie Wetter oder Google Trends mit anderen Datenquellen (z. B. SAP, Salesforce, Marketing). Dieses erweiterte Dataset ermöglicht detailliertere Statistiken und umfassendere Analysen.

Das folgende Diagramm zeigt den Datenfluss von verschiedenen Rohdatenquellen zu den verschiedenen Berichtsebenen:

K9-Datasets

Abbildung 1. K9-Datasets.

Im Diagramm enthält das Quellprojekt die Rohdaten aus den ausgewählten Datenquellen (SAP, Salesforce und Marketing). Das Zielprojekt enthält verarbeitete Daten, die aus dem CDC-Prozess (Change Data Capture) abgeleitet wurden.

Der K9-Vorverarbeitungsschritt wird ausgeführt, bevor alle Arbeitslasten mit der Bereitstellung beginnen. Die wiederverwendbaren Modelle sind also während der Bereitstellung verfügbar. In diesem Schritt werden Daten aus verschiedenen Quellen transformiert, um ein einheitliches und wiederverwendbares Dataset zu erstellen.

Die K9-Schritte für die Nachbearbeitung erfolgen, nachdem alle Arbeitslasten ihre Berichtsmodelle bereitgestellt haben, um die Berichterstellung für mehrere Arbeitslasten zu ermöglichen oder Modelle zu erweitern, damit sie die erforderlichen Abhängigkeiten in den einzelnen Berichtsdatasets finden.

K9-Bereitstellung konfigurieren

Konfigurieren Sie die gerichteten azyklischen Graphen (Directed Acyclic Graphs, DAGs) und Modelle, die in der K9-Manifestdatei generiert werden sollen.

Der K9-Vorverarbeitungsschritt ist wichtig, da er dafür sorgt, dass alle Arbeitslasten in der Datenpipeline Zugriff auf einheitlich vorbereitete Daten haben. So wird Redundanz verringert und die Datenkonsistenz sichergestellt.

Weitere Informationen zum Konfigurieren externer Datasets für K9 finden Sie unter Externe Datasets für K9 konfigurieren.

Nächste Schritte

Fahren Sie nach Abschluss dieses Schritts mit den folgenden Bereitstellungsschritten fort:

  1. Arbeitslasten einrichten:
  2. Repository klonen
  3. Integrationsmechanismus festlegen (diese Seite)
  4. Komponenten einrichten
  5. Bereitstellung konfigurieren
  6. Bereitstellung ausführen