Schritt 1: Arbeitslasten einrichten
Auf dieser Seite werden Sie durch den ersten Schritt der Einrichtung Ihrer Datengrundlage geführt, dem Kern des Cortex Framework. Die Datengrundlage basiert auf BigQuery-Speicher und organisiert Ihre eingehenden Daten aus verschiedenen Quellen. Diese organisierten Daten vereinfachen die Analyse und ihre Anwendung bei der KI-Entwicklung.
Datenintegration einrichten
Definieren Sie zunächst einige wichtige Parameter, die als Vorlage für die effiziente Organisation und Nutzung Ihrer Daten im Cortex Framework dienen. Beachten Sie, dass diese Parameter je nach Arbeitslast, ausgewähltem Datenfluss und Integrationsmechanismus variieren können. Das folgende Diagramm bietet eine Übersicht über die Datenintegration in der Cortex Framework Data Foundation:

Definieren Sie die folgenden Parameter vor der Bereitstellung, um Daten im Cortex Framework effizient und effektiv zu nutzen.
Projekte
- Quellprojekt:Projekt, in dem sich Ihre Rohdaten befinden. Sie benötigen mindestens ein Google Cloud Projekt, um Daten zu speichern und den Bereitstellungsprozess auszuführen.
- Zielprojekt (optional) : Projekt, in dem die Cortex Framework Data Foundation ihre verarbeiteten Datenmodelle speichert. Dies kann je nach Bedarf dasselbe wie das Quellprojekt oder ein anderes Projekt sein.
Weitere Informationen zum Erstellen eines Projekts und zum Prüfen, ob Sie die erforderlichen Rollen für diese Projekte haben, finden Sie im Abschnitt Voraussetzungen.
Datenmodell
- Modelle bereitstellen:Wählen Sie aus, ob Sie Modelle für alle Arbeitslasten oder nur für eine Reihe von Modellen (z. B. SAP, Salesforce und Meta) bereitstellen müssen. Weitere Informationen finden Sie unter verfügbare Datenquellen und Arbeitslasten.
BigQuery-Datasets
- Quelldataset (Rohdaten) : BigQuery-Dataset, in das die Quelldaten repliziert werden oder in dem die Testdaten erstellt werden. Es wird empfohlen, separate Datasets für jede Datenquelle zu verwenden. Beispiel: ein Dataset mit Rohdaten für SAP und ein Dataset mit Rohdaten für Google Ads. Dieses Dataset gehört zum Quellprojekt.
- CDC-Dataset:BigQuery-Dataset, in dem die mit CDC verarbeiteten Daten die neuesten verfügbaren Datensätze enthalten. Bei einigen Arbeitslasten ist die Zuordnung von Feldnamen möglich. Es wird empfohlen, für jede Quelle ein separates CDC-Dataset zu verwenden. Beispiel: ein CDC-Dataset für SAP und ein CDC-Dataset für Salesforce. Dieses Dataset gehört zum Quellprojekt.
- Ziel-Dataset für Berichte:BigQuery-Dataset, in dem die vordefinierten Datenmodelle der Data Foundation bereitgestellt werden. Wir empfehlen, für jede Quelle ein separates Dataset für Berichte zu verwenden. Beispiel: ein Dataset für Berichte für SAP und ein Dataset für Berichte für Salesforce. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.
- K9-Dataset für die Vorverarbeitung:BigQuery-Dataset, in dem wiederverwendbare DAG-Komponenten für mehrere Arbeitslasten, z. B.
time-Dimensionen, bereitgestellt werden können. Arbeitslasten sind von diesem Dataset abhängig, sofern sie nicht geändert werden. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Quellprojekt. - K9-Dataset für die Nachverarbeitung:BigQuery-Dataset, in dem Berichte für mehrere Arbeitslasten und zusätzliche DAGs für externe Quellen (z. B. die Aufnahme von Google Trends) bereitgestellt werden können. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.
Optional: Beispieldaten generieren
Cortex Framework kann Beispieldaten und ‑tabellen für Sie generieren, wenn Sie keinen Zugriff auf Ihre eigenen Daten oder Replikationstools zum Einrichten von Daten haben oder wenn Sie nur sehen möchten, wie Cortex Framework funktioniert. Sie müssen jedoch die CDC- und Rohdaten-Datasets im Voraus erstellen und identifizieren.
Erstellen Sie BigQuery-Datasets für Rohdaten und CDC pro Datenquelle anhand der folgenden Anleitung.
Console
Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Maximieren Sie die Option Aktionen und klicken Sie auf Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie als Dataset-ID einen eindeutigen Dataset-Namen ein.
Wählen Sie unter Standorttyp einen geografischen Standort für das Dataset aus. Nach der Erstellung des Datasets kann der Standort nicht mehr geändert werden.
Optional : Weitere Informationen zu den Anpassungsdetails für Ihr Dataset finden Sie unter Datasets erstellen: Console.
Klicken Sie auf Dataset erstellen.
BigQuery
Erstellen Sie ein neues Dataset für Rohdaten, indem Sie den folgenden Befehl kopieren:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAWErsetzen Sie Folgendes:
LOCATIONmit dem Standort des Datasets.SOURCE_PROJECTdurch Ihre Quellprojekt-ID.DATASET_RAWdurch den Namen Ihres Datasets für Rohdaten. Beispiel:CORTEX_SFDC_RAW.
Erstellen Sie ein neues Dataset für CDC-Daten, indem Sie den folgenden Befehl kopieren:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDCErsetzen Sie Folgendes:
LOCATIONmit dem Standort des Datasets.SOURCE_PROJECTdurch Ihre Quellprojekt-ID.DATASET_CDCdurch den Namen Ihres Datasets für CDC-Daten. Beispiel:CORTEX_SFDC_CDC.
Bestätigen Sie mit dem folgenden Befehl, dass die Datasets erstellt wurden:
bq lsOptional : Weitere Informationen zum Erstellen von Datasets finden Sie unter Datasets erstellen.
Nächste Schritte
Nachdem Sie diesen Schritt abgeschlossen haben, fahren Sie mit den folgenden Bereitstellungsschritten fort:
- Arbeitslasten einrichten (diese Seite).
- Repository klonen.
- Integrationsmechanismus festlegen.
- Komponenten einrichten.
- Bereitstellung konfigurieren.
- Bereitstellung ausführen.