Schritt 1: Arbeitslasten einrichten

Auf dieser Seite werden Sie durch den ersten Schritt der Einrichtung Ihrer Datengrundlage geführt, dem Kern des Cortex Framework. Die Datengrundlage basiert auf BigQuery-Speicher und organisiert Ihre eingehenden Daten aus verschiedenen Quellen. Diese organisierten Daten vereinfachen die Analyse und ihre Anwendung bei der KI-Entwicklung.

Datenintegration einrichten

Definieren Sie zunächst einige wichtige Parameter, die als Vorlage für die effiziente Organisation und Nutzung Ihrer Daten im Cortex Framework dienen. Beachten Sie, dass diese Parameter je nach Arbeitslast, ausgewähltem Datenfluss und Integrationsmechanismus variieren können. Das folgende Diagramm bietet eine Übersicht über die Datenintegration in der Cortex Framework Data Foundation:

Struktur für Parameter

Abbildung 1. Cortex Framework Data Foundation: Übersicht über die Datenintegration.

Definieren Sie die folgenden Parameter vor der Bereitstellung, um Daten im Cortex Framework effizient und effektiv zu nutzen.

Projekte

Quellprojekt:Projekt, in dem sich Ihre Rohdaten befinden. Sie benötigen mindestens ein Google Cloud Projekt, um Daten zu speichern und den Bereitstellungsprozess auszuführen.
Zielprojekt (optional) : Projekt, in dem die Cortex Framework Data Foundation ihre verarbeiteten Datenmodelle speichert. Dies kann je nach Bedarf dasselbe wie das Quellprojekt oder ein anderes Projekt sein.

Weitere Informationen zum Erstellen eines Projekts und zum Prüfen, ob Sie die erforderlichen Rollen für diese Projekte haben, finden Sie im Abschnitt Voraussetzungen.

Datenmodell

Modelle bereitstellen:Wählen Sie aus, ob Sie Modelle für alle Arbeitslasten oder nur für eine Reihe von Modellen (z. B. SAP, Salesforce und Meta) bereitstellen müssen. Weitere Informationen finden Sie unter verfügbare Datenquellen und Arbeitslasten.

BigQuery-Datasets

Quelldataset (Rohdaten) : BigQuery-Dataset, in das die Quelldaten repliziert werden oder in dem die Testdaten erstellt werden. Es wird empfohlen, separate Datasets für jede Datenquelle zu verwenden. Beispiel: ein Dataset mit Rohdaten für SAP und ein Dataset mit Rohdaten für Google Ads. Dieses Dataset gehört zum Quellprojekt.
CDC-Dataset:BigQuery-Dataset, in dem die mit CDC verarbeiteten Daten die neuesten verfügbaren Datensätze enthalten. Bei einigen Arbeitslasten ist die Zuordnung von Feldnamen möglich. Es wird empfohlen, für jede Quelle ein separates CDC-Dataset zu verwenden. Beispiel: ein CDC-Dataset für SAP und ein CDC-Dataset für Salesforce. Dieses Dataset gehört zum Quellprojekt.
Ziel-Dataset für Berichte:BigQuery-Dataset, in dem die vordefinierten Datenmodelle der Data Foundation bereitgestellt werden. Wir empfehlen, für jede Quelle ein separates Dataset für Berichte zu verwenden. Beispiel: ein Dataset für Berichte für SAP und ein Dataset für Berichte für Salesforce. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.
K9-Dataset für die Vorverarbeitung:BigQuery-Dataset, in dem wiederverwendbare DAG-Komponenten für mehrere Arbeitslasten, z. B. time-Dimensionen, bereitgestellt werden können. Arbeitslasten sind von diesem Dataset abhängig, sofern sie nicht geändert werden. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Quellprojekt.
K9-Dataset für die Nachverarbeitung:BigQuery-Dataset, in dem Berichte für mehrere Arbeitslasten und zusätzliche DAGs für externe Quellen (z. B. die Aufnahme von Google Trends) bereitgestellt werden können. Dieses Dataset wird während der Bereitstellung automatisch erstellt, wenn es nicht vorhanden ist. Dieses Dataset gehört zum Zielprojekt.

Optional: Beispieldaten generieren

Cortex Framework kann Beispieldaten und ‑tabellen für Sie generieren, wenn Sie keinen Zugriff auf Ihre eigenen Daten oder Replikationstools zum Einrichten von Daten haben oder wenn Sie nur sehen möchten, wie Cortex Framework funktioniert. Sie müssen jedoch die CDC- und Rohdaten-Datasets im Voraus erstellen und identifizieren.

Erstellen Sie BigQuery-Datasets für Rohdaten und CDC pro Datenquelle anhand der folgenden Anleitung.

Console

Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.

Zur Seite "BigQuery"
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Maximieren Sie die Option Aktionen und klicken Sie auf Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie als Dataset-ID einen eindeutigen Dataset-Namen ein.
- Wählen Sie unter Standorttyp einen geografischen Standort für das Dataset aus. Nach der Erstellung des Datasets kann der Standort nicht mehr geändert werden.
  
  Hinweis: Wenn Sie EU oder eine Region in der EU als Dataset-Standort auswählen, werden Ihre grundlegenden Cortex Framework-Kundendaten in der EU gespeichert. Eine Definition grundlegender Cortex Framework-Kundendaten finden Sie in den dienstspezifischen Nutzungsbedingungen.
- Optional : Weitere Informationen zu den Anpassungsdetails für Ihr Dataset finden Sie unter Datasets erstellen: Console.
Klicken Sie auf Dataset erstellen.

BigQuery

Erstellen Sie ein neues Dataset für Rohdaten, indem Sie den folgenden Befehl kopieren:
```
   bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
```
Ersetzen Sie Folgendes:
- LOCATION mit dem Standort des Datasets.
- SOURCE_PROJECT durch Ihre Quellprojekt-ID.
- DATASET_RAW durch den Namen Ihres Datasets für Rohdaten. Beispiel: CORTEX_SFDC_RAW.
Erstellen Sie ein neues Dataset für CDC-Daten, indem Sie den folgenden Befehl kopieren:
```
  bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
```
Ersetzen Sie Folgendes:
- LOCATION mit dem Standort des Datasets.
- SOURCE_PROJECT durch Ihre Quellprojekt-ID.
- DATASET_CDC durch den Namen Ihres Datasets für CDC-Daten. Beispiel: CORTEX_SFDC_CDC.
Bestätigen Sie mit dem folgenden Befehl, dass die Datasets erstellt wurden:
```
    bq ls
```
Optional : Weitere Informationen zum Erstellen von Datasets finden Sie unter Datasets erstellen.

Nächste Schritte

Nachdem Sie diesen Schritt abgeschlossen haben, fahren Sie mit den folgenden Bereitstellungsschritten fort: