Externe Datasets konfigurieren

Auf dieser Seite wird ein optionaler Schritt zum Konfigurieren externer Datasets für die Data Foundation-Bereitstellung des Cortex Framework beschrieben. Für einige erweiterte Anwendungsfälle sind möglicherweise externe Datasets erforderlich, um ein unternehmensweites Referenzsystem zu ergänzen. Zusätzlich zu externen Daten, die über die BigQuery-Freigabe (früher Analytics Hub) genutzt werden, sind für einige Datasets möglicherweise benutzerdefinierte oder angepasste Methoden erforderlich, um Daten aufzunehmen und mit den Berichtsmodellen zu verknüpfen.

Wenn Sie die folgenden externen Datasets aktivieren möchten, legen Sie k9.deployDataset auf True fest, damit das Dataset bereitgestellt wird.

Konfigurieren Sie die gerichteten azyklischen Graphen (Directed Acyclic Graphs, DAGs) für die unterstützten externen Datasets so:

  1. Feiertagskalender: Dieser DAG ruft die besonderen Termine aus PyPi Holidays ab.

    1. Passen Sie die Liste der Länder, die Liste der Jahre sowie andere DAG-Parameter an um Feiertage in holiday_calendar.iniabzurufen.
  2. Trends: Dieser DAG ruft Interesse im Zeitverlauf für eine bestimmte Gruppe von Begriffen aus Google Suche-Trends ab. Die Begriffe können in trends.ini konfiguriert werden.

    1. Passen Sie nach der ersten Ausführung start_date in trends.ini an 'today 7-d' an.
    2. Machen Sie sich mit den Ergebnissen der verschiedenen Begriffe vertraut, um Parameter zu optimieren.
    3. Wir empfehlen, große Listen auf mehrere Kopien dieses DAG zu verteilen, die zu unterschiedlichen Zeiten ausgeführt werden.
    4. Weitere Informationen zur zugrunde liegenden Bibliothek finden Sie unter Pytrends.
  3. Wetter: Standardmäßig verwendet dieser DAG das öffentlich verfügbare Test-Dataset BigQuery-public-data.geo_openstreetmap.planet_layers. Die Abfrage basiert auch auf einem NOAA-Dataset, das nur verfügbar ist über die Freigabe: noaa_global_forecast_system.

    Dieses Dataset muss in derselben Region wie die anderen Datasets erstellt werden, bevor die Bereitstellung ausgeführt wird. Wenn die Datasets in Ihrer Region nicht verfügbar sind, können Sie die folgenden Anweisungen ausführen, um die Daten in die ausgewählte Region zu übertragen:

    1. Rufen Sie die Seite Freigabe (Analytics Hub) auf.
    2. Klicken Sie auf Einträge suchen.
    3. Suchen Sie nach NOAA Global Forecast System.
    4. Klicken Sie auf Abonnieren.
    5. Behalten Sie bei Aufforderung noaa_global_forecast_system als Namen des Datasets bei. Passen Sie bei Bedarf den Namen des Datasets und der Tabelle in den FROM-Klauseln in weather_daily.sql an.
    6. Wiederholen Sie die Suche nach dem Eintrag für das Dataset OpenStreetMap Public Dataset.
    7. Passen Sie die FROM-Klauseln mit BigQuery-public-data.geo_openstreetmap.planet_layers in postcode.sql an.
  4. Nachhaltigkeits- und ESG-Analysen: Das Cortex Framework kombiniert Leistungsdaten von SAP-Lieferanten mit erweiterten ESG-Analysen, um die Lieferleistung, Nachhaltigkeit und Risiken in globalen Abläufen ganzheitlicher zu vergleichen. Weitere Informationen finden Sie in der Datenquelle von Dun & Bradstreet.

Allgemeines

  • Die Freigabe wird nur an Standorten in der EU und den USA unterstützt. Einige Datasets wie NOAA Global Forecast sind nur an einem einzigen Standort mit mehreren Regionen verfügbar.

    Wenn Sie auf einen anderen Standort abzielen als den für das erforderliche Dataset verfügbaren Standort, empfehlen wir, eine geplante Abfrage zu erstellen, um die neuen Datensätze aus dem mit der Freigabe verknüpften Dataset zu kopieren. Anschließend können Sie einen Übertragungsdienst verwenden, um diese neuen Datensätze in ein Dataset zu kopieren, das sich am selben Standort oder in derselben Region wie der Rest Ihrer Bereitstellung befindet. Anschließend müssen Sie die SQL-Dateien anpassen.

  • Bevor Sie diese DAGs in Managed Airflow kopieren, fügen Sie die erforderlichen Python-Module als Abhängigkeiten hinzu:

    Required modules:
    pytrends~=4.9.2
    holidays