הגדרה של מערכי נתונים חיצוניים

בדף הזה מוסבר על שלב אופציונלי להגדרת מערכי נתונים חיצוניים לפריסה של Data Foundation ב-Cortex Framework. במקרים מתקדמים מסוימים, יכול להיות שיהיה צורך במערכי נתונים חיצוניים כדי להשלים מערכת רשומות של ארגון. בנוסף לאוספי נתונים לשיתוף חיצוניים שנצרכים מBigQuery sharing (לשעבר Analytics Hub), יכול להיות שיהיה צורך בשיטות מותאמות אישית או בשיטות שנתפרו במיוחד כדי להטמיע מערכי נתונים מסוימים ולצרף אותם למודלים של הדיווח.

כדי להפעיל את מערכי הנתונים החיצוניים הבאים, צריך להגדיר את k9.deployDataset ל-True אם רוצים לפרוס את מערך הנתונים.

כדי להגדיר את הגרפים האציקליים המכוונים (DAG) עבור מערכי הנתונים החיצוניים הנתמכים, פועלים לפי השלבים הבאים:

  1. יומן חגים: ה-DAG הזה מאחזר את התאריכים המיוחדים מ-PyPi Holidays.

    1. משנים את רשימת המדינות, את רשימת השנים ופרמטרים אחרים של DAG כדי לאחזר חגים ב-holiday_calendar.ini.
  2. Trends: ה-DAG הזה מאחזר את ההתעניינות במונח חיפוש לאורך זמן עבור קבוצה ספציפית של מונחים מ-Google Trends. אפשר להגדיר את התנאים בtrends.ini.

    1. אחרי הרצה ראשונית, משנים את הערך של start_date ל-'today 7-d' ב-trends.ini.
    2. כדאי להכיר את התוצאות שמתקבלות מהמונחים השונים כדי לכוונן את הפרמטרים.
    3. מומלץ לחלק רשימות גדולות למספר עותקים של DAG הזה שפועלים בזמנים שונים.
    4. מידע נוסף על הספרייה הבסיסית שבה נעשה שימוש זמין במאמר Pytrends.
  3. מזג אוויר: כברירת מחדל, ה-DAG הזה משתמש במערך נתוני הבדיקה שזמין לכולם BigQuery-public-data.geo_openstreetmap.planet_layers. השאילתה מסתמכת גם על מערך נתונים של NOAA שזמין רק דרך שיתוף: noaa_global_forecast_system.

    צריך ליצור את מערך הנתונים הזה באותו אזור שבו נמצאים מערכי הנתונים האחרים לפני שמריצים את הפריסה. אם מערכי הנתונים לא זמינים באזור שלכם, אפשר להמשיך לפי ההוראות הבאות כדי להעביר את הנתונים לאזור שנבחר:

    1. עוברים לדף שיתוף (מרכז Analytics).
    2. לוחצים על כרטיסי מוצר בחיפוש.
    3. מחפשים את NOAA Global Forecast System.
    4. לוחצים על הרשמה.
    5. כשמופיעה הנחיה, משאירים את noaa_global_forecast_system כשם של מערך הנתונים. אם צריך, משנים את השם של מערך הנתונים והטבלה בסעיפי FROM ב-weather_daily.sql.
    6. חוזרים על החיפוש של כרטיס המוצר עבור קבוצת הנתונים OpenStreetMap Public Dataset.
    7. משנים את הסעיפים FROM containing: BigQuery-public-data.geo_openstreetmap.planet_layers in postcode.sql.
  4. תובנות לגבי קיימות ו-ESG: במסגרת Cortex Framework משולבים נתוני ביצועים של ספקי SAP עם תובנות מתקדמות לגבי ESG, כדי להשוות את ביצועי המסירה, הקיימות והסיכונים בצורה הוליסטית יותר בפעולות גלובליות. מידע נוסף זמין במאמר בנושא מקור הנתונים של Dun & Bradstreet.

שיקולים כלליים

  • שיתוף נתמך רק במיקומים באיחוד האירופי ובארה"ב, ובחלק ממערכי הנתונים, כמו NOAA Global Forecast, אפשר להשתמש רק במיקום אחד מתוך כמה מיקומים.

    אם אתם מטרגטים מיקום ששונה מהמיקום שזמין למערך הנתונים הנדרש, מומלץ ליצור שאילתה מתוזמנת כדי להעתיק את הרשומות החדשות ממערך הנתונים המקושר של השיתוף, ואז להשתמש בשירות העברה כדי להעתיק את הרשומות החדשות האלה למערך נתונים שנמצא באותו מיקום או אזור כמו שאר הפריסה. לאחר מכן, צריך לשנות את קובצי ה-SQL.

  • לפני שמעתיקים את ה-DAG האלה ל-Managed Airflow, צריך להוסיף את מודולי ה-Python הנדרשים כתלות:

    Required modules:
    pytrends~=4.9.2
    holidays