שלב 3: קובעים את מנגנון השילוב

בדף הזה מתואר השלב השלישי בפריסה של Cortex Framework Data Foundation, הליבה של Cortex Framework. בשלב הזה מגדירים את השילוב עם מקור הנתונים שבחרתם. אם אתם משתמשים בנתונים לדוגמה, דלגו על השלב הזה.

סקירה כללית של השילוב

המסגרת של Cortex עוזרת לרכז נתונים ממקורות שונים, וגם מפלטפורמות אחרות. כך נוצר מקור מידע אמין יחיד לנתונים שלכם. ‫Cortex Data Foundation משתלב עם כל מקור נתונים בדרכים שונות, אבל ברוב המקרים התהליך דומה:

  • שכבת המקור לנתונים גולמיים: קליטת נתונים ממקור נתונים למערך נתונים גולמי באמצעות ממשקי API. הפעולה הזו מתבצעת באמצעות צינורות עיבוד נתונים ב-Dataflow שמופעלים דרך DAG מנוהל ב-Airflow.
  • משכבת הנתונים הגולמיים לשכבת ה-CDC: עיבוד CDC של מערך נתונים גולמי ואחסון הפלט במערך נתוני CDC. הפעולה הזו מתבצעת באמצעות Managed Airflow DAGs שמריצים שאילתות BigQuery SQL.
  • שכבת CDC לשכבת דיווח: יוצרת טבלאות דיווח סופיות מטבלאות CDC במערך הנתונים של הדיווח. הפעולה הזו מתבצעת על ידי יצירת תצוגות בזמן ריצה על גבי טבלאות CDC או על ידי הפעלת DAG מנוהל של Airflow לנתונים מגובשים בטבלאות BigQuery – בהתאם להגדרות. מידע נוסף על הגדרות זמין במאמר התאמה אישית של קובץ הגדרות הדיווח.

קובץ config.json מגדיר את ההגדרות שנדרשות כדי להתחבר למקורות נתונים להעברת נתונים מעומסי עבודה שונים. במקורות המידע הבאים אפשר לראות את אפשרויות השילוב של כל מקור נתונים.

למידע נוסף על דיאגרמות של קשרים בין ישויות שכל מקור נתונים תומך בהן, אפשר לעיין בתיקייה docs במאגר של Cortex Framework Data Foundation.

פריסת K9

כלי הפריסה K9 מפשט את השילוב של מקורות נתונים מגוונים. הכלי K9 deployer הוא מערך נתונים מוגדר מראש בסביבת BigQuery שאחראי להטמעה, לעיבוד ולמודלים של רכיבים שאפשר לעשות בהם שימוש חוזר במקורות נתונים שונים.

לדוגמה, אפשר להשתמש במאפיין time בכל מקורות הנתונים שבהם יכול להיות שיהיה צורך בטבלאות כדי לקבל תוצאות ניתוח שמבוססות על לוח השנה הגרגוריאני. הכלי K9 deployer משלב נתונים חיצוניים כמו נתוני מזג אוויר או Google Trends עם מקורות נתונים אחרים (לדוגמה, SAP, ‏ Salesforce, ‏ Marketing). קבוצת הנתונים המורחבת הזו מאפשרת לקבל תובנות מעמיקות יותר ולבצע ניתוח מקיף יותר.

בתרשים הבא מוצג זרימת הנתונים ממקורות גולמיים שונים לשכבות דיווח שונות:

מערכי נתונים של K9

איור 1. קבוצות נתונים של K9.

בתרשים, פרויקט המקור מכיל את הנתונים הגולמיים ממקורות הנתונים שנבחרו (SAP,‏ Salesforce ושיווק). פרויקט היעד מכיל נתונים מעובדים שמקורם בתהליך של לכידת שינויי נתונים (CDC).

השלב של K9 לפני העיבוד מופעל לפני שכל עומסי העבודה מתחילים את הפריסה שלהם, כך שהמודלים לשימוש חוזר זמינים במהלך הפריסה. בשלב הזה מתבצעת המרה של נתונים ממקורות שונים כדי ליצור מערך נתונים עקבי וניתן לשימוש חוזר.

השלבים של K9 אחרי העיבוד מתרחשים אחרי שכל עומסי העבודה פורסים את מודלי הדיווח שלהם כדי לאפשר דיווח על עומסי עבודה שונים או כדי להגדיל את המודלים כדי למצוא את התלות הדרושה שלהם בכל מערך נתונים של דיווח בנפרד.

הגדרת הפריסה של K9

מגדירים את הגרפים האציקליים המכוונים (DAG) ואת המודלים שיווצרו בקובץ המניפסט של K9.

שלב העיבוד המקדים של K9 חשוב כי הוא מבטיח שלכל עומסי העבודה בצינור הנתונים תהיה גישה לנתונים מוכנים באופן עקבי. כך מצמצמים את הכפילות ומבטיחים עקביות בנתונים.

מידע נוסף על הגדרת מערכי נתונים חיצוניים ב-K9 זמין במאמר הגדרת מערכי נתונים חיצוניים ב-K9.

השלבים הבאים

אחרי שמסיימים את השלב הזה, עוברים לשלבי הפריסה הבאים:

  1. הגדרת עומסי עבודה.
  2. שכפול המאגר.
  3. קביעת מנגנון השילוב (בדף הזה).
  4. הגדרת רכיבים
  5. הגדרת הפריסה.
  6. הפעלת הפריסה.