סקירה כללית של Managed Airflow

Managed Airflow (דור 3) | Managed Airflow (דור 2) | Managed Airflow (דור 1 מדור קודם)

בדף הזה מובא מבוא קצר ל-Airflow ול-DAG, ומתוארות התכונות והיכולות של Managed Airflow.

מידע נוסף על תכונות חדשות בגרסאות של Managed Airflow זמין בנתוני הגרסה.

מידע על Managed Airflow

‫Managed Airflow הוא שירות מנוהל לתזמור תהליכי עבודה, שמאפשר ליצור, לתזמן, לנטר ולנהל צינורות עיבוד נתונים של תהליכי עבודה שפועלים בעננים ובמרכזי נתונים מקומיים.

‫Managed Airflow מבוסס על פרויקט הקוד הפתוח הפופולרי Apache Airflow ופועל באמצעות שפת התכנות Python.

שימוש ב-Managed Airflow במקום במופע מקומי של Apache Airflow מאפשר לכם ליהנות מהיתרונות של Airflow בלי צורך בהתקנה או בניהול. ‫Managed Airflow עוזר לכם ליצור סביבות מנוהלות של Airflow במהירות ולהשתמש בכלים מקוריים של Airflow, כמו ממשק האינטרנט העוצמתי של Airflow וכלי שורת הפקודה, כדי שתוכלו להתמקד בתהליכי העבודה ולא בתשתית.

ההבדלים בין הגרסאות של Managed Airflow

מידע נוסף על ההבדלים בין גרסאות עיקריות של Managed Airflow זמין במאמר סקירה כללית על ניהול גרסאות של Managed Service for Apache Airflow.

‫Airflow ו-DAG (תהליכי עבודה) של Airflow

בניתוח נתונים, תהליך עבודה מייצג סדרה של משימות להטמעה, לשינוי, לניתוח או לשימוש בנתונים. ב-Airflow, תהליכי עבודה נוצרים באמצעות DAG, או "גרפים אציקליים מכוונים".

הקשר בין DAGs לבין משימות
איור 1. הקשר בין DAGs לבין משימות

DAG הוא אוסף של משימות שרוצים לתזמן ולהפעיל, והן מסודרות באופן שמשקף את הקשרים ויחסי התלות ביניהן. ‫DAG נוצר בקובצי Python, שבהם מוגדרת מבנה ה-DAG באמצעות קוד. המטרה של DAG היא לוודא שכל משימה מבוצעת בזמן הנכון ובסדר הנכון.

כל משימה ב-DAG יכולה לייצג כמעט כל דבר – לדוגמה, משימה אחת יכולה לבצע כל אחת מהפונקציות הבאות:

  • הכנת נתונים להטמעה
  • מעקב אחר API
  • שליחת אימייל
  • הפעלת צינור עיבוד נתונים

בנוסף להרצת DAG לפי לוח זמנים, אפשר להפעיל DAG באופן ידני או בתגובה לאירועים, כמו שינויים בדלי של Cloud Storage. מידע נוסף זמין במאמר בנושא תזמון והפעלה של DAG.

מידע נוסף על DAG ומשימות מופיע במסמכי התיעוד של Apache Airflow.

סביבות Managed Airflow

סביבות Managed Airflow הן פריסות עצמאיות של Airflow שמבוססות על Google Kubernetes Engine. הם פועלים עם שירותים אחרים באמצעות מחברים שמובנים ב-Airflow. Google Cloudאפשר ליצור סביבה אחת או יותר בפרויקט Google Cloudאחד, בכל אזור נתמך.

‫Managed Airflow מספק שירותים שמריצים את תהליכי העבודה שלכם ואת כל רכיבי Airflow. Google Cloud הרכיבים העיקריים של סביבה הם:

  • אשכול GKE: רכיבי Airflow כמו מתזמני Airflow, מפעילים ועובדים פועלים כמשימות עבודה של GKE באשכול יחיד שנוצר עבור הסביבה שלכם, ואחראים לעיבוד ולביצוע של DAG.

    בנוסף, באשכול מתארחים רכיבים מנוהלים אחרים של Airflow, כמו Composer Agent ו-Airflow Monitoring, שעוזרים לנהל את סביבת Airflow המנוהלת, לאסוף יומנים לאחסון ב-Cloud Logging ולאסוף מדדים להעלאה ל-Cloud Monitoring.

  • שרת האינטרנט של Airflow: שרת האינטרנט מריץ את ממשק המשתמש של Apache Airflow.

  • מסד נתונים של Airflow: מסד הנתונים מכיל את המטא-נתונים של Apache Airflow.

  • קטגוריה של Cloud Storage: Managed Airflow משייך קטגוריה של Cloud Storage לסביבה שלכם. בדלי הזה, שנקרא גם הדלי של הסביבה, מאוחסנים גרפים מכווני מחזור (DAG), יומנים, תוספים מותאמים אישית ונתונים של הסביבה. מידע נוסף על דלי הסביבה זמין במאמר נתונים שמאוחסנים ב-Cloud Storage.

למידע נוסף על הרכיבים של סביבה, אפשר לעיין במאמר ארכיטקטורת הסביבה.

ממשקים של Managed Airflow

‫Managed Airflow מספק ממשקים לניהול סביבות, מופעי Airflow שפועלים בסביבות ו-DAGs ספציפיים.

לדוגמה, אתם יכולים ליצור ולהגדיר סביבות Managed Airflow במסוף Google Cloud , ב-Google Cloud CLI, ב-Cloud Composer API או ב-Terraform.

דוגמה נוספת: אתם יכולים לנהל DAG מGoogle Cloud מסוף, מממשק המשתמש המקורי של Airflow או על ידי הפעלת פקודות של Google Cloud CLI ושל Airflow CLI.

תכונות Airflow ב-Managed Airflow

כשמשתמשים ב-Managed Airflow, אפשר לנהל ולהשתמש בתכונות של Airflow, כמו:

בקרת גישה ב-Managed Airflow

אתם מנהלים את האבטחה Google Cloud ברמת הפרויקט ויכולים להקצות תפקידי IAM שמאפשרים למשתמשים בודדים לשנות או ליצור סביבות. אם למישהו אין גישה לפרויקט או שאין לו תפקיד מתאים ב-IAM של Managed Airflow, הוא לא יכול לגשת לאף אחד מהסביבות שלכם.

בנוסף ל-IAM, אפשר להשתמש בבקרת גישה לממשק המשתמש של Airflow, שמבוססת על מודל בקרת הגישה של Apache Airflow.

מידע נוסף על תכונות האבטחה ב-Managed Airflow זמין במאמר סקירה כללית על האבטחה ב-Managed Airflow.

רישות בסביבה

‫Managed Airflow תומך בכמה תצורות רשת לסביבות, עם הרבה אפשרויות הגדרה. לדוגמה, בסביבת IP פרטי, רכיבי DAG ו-Airflow מבודדים לחלוטין מהאינטרנט הציבורי.

מידע נוסף על רשתות ב-Managed Airflow זמין בדפים של תכונות רשתות ספציפיות:

תכונות אחרות של Managed Airflow

תכונות נוספות של Managed Airflow:

שאלות נפוצות

באיזו גרסה של Apache Airflow נעשה שימוש ב-Managed Airflow?

סביבות Managed Airflow מבוססות על תמונות Managed Airflow. כשיוצרים סביבה, אפשר לבחור תמונה עם גרסה ספציפית של Airflow:

  • ‫Managed Airflow (דור 3) תומך ב-Airflow 2.
  • ‫Managed Airflow (דור 2) תומך ב-Airflow 2.
  • ‫Managed Airflow (דור קודם 1) תומך ב-Airflow 1 וב-Airflow 2.

אתם יכולים לשלוט בגרסת Apache Airflow של הסביבה שלכם. אתם יכולים לשדרג את הסביבה לגרסה חדשה יותר של תמונת Managed Airflow. כל מהדורה של Managed Airflow תומכת בכמה גרסאות של Apache Airflow.

האם אפשר להשתמש בממשק המשתמש וב-CLI המקוריים של Airflow?

אתם יכולים לגשת לממשק האינטרנט של Apache Airflow בסביבה שלכם. לכל אחת מהסביבות יש ממשק משתמש משלה ב-Airflow. מידע נוסף על גישה לממשק המשתמש של Airflow זמין במאמר בנושא ממשק האינטרנט של Airflow.

כדי להריץ פקודות Airflow CLI בסביבות שלכם, משתמשים בפקודות gcloud. מידע נוסף על הרצת פקודות Airflow CLI בסביבות Managed Airflow, ראו ממשק שורת הפקודה של Airflow.

האם אפשר להשתמש במסד נתונים משלי כמסד הנתונים של Airflow?

ב-Managed Airflow נעשה שימוש בשירות מסד נתונים מנוהל עבור מסד הנתונים של Airflow. אי אפשר להשתמש במסד נתונים שהמשתמשים סיפקו כמסד הנתונים של Airflow.

האם אפשר להשתמש באשכול משלי כאשכול Airflow מנוהל?

Managed Airflow משתמש בשירות Google Kubernetes Engine כדי ליצור, לנהל ולמחוק אשכולות של סביבות שבהן רכיבי Airflow פועלים. האשכולות האלה מנוהלים באופן מלא על ידי Managed Airflow.

אי אפשר לבנות סביבת Managed Airflow על סמך אשכול Google Kubernetes Engine בניהול עצמי.

האם אפשר להשתמש במאגר משלי של תמונות קונטיינר?

‫Managed Airflow משתמש בשירות Artifact Registry כדי לנהל מאגרי תמונות של קונטיינרים שמשמשים את סביבות Managed Airflow. אי אפשר להחליף אותה במאגר רישום קונטיינרים שהמשתמש סיפק.

האם סביבות Managed Airflow הן אזוריות או של תחום מוגדר?

כשיוצרים סביבה, מציינים את האזור שלה:

  • בסביבות Managed Airflow רגילות יש מסד נתונים אזורי של Airflow ושכבת ביצוע של Airflow בכמה אזורים. מסד הנתונים של Airflow ממוקם באחד מהתחומים באזור שצוין, והרכיבים של Airflow מפוזרים בין כמה תחומים.
  • עמידות גבוהה (זמינות גבוהה) סביבות Managed Airflow כוללות מסד נתונים של Airflow רב-אזורי ושכבת ביצוע של Airflow רב-אזורי. סביבה עמידה במיוחד פועלת לפחות בשני אזורים של האזור שנבחר. ‫Managed Airflow מחלק באופן אוטומטי את רכיבי הסביבה בין האזורים. רכיב Cloud SQL שמאחסן את מסד הנתונים של Airflow כולל מופע ראשי ומופע המתנה, שמפוזרים בין אזורים באזור שנבחר.

המאמרים הבאים