Managed Airflow (דור 3) | Managed Airflow (דור 2) | Managed Airflow (דור 1 מדור קודם)
אפשר להשתמש ב-Cloud Monitoring וב-Cloud Logging עם Managed Service for Apache Airflow.
בעזרת Cloud Monitoring אפשר לעיין בנתוני הביצועים, זמן הפעולה התקינה והתקינות הכללית של אפליקציות מבוססות-ענן. מערכת Cloud Monitoring אוספת ומטמיעה מדדים, אירועים ומטא-נתונים מ-Managed Airflow כדי ליצור תובנות בלוחות בקרה ובתרשימים. אתם יכולים להשתמש ב-Cloud Monitoring כדי להבין את הביצועים ואת מצב התקינות של סביבות Managed Airflow ומדדי Airflow.
הרישום ביומן מתעד יומנים שנוצרו על ידי מתזמן ומאגרי עובדים באשכול של הסביבה שלכם. היומנים האלה מכילים מידע על התלות ב-Airflow ברמת המערכת, כדי לעזור בניפוי באגים. מידע על צפייה ביומנים זמין במאמר צפייה ביומני Airflow.
לפני שמתחילים
כדי לגשת ליומנים ולמדדים של סביבת Managed Airflow, נדרשות ההרשאות הבאות:
- גישה לקריאה בלבד ליומנים ולמדדים:
logging.viewerו-monitoring.viewer - הרשאת קריאה בלבד ליומנים, כולל יומנים פרטיים:
logging.privateLogViewer - גישת קריאה/כתיבה למדדים:
monitoring.editor
במאמר בקרת גישה יש מידע נוסף על הרשאות ותפקידים אחרים ב-Managed Airflow.
- גישה לקריאה בלבד ליומנים ולמדדים:
כדי למנוע רישום כפול ביומן, Cloud Logging ל-Google Kubernetes Engine מושבת.
ב-Cloud Logging נוצרת רשומה לכל סטטוס ואירוע שמתרחשים ב Google Cloud פרויקט. אפשר להשתמש במסנני החרגה כדי לצמצם את נפח היומנים, כולל היומנים שנוצרים ב-Cloud Logging עבור Managed Airflow.
מדדים של סביבה
אתם יכולים להשתמש במדדי הסביבה כדי לבדוק את השימוש במשאבים ואת התקינות של סביבות Managed Airflow.
בריאות הסביבה
כדי לבדוק את תקינות הסביבה, אפשר להשתמש במדד הבא של סטטוס התקינות:
| מדד | API |
|---|---|
| התקינות של סביבה |
composer.googleapis.com/environment/healthy |
ב-Managed Airflow מופעל DAG של בדיקת פעילות בשם airflow_monitoring, שפועל לפי לוח זמנים ומדווח על תקינות הסביבה באופן הבא:
- אם הריצה של ה-DAG של בדיקת הפעילות מסתיימת בהצלחה, סטטוס התקינות הוא
True. - אם ההרצה של ה-DAG של בדיקת החיות נכשלת, סטטוס תקינות המערכת הוא
False.
ה-DAG של בדיקת החיות מאוחסן בתיקייה dags/ ומוצג בממשק המשתמש של Airflow. התדירות והתוכן של ה-DAG של בדיקת הפעילות הם קבועים ואין לשנות אותם. השינויים ב-DAG של בדיקת החיות לא נשמרים.
בדיקות של יחסי התלות בסביבה
Managed Airflow בודק מעת לעת שהסביבה יכולה לגשת לשירותים שנדרשים להפעלה שלה, ושיש לה מספיק הרשאות כדי ליצור איתם אינטראקציה. דוגמאות לשירותים שנדרשים להפעלת הסביבה: Artifact Registry, Cloud Logging ו-Cloud Monitoring.
המדדים הבאים זמינים לבדיקות התלויות של הסביבה:
| מדד | API | תיאור |
|---|---|---|
| מספר הבדיקות של יחסי התלות |
composer.googleapis.com/environment/health/dependency_check_count
|
המדד הזה עוקב אחרי מספר הפעמים שבהן מתבצעות בדיקות של נגישות לשירותים שנדרשים להפעלת הסביבה. |
| מספר בדיקות ההרשאות של התלות |
composer.googleapis.com/environment/health/dependency_permissions_check_count
|
המדד הזה עוקב אחרי מספר הפעמים שבהן מתבצעות בדיקות הרשאות בשירותים שנדרשים להפעלת הסביבה. |
תקינות מסד הנתונים
כדי לבדוק את תקינות מסד הנתונים, אפשר להשתמש במדד הסטטוס הבא של התקינות: composer.googleapis.com/environment/database_health.
פוד המעקב של Airflow שולח פינג למסד הנתונים כל דקה ומדווח על סטטוס תקינות כ-True אם אפשר ליצור חיבור SQL, או כ-False אם אי אפשר.
מדדים של מסד נתונים
המדדים הבאים של הסביבה זמינים במסד הנתונים של המטא-נתונים של Airflow שמשמש את סביבות Managed Airflow. אפשר להשתמש במדדים האלה כדי לעקוב אחרי הביצועים וניצול המשאבים של מופע מסד הנתונים בסביבה שלכם.
לדוגמה, אם הסביבה שלכם מתקרבת למגבלות המשאבים, יכול להיות שתרצו לשדרג את סוג המכונה של Cloud SQL בסביבה. אפשרות נוספת היא לבצע ניקוי של מסד הנתונים כדי לצמצם את העלויות שקשורות לשימוש במסד הנתונים של המטא-נתונים ב-Airflow, וכך לשמור על נפח האחסון מתחת לסף מסוים.
| Database metric | API | תיאור |
|---|---|---|
| שימוש במעבד של מסד הנתונים |
composer.googleapis.com/environment/database/cpu/usage_time
|
|
| ליבות מעבד של מסד נתונים |
composer.googleapis.com/environment/database/cpu/reserved_cores
|
|
| ניצול המעבד של מסד הנתונים |
composer.googleapis.com/environment/database/cpu/utilization
|
|
| שימוש בזיכרון של מסד הנתונים |
composer.googleapis.com/environment/database/memory/bytes_used
|
|
| מכסת הזיכרון של מסד הנתונים |
composer.googleapis.com/environment/database/memory/quota
|
|
| ניצול הזיכרון של מסד הנתונים |
composer.googleapis.com/environment/database/memory/utilization
|
|
| שימוש בדיסק של מסד הנתונים |
composer.googleapis.com/environment/database/disk/bytes_used
|
|
| מכסת דיסק של מסד נתונים |
composer.googleapis.com/environment/database/disk/quota
|
|
| ניצול הדיסק של מסד הנתונים |
composer.googleapis.com/environment/database/disk/utilization
|
|
| מגבלת החיבורים למסד הנתונים |
composer.googleapis.com/environment/database/network/max_connections
|
|
| חיבורים למסדי נתונים |
composer.googleapis.com/environment/database/network/connections
|
|
| מסד הנתונים זמין למעבר לגיבוי בעת כשל |
composer.googleapis.com/environment/database/available_for_failover
|
True אם מופע Cloud SQL של הסביבה נמצא במצב זמינות גבוהה ומוכן למעבר לגיבוי בעת כשל. |
| מספר הבקשות למעבר אוטומטי לגיבוי במקרה של כשל במסד הנתונים |
composer.googleapis.com/environment/database/auto_failover_request_count
|
המספר הכולל של בקשות המעבר האוטומטי לגיבוי (failover) של מופע Cloud SQL בסביבה. |
מדדים של עובדים
המדדים הבאים של הסביבה זמינים לעובדי Airflow בסביבות של Managed Airflow (דור 3) ו-Managed Airflow (דור 2).
המדד הזה משמש להתאמה אוטומטית של מספר העובדים בסביבה שלכם. המדד הזה מוגדר על ידי Horizontal Pod Autoscaler, ואז רכיב הסביבה Airflow Worker Set Controller משתמש במדד הזה כדי להגדיל או להקטין את מספר העובדים של Airflow, בהתאם לערך של המדד הזה.
| מדד של עובד | API |
|---|---|
| יעד הגורם לקביעת קנה מידה |
composer.googleapis.com/environment/worker/scale_factor_target |
מדדים של כלי התזמון
| שם | API | תיאור |
|---|---|---|
| מתזמני בקשות פעילים |
composer.googleapis.com/environment/active_schedulers
|
מספר המופעים הפעילים של מתזמן הפגישות. |
מדדים של טריגרים
| שם | API | תיאור |
|---|---|---|
| משתמשים פעילים שהפעילו טריגרים |
composer.googleapis.com/environment/active_triggerers
|
מספר המופעים הפעילים של הטריגר. |
מדדים של שרתי אינטרנט
המדדים הבאים של הסביבה זמינים לשרת האינטרנט של Airflow שמשמש סביבות Managed Airflow. אתם יכולים להשתמש במדדים האלה כדי לבדוק את הביצועים ואת השימוש במשאבים של מופע שרת האינטרנט של Airflow בסביבה שלכם.
לדוגמה, אם השרת מתקרב כל הזמן למגבלות המשאבים, כדאי לשדרג את סוג המכונה של שרת האינטרנט.
| שם | API | תיאור |
|---|---|---|
| שרתי אינטרנט פעילים | composer.googleapis.com/environment/active_webservers |
מספר המקרים הפעילים של שרת האינטרנט. |
| שימוש במעבד בשרת האינטרנט | composer.googleapis.com/environment/web_server/cpu/usage_time |
|
| מכסת CPU של שרת אינטרנט | composer.googleapis.com/environment/web_server/cpu/reserved_cores |
|
| שימוש בזיכרון של שרת האינטרנט | composer.googleapis.com/environment/web_server/memory/bytes_used |
|
| מכסת הזיכרון של שרת האינטרנט | composer.googleapis.com/environment/web_server/memory/quota |
מכסות לשירותים שבהם נעשה שימוש בסביבה
Managed Airflow משתמש בשירותים אחרים של Google Cloud Google. לשירותים האלה יש מכסות ברמת הפרויקט, שחלות כשמשתמשים ב-Managed Airflow.
ב-Managed Airflow (דור 3), האשכול של הסביבה נמצא בפרויקט הדייר. Managed Airflow (דור 3) מספק את המדדים הבאים שמדווחים על ניצול המכסות ועל מגבלות המכסות התואמות עבור שירותים שנעשה בהם שימוש בסביבה שלכם בפרויקט הדייר.
| מדד | API | תיאור |
|---|---|---|
| מגבלת מכסה של יחידת עיבוד מרכזית (CPU) לעומסי עבודה של Managed Airflow |
composer.googleapis.com/environment/workloads_cpu_quota
|
(Managed Airflow (Gen 3) only) מכסת הקצאת המעבדים (CPU) ב-Compute Engine עבור המספר הכולל של מעבדים וירטואליים שמשמשים בסביבה. המגבלה חלה על כל סביבה. אם בפרויקט יש כמה סביבות של Managed Airflow (דור 3), לכל סביבה יש מכסת שימוש משלה. |
| שימוש במכסת המעבד (CPU) לעומסי עבודה ב-Managed Airflow |
composer.googleapis.com/environment/workloads_cpu_quota_usage
|
(Managed Airflow (Gen 3) only) השימוש במכסת הקצאת המעבד של Compute Engine בסביבה. |
מדדי DAG
כדי לעזור לכם לעקוב אחרי היעילות של הרצות DAG ולזהות משימות שגורמות לזמן אחזור גבוה, המדדים הבאים של DAG זמינים.
| מדד DAG | API |
|---|---|
| מספר ההפעלות של DAG |
composer.googleapis.com/workflow/run_count |
| משך כל הפעלה של DAG |
composer.googleapis.com/workflow/run_duration |
| מספר הפעלות המשימות |
composer.googleapis.com/workflow/task/run_count |
| משך ההפעלה של כל משימה |
composer.googleapis.com/workflow/task/run_duration |
ב-Cloud Monitoring מוצגים רק המדדים של זרימות עבודה ושל משימות שהושלמו (הצלחה או כישלון). הערך No Data מוצג כשאין פעילות בתהליך העבודה, וכשתהליך העבודה והמשימות נמצאים בתהליך.
מדדים של Celery Executor
המדדים הבאים של Celery Executor זמינים. המדדים האלה יכולים לעזור לכם לקבוע אם יש מספיק משאבי עובדים בסביבה שלכם.
| מדד Celery Executor | API |
|---|---|
| מספר המשימות בתור |
composer.googleapis.com/environment/task_queue_length |
| מספר העובדים של Celery אונליין |
composer.googleapis.com/environment/num_celery_workers |
מדדים של זרימת אוויר
המדדים הבאים של Airflow זמינים. המדדים האלה תואמים למדדים שמוצגים ב-Airflow.
| שם | API | השם ב-Airflow | תיאור |
|---|---|---|---|
| קוד יציאה שאינו אפס של משימת Celery |
composer.googleapis.com/environment/celery/execute_command_failure_count
|
celery.execute_command.failure
|
מספר קודי היציאה שאינם אפס ממשימות Celery. |
| הזמן הקצוב לתפוגה של פרסום משימות ב-Celery |
composer.googleapis.com/environment/celery/task_timeout_error_count
|
celery.task_timeout_error
|
מספר השגיאות מסוג AirflowTaskTimeout שנוצרו במהלך פרסום המשימה ב-Celery Broker. |
| משך האחזור של DAG שעבר סריאליזציה |
composer.googleapis.com/environment/collect_db_dag_duration
|
collect_db_dags
|
הזמן שנדרש לאחזור כל ה-DAGs הסדרתיים ממסד הנתונים. |
| שגיאות ברענון של DAG |
composer.googleapis.com/environment/dag_callback/exception_count
|
dag.callback_exceptions
|
מספר החריגים שהופעלו מתוך קריאות חוזרות (callback) של DAG. במקרה כזה, המשמעות היא שקריאה חוזרת של DAG לא פועלת. |
| שגיאות ברענון של DAG |
composer.googleapis.com/environment/dag_file/refresh_error_count
|
dag_file_refresh_error
|
מספר הכשלים בטעינת קובצי DAG. |
| זמן הטעינה של קובץ DAG |
composer.googleapis.com/environment/dag_processing/last_duration
|
dag_processing.last_duration.<dag_file>
|
הזמן שנדרש לטעינת קובץ DAG ספציפי. |
| הזמן שעבר מאז עיבוד קובץ ה-DAG |
composer.googleapis.com/environment/dag_processing/last_run_elapsed_time
|
dag_processing.last_run.seconds_ago.<dag_file>
|
מספר השניות שעברו מאז העיבוד האחרון של קובץ DAG. |
| DagFileProcessorManager stall count |
composer.googleapis.com/environment/dag_processing/manager_stall_count
|
dag_processing.manager_stalls
|
מספר התהליכים התקועים DagFileProcessorManager. |
| שגיאות בניתוח DAG |
composer.googleapis.com/environment/dag_processing/parse_error_count
|
dag_processing.import_errors
|
מספר השגיאות שנוצרו במהלך ניתוח קובצי DAG. |
| הפעלת תהליכי ניתוח של DAG |
composer.googleapis.com/environment/dag_processing/processes
|
dag_processing.processes
|
מספר התהליכים הפועלים כרגע של ניתוח DAG. |
| הזמן הקצוב של המעבד |
composer.googleapis.com/environment/dag_processing/processor_timeout_count
|
dag_processing.processor_timeouts
|
מספר מעבדי הקבצים שהופסקו בגלל שהם פעלו יותר מדי זמן. |
| הזמן שנדרש לסריקה ולייבוא של כל קובצי ה-DAG |
composer.googleapis.com/environment/dag_processing/total_parse_time
|
dag_processing.total_parse_time
|
הזמן הכולל שנדרש לסריקה ולייבוא של כל קובצי ה-DAG פעם אחת. |
| גודל תיקיית ה-DAG הנוכחית |
composer.googleapis.com/environment/dagbag_size
|
dagbag_size
|
מספר ה-DAG שנמצאו כשמתזמן הפעלת סריקה על סמך ההגדרה שלו. |
| התראות באימייל על החמצה של SLA |
composer.googleapis.com/environment/email/sla_notification_failure_count
|
sla_email_notification_failure
|
מספר הניסיונות שנכשלו לשליחת התראה באימייל על חריגה מהסכם רמת שירות (SLA). |
| פתיחת משבצות ב-executor |
composer.googleapis.com/environment/executor/open_slots
|
executor.open_slots
|
מספר המשבצות הפתוחות ב-executor. |
| משימות בתור לביצוע |
composer.googleapis.com/environment/executor/queued_tasks
|
executor.queued_tasks
|
מספר המשימות בתור ההמתנה של המפעיל. |
| הרצת משימות ב-executor |
composer.googleapis.com/environment/executor/running_tasks
|
executor.running_tasks
|
מספר המשימות הפעילות ב-executor. |
| הצלחות או כישלונות של מופעי משימות |
composer.googleapis.com/environment/finished_task_instance_count
|
ti_failures, ti_successes
|
הצלחות או כישלונות של מופעי משימות באופן כללי. |
| משימות שהתחילו או הסתיימו |
composer.googleapis.com/environment/job/count
|
<job_name>_start, <job_name>_end
|
מספר המשימות שהתחילו או הסתיימו, כמו SchedulerJob, LocalTaskJob. |
| כשלים בדופק של משימות |
composer.googleapis.com/environment/job/heartbeat_failure_count
|
<job_name>_heartbeat_failure
|
מספר הפעימות שנכשלו למשימה. |
| משימות שנוצרו לכל מפעיל |
composer.googleapis.com/environment/operator/created_task_instance_count
|
task_instance_created-<operator_name>
|
מספר המופעים של משימות שנוצרו לאופרטור נתון. |
| הרצות של אופרטורים |
composer.googleapis.com/environment/operator/finished_task_instance_count
|
operator_failures_<operator_name>, operator_successes_<operator_name>
|
מספר המופעים של משימות שהושלמו לכל אופרטור |
| משבצות פתוחות במאגר |
composer.googleapis.com/environment/pool/open_slots
|
pool.open_slots.<pool_name>
|
מספר המשבצות הפתוחות במאגר. |
| משבצות זמן בתור במאגר |
composer.googleapis.com/environment/pool/queued_slots
|
pool.queued_slots.<pool_name>
|
מספר המשבצות בתור במאגר. |
| הפעלת משבצות בבריכה |
composer.googleapis.com/environment/pool/running_slots
|
pool.running_slots.<pool_name>
|
מספר המשבצות הפעילות במאגר. |
| משימות שמוגדרות כ-Starving ב-Pool |
composer.googleapis.com/environment/pool/starving_tasks
|
pool.starving_tasks.<pool_name>
|
מספר המשימות שאין להן מספיק משאבים ב-pool. |
| משך הזמן שחלף בקטע הקריטי של המתזמן |
composer.googleapis.com/environment/scheduler/critical_section_duration
|
scheduler.critical_section_duration
|
הזמן שחלף בלולאת התזמון בקטע הקריטי. רק מתזמן אחד יכול להיכנס ללולאה הזו בכל פעם. |
| כשלים קריטיים בנעילת קטע |
composer.googleapis.com/environment/scheduler/critical_section_lock_failure_count
|
scheduler.critical_section_busy
|
מספר הפעמים שתהליך של מתזמן ניסה לקבל נעילה בקטע קריטי (נדרש כדי לשלוח משימות למבצע) וגילה שהוא נעול על ידי תהליך אחר. |
| משימות שהופסקו על ידי גורם חיצוני |
composer.googleapis.com/environment/scheduler/task/externally_killed_count
|
scheduler.tasks.killed_externally
|
מספר המשימות שהופסקו על ידי גורם חיצוני. |
| משימות ללא בעלים |
composer.googleapis.com/environment/scheduler/task/orphan_count
|
scheduler.orphaned_tasks.cleared, scheduler.orphaned_tasks.adopted
|
מספר המשימות היתומות שנוקו או אומצו על ידי מתזמן המשימות. |
| משימות שפועלות, משימות שמושהות ומשימות שאפשר להפעיל |
composer.googleapis.com/environment/scheduler/tasks
|
scheduler.tasks.running, scheduler.tasks.starving, scheduler.tasks.executable
|
מספר המשימות שפועלות, שלא מקבלות מספיק משאבים או שאפשר להפעיל. |
| פעימות לב של מתזמן |
composer.googleapis.com/environment/scheduler_heartbeat_count
|
scheduler_heartbeat
|
הדופק של מתזמן המשימות. |
| התראות על קריאה חוזרת של הסכם רמת שירות (SLA) שנכשלה |
composer.googleapis.com/environment/sla_callback_notification_failure_count
|
sla_callback_notification_failure
|
מספר הניסיונות שנכשלו לשליחת התראה על חריגה מהסכם רמת שירות (SLA). |
| כשלים בחריגות של בדיקות חיישנים חכמים |
composer.googleapis.com/environment/smart_sensor/exception_failures
|
smart_sensor_operator.exception_failures
|
מספר הכשלים שנגרמו בגלל חריגה בלולאת הבדיקה הקודמת של החיישן החכם. |
| קריסת תשתיות של בדיקות חיישנים חכמים |
composer.googleapis.com/environment/smart_sensor/infra_failures
|
smart_sensor_operator.infra_failures
|
מספר כשלי התשתית בלולאת הבדיקה הקודמת של החיישן החכם. |
| חריגים לזיהוי של ניסיונות חדירה לחיישנים חכמים |
composer.googleapis.com/environment/smart_sensor/poked_exception
|
smart_sensor_operator.poked_exception
|
מספר החריגים בלולאת הבדיקה הקודמת של החיישן החכם. |
| החיישן החכם הצליח להעביר משימות |
composer.googleapis.com/environment/smart_sensor/poked_success
|
smart_sensor_operator.poked_success
|
מספר המשימות החדשות שהצליחו והופעלו על ידי החיישן החכם בלולאת ההפעלה הקודמת. |
| משימות של חיישנים חכמים |
composer.googleapis.com/environment/smart_sensor/poked_tasks
|
smart_sensor_operator.poked_tasks
|
מספר המשימות שהחיישן החכם דחף בלולאת הדחיפה הקודמת. |
| מופעי משימות שהסתיימו בהצלחה בעבר |
composer.googleapis.com/environment/task_instance/previously_succeeded_count
|
previously_succeeded
|
מספר המופעים הקודמים של המשימה שהושלמו בהצלחה. |
| משימות שנמחקו |
composer.googleapis.com/environment/zombie_task_killed_count
|
zombies_killed
|
מספר משימות הזומבי שהופסקו. |
| משך ההרצה של DAG |
composer.googleapis.com/workflow/dag/run_duration
|
dagrun.duration.success.<dag_id>, dagrun.duration.failed.<dag_id>
|
משך הזמן שחלף עד ש-DagRun הגיע למצב הצלחה או למצב כשל. |
| משך בדיקת התלות ב-DAG |
composer.googleapis.com/workflow/dependency_check_duration
|
dagrun.dependency-check.<dag_id>
|
הזמן שנדרש לבדיקת התלויות ב-DAG. המדד הזה שונה מהמדדים של בדיקות התלות וההרשאות של הסביבה, והוא חל על DAG |
| עיכוב בלוח הזמנים של הפעלת DAG |
composer.googleapis.com/workflow/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
משך העיכוב בין תאריך ההתחלה המתוזמן של DagRun לבין תאריך ההתחלה בפועל של DagRun. |
| משימות שהושלמו |
composer.googleapis.com/workflow/task_instance/finished_count
|
ti.finish.<dag_id>.<task_id>.<state>
|
מספר המשימות שהושלמו ב-DAG נתון. |
| משך ההפעלה של מופע המשימה |
composer.googleapis.com/workflow/task_instance/run_duration
|
dag.<dag_id>.<task_id>.duration
|
הזמן שנדרש לסיום משימה. |
| משימות שהתחילו |
composer.googleapis.com/workflow/task_instance/started_count
|
ti.start.<dag_id>.<task_id>
|
מספר המשימות שהופעלו ב-DAG נתון. |
| משך הזמן של מופע המשימה בתור |
composer.googleapis.com/workflow/task_instance/queued_duration
|
dag.<dag_id>.<task_id>.queued_duration
|
הזמן שבו משימה נמצאת במצב 'בהמתנה בתור' לפני שהיא עוברת למצב 'פועלת'. |
| שימוש במעבד על ידי משימה |
composer.googleapis.com/workflow/task/cpu_usage
|
task.cpu_usage.<dag_id>.<task_id>
|
אחוז המעבד שבו נעשה שימוש במשימה. |
| שימוש בזיכרון של משימות |
composer.googleapis.com/workflow/task/mem_usage
|
task.mem_usage.<dag_id>.<task_id>
|
אחוז הזיכרון שמשמש למשימה. |
| משימות שהוסרו מ-DAG |
composer.googleapis.com/workflow/task/removed_from_dag_count
|
task_removed_from_dag.<dag_id>
|
מספר המשימות שהוסרו מ-DAG מסוים (כלומר, המשימה לא קיימת יותר ב-DAG). |
| המשימות שוחזרו ל-DAG |
composer.googleapis.com/workflow/task/restored_to_dag_count
|
task_restored_to_dag.<dag_id>
|
מספר המשימות ששוחזרו עבור DAG נתון (כלומר, מופע של משימה שהיה קודם במצב REMOVED במסד הנתונים נוסף לקובץ ה-DAG). |
| השהיית תזמון המשימה |
composer.googleapis.com/workflow/task/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
הזמן שחלף בין תאריך ההתחלה של המשימה הראשונה לבין תאריך ההתחלה הצפוי של ה-DAGRun. |
| מספר הטריגרים הפועלים הכולל |
composer.googleapis.com/workload/triggerer/num_running_triggers
|
triggers.running
|
מספר הטריגרים הפועלים לכל מופע של מפעיל טריגרים. |
| טריגרים לחסימה |
composer.googleapis.com/environment/trigger/blocking_count
|
triggers.blocked_main_thread
|
מספר הטריגרים שחסמו את השרשור הראשי (סביר להניח שהסיבה לכך היא שהם לא אסינכרוניים לחלוטין). |
| טריגרים שנכשלו |
composer.googleapis.com/environment/trigger/failed_count
|
triggers.failed
|
מספר הטריגרים שנכשלו עם שגיאה לפני שהם יכלו להפעיל אירוע. |
| טריגרים שהופעלו בהצלחה |
composer.googleapis.com/environment/trigger/succeeded_count
|
triggers.succeeded
|
מספר הטריגרים שהפעילו לפחות אירוע אחד. |
שימוש ב-Monitoring בסביבות Managed Airflow
המסוף
אפשר להשתמש ב-Metrics Explorer כדי להציג מדדים שקשורים לסביבות ול-DAG:
משאב Cloud Composer Environment מכיל מדדים של סביבות.
כדי להציג מדדים של סביבה ספציפית, צריך לסנן את המדדים לפי התווית
environment_name. אפשר גם לסנן לפי תוויות אחרות, כמו מיקום הסביבה או גרסת התמונה.משאב Cloud Composer Workflow מכיל מדדים של DAG.
כדי להציג מדדים עבור DAG או משימה ספציפיים, צריך לסנן את המדדים לפי התוויות
workflow_nameו-task_name. אפשר גם לסנן לפי תוויות אחרות, כמו סטטוס המשימה או שם האופרטור של Airflow.
API ו-gcloud
אפשר ליצור ולנהל לוחות בקרה בהתאמה אישית ווידג'טים באמצעות Cloud Monitoring API והפקודה gcloud monitoring dashboards. מידע נוסף מופיע במאמר בנושא ניהול לוחות בקרה באמצעות API.
מידע נוסף על משאבים, מדדים ומסננים מופיע במאמר בנושא Cloud Monitoring API:
שימוש בהתראות של Cloud Monitoring
אתם יכולים ליצור מדיניות התראות כדי לעקוב אחרי ערכי המדדים ולקבל התראה כשהמדדים האלה לא עומדים בתנאי מסוים.
-
נכנסים לדף notifications Alerting במסוף Google Cloud :
אם משתמשים בסרגל החיפוש כדי למצוא את הדף הזה, בוחרים בתוצאה שבה הכותרת המשנית היא Monitoring.
- אם לא יצרתם ערוצי התראות ואתם רוצים לקבל התראות, לוחצים על Edit Notification Channels (עריכת ערוצי התראות) ומוסיפים את ערוצי ההתראות. אחרי שמוסיפים את הערוצים, חוזרים לדף התראות.
- בדף Alerting, בוחרים באפשרות Create policy.
- כדי לבחור את המדד, מרחיבים את התפריט Select a metric ומבצעים את הפעולות הבאות:
- כדי להגביל את התפריט לרשומות רלוונטיות, מזינים
Cloud Composerבסרגל הסינון. אם לא מוצאים תוצאות אחרי סינון התפריט, משביתים את המתג Show only active resources & metrics. - בשדה Resource type, בוחרים באפשרות Cloud Composer Environment או Cloud Composer Workflow.
- בוחרים קטגוריית מדד ומדד, ואז לוחצים על החלה.
- כדי להגביל את התפריט לרשומות רלוונטיות, מזינים
- לוחצים על הבא.
- ההגדרות בדף Configure alert trigger קובעות מתי ההתראה תופעל. בוחרים סוג תנאי, ואם צריך, מציינים סף. מידע נוסף זמין במאמר יצירת מדיניות התראות על סמך סף מדד.
- לוחצים על הבא.
- אופציונלי: כדי להוסיף התראות למדיניות ההתראות, לוחצים על ערוצי התראות. בתיבת הדו-שיח, בוחרים ערוץ או יותר של הודעות מהתפריט ולוחצים על אישור.
- אופציונלי: מעדכנים את משך הזמן עד לסגירה אוטומטית של אירוע. השדה הזה קובע מתי מערכת Monitoring סוגרת אירועים בהיעדר נתוני מדדים.
- אופציונלי: לוחצים על תיעוד, ואז מוסיפים את המידע שרוצים לכלול בהודעת ההתראה.
- לוחצים על שם ההתראה ומזינים שם למדיניות ההתראה.
- לוחצים על יצירת מדיניות.