Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)
Sie können Cloud Monitoring und Cloud Logging für den Managed Service für Apache Airflow verwenden.
Cloud Monitoring bietet Einblicke in die Leistung, die Betriebszeit und den Gesamtstatus cloudbasierter Anwendungen. Cloud Monitoring sammelt und erfasst Messwerte, Ereignisse und Metadaten aus Managed Airflow, um Informationen in Dashboards und Diagrammen zu generieren. Mit Cloud Monitoring können Sie die Leistung und den Zustand Ihrer verwalteten Airflow-Umgebungen und Airflow-Messwerte ermitteln.
Mit Logging werden die von den Planer- und Worker-Containern im Cluster Ihrer Umgebung erstellten Logs erfasst. Diese Logs enthalten Informationen zu Komponenten auf Systemebene und zu Airflow-Abhängigkeiten, die bei der Fehlerbehebung hilfreich sind. Informationen zum Aufrufen von Logs finden Sie unter Airflow-Logs ansehen.
Hinweis
Die folgenden Berechtigungen sind erforderlich, um auf Logs und Messwerte für Ihre Managed Airflow-Umgebung zuzugreifen:
- Schreibgeschützter Zugriff auf Logs und Messwerte:
logging.viewerundmonitoring.viewer - Lesezugriff auf Logs, einschließlich privater Logs:
logging.privateLogViewer - Lese-/Schreibzugriff auf Messwerte:
monitoring.editor
Weitere Informationen zu anderen Berechtigungen und Rollen für Managed Airflow finden Sie unter Zugriffssteuerung.
- Schreibgeschützter Zugriff auf Logs und Messwerte:
Zur Vermeidung einer doppelten Logging-Aktivität ist Cloud Logging für Google Kubernetes Engine deaktiviert.
Cloud Logging generiert für jeden Status und jedes Ereignis in Ihrem Google Cloud -Projekt einen Eintrag. Mithilfe von Ausschlussfiltern können Sie das Logvolumen reduzieren. Dies gilt auch für die Logs, die Cloud Logging für Managed Airflow erstellt.
Umgebungsmesswerte
Mit Umgebungsmesswerten können Sie die Ressourcennutzung und den Zustand Ihrer Managed Airflow-Umgebungen prüfen.
Umgebungsstatus
Den Status Ihrer Umgebung können Sie mit folgendem Messwert prüfen:
| Messwert | API |
|---|---|
| Gesundheit einer Umgebung |
composer.googleapis.com/environment/healthy |
Managed Airflow führt den Aktivitäts-DAG airflow_monitoring nach einem Zeitplan aus und meldet den Umgebungsstatus so:
- Wenn die Ausführung des Liveness-DAG erfolgreich abgeschlossen wurde, lautet der Systemstatus
True. - Wenn die Ausführung des Liveness-DAG fehlschlägt, lautet der Systemstatus
False.
Der Aktivitäts-DAG wird im Ordner dags/ gespeichert und in der Airflow-UI angezeigt. Häufigkeit und Inhalt des Aktivitäts-DAG sind unveränderlich und dürfen nicht geändert werden. Änderungen am Aktivitäts-DAG werden nicht übernommen.
Überprüfungen der Abhängigkeiten der Umgebung
In Managed Airflow wird regelmäßig geprüft, ob die Umgebung die für den Betrieb erforderlichen Dienste erreichen kann und ob sie über genügend Berechtigungen verfügt, um mit ihnen zu interagieren. Beispiele für Dienste, die für den Betrieb der Umgebung erforderlich sind, sind Artifact Registry, Cloud Logging und Cloud Monitoring.
Die folgenden Messwerte sind für die Überprüfung der Abhängigkeiten der Umgebung verfügbar:
| Messwert | API | Beschreibung |
|---|---|---|
| Anzahl der Abhängigkeitsprüfungen |
composer.googleapis.com/environment/health/dependency_check_count
|
Dieser Messwert gibt an, wie oft Erreichbarkeitsprüfungen für Dienste durchgeführt werden, die für den Betrieb der Umgebung erforderlich sind. |
| Anzahl der Berechtigungsprüfungen für Abhängigkeiten |
composer.googleapis.com/environment/health/dependency_permissions_check_count
|
Mit diesem Messwert wird die Anzahl der Berechtigungsprüfungen für Dienste erfasst, die für den Betrieb der Umgebung erforderlich sind. |
Datenbankstatus
Zum Prüfen des Status Ihrer Datenbank verwenden Sie folgenden Messwert für den Systemstatus: composer.googleapis.com/environment/database_health.
Der Airflow-Monitoring-Pod kontaktiert die Datenbank jede Minute und meldet den Systemstatus als True, wenn eine SQL-Verbindung hergestellt werden kann. Andernfalls wird False ausgegeben.
Datenbankmesswerte
Die folgenden Umgebungsmesswerte sind für die Airflow-Metadatendatenbank verfügbar, die von Managed Airflow-Umgebungen verwendet wird. Mit diesen Messwerten können Sie die Leistung und Ressourcennutzung der Datenbankinstanz Ihrer Umgebung überwachen.
Beispielsweise bietet es sich an, die Größe Ihrer Umgebung zu erhöhen, wenn sich die Umgebung den Ressourcenlimits nähert. Sie können auch die Größe Ihrer Datenbank durch eine Datenbankbereinigung optimieren.
| Datenbankmesswert | API | Beschreibung |
|---|---|---|
| CPU-Nutzung der Datenbank |
composer.googleapis.com/environment/database/cpu/usage_time
|
|
| Datenbank-CPU-Kerne |
composer.googleapis.com/environment/database/cpu/reserved_cores
|
|
| CPU-Auslastung der Datenbank |
composer.googleapis.com/environment/database/cpu/utilization
|
|
| Arbeitsspeichernutzung der Datenbank |
composer.googleapis.com/environment/database/memory/bytes_used
|
|
| Arbeitsspeicherkontingent der Datenbank |
composer.googleapis.com/environment/database/memory/quota
|
|
| Speichernutzung der Datenbank |
composer.googleapis.com/environment/database/memory/utilization
|
|
| Datenträgerbelegung der Datenbank |
composer.googleapis.com/environment/database/disk/bytes_used
|
|
| Laufwerkskontingent der Datenbank |
composer.googleapis.com/environment/database/disk/quota
|
|
| Laufwerksauslastung der Datenbank |
composer.googleapis.com/environment/database/disk/utilization
|
|
| Limit für Datenbankverbindungen |
composer.googleapis.com/environment/database/network/max_connections
|
|
| Datenbankverbindungen |
composer.googleapis.com/environment/database/network/connections
|
|
| Für Failover verfügbare Datenbank |
composer.googleapis.com/environment/database/available_for_failover
|
True, wenn sich die Cloud SQL-Instanz der Umgebung im Hochverfügbarkeitsmodus befindet und für das Failover bereit ist. |
| Anzahl der Anfragen für automatisches Failover der Datenbank |
composer.googleapis.com/environment/database/auto_failover_request_count
|
Gesamtzahl der Auto-Failover-Anfragen der Cloud SQL-Instanz der Umgebung. |
Worker-Messwerte
Die folgenden Umgebungsmesswerte sind für Airflow-Worker in Managed Airflow-Umgebungen (Gen 3) und Managed Airflow-Umgebungen (Gen 2) verfügbar.
Dieser Messwert wird verwendet, um die Anzahl der Worker in Ihrer Umgebung automatisch zu skalieren. Der Horizontal Pod Autoscaler legt diesen Messwert fest. Die Umgebungskomponente Airflow Worker Set Controller verwendet diesen Messwert dann, um die Anzahl der Airflow-Worker je nach Wert dieses Messwerts zu erhöhen oder zu verringern.
| Worker-Messwert | API |
|---|---|
| Ziel für Skalierungsfaktor |
composer.googleapis.com/environment/worker/scale_factor_target |
Planermesswerte
| Name | API | Beschreibung |
|---|---|---|
| Aktive Planer |
composer.googleapis.com/environment/active_schedulers
|
Anzahl der aktiven Planerinstanzen. |
Messwerte für Trigger
| Name | API | Beschreibung |
|---|---|---|
| Aktive Trigger |
composer.googleapis.com/environment/active_triggerers
|
Die Anzahl der aktiven Triggerinstanzen. |
Webservermesswerte
Die folgenden Umgebungsmesswerte sind für den Airflow-Webserver verfügbar, der von Managed Airflow-Umgebungen verwendet wird. Mit diesen Messwerten können Sie die Leistung und Ressourcennutzung der Airflow-Webserverinstanz Ihrer Umgebung prüfen.
| Name | API | Beschreibung |
|---|---|---|
| Aktive Webserver | composer.googleapis.com/environment/active_webservers |
Anzahl der aktiven Webserverinstanzen. |
Kontingente für Dienste, die von der Umgebung verwendet werden
Managed Airflow verwendet andere Google Cloud Dienste. Für diese Dienste gelten Kontingente auf Projektebene, die bei der Verwendung von Managed Airflow gelten.
In Managed Airflow (Gen 3) befindet sich der Cluster der Umgebung im Mandantenprojekt. Managed Airflow (3. Generation) bietet die folgenden Messwerte, mit denen die Nutzung von Kontingenten und die entsprechenden Kontingentlimits für Dienste, die von Ihrer Umgebung verwendet werden, im Mandantenprojekt erfasst werden.
| Messwert | API | Beschreibung |
|---|---|---|
| CPU-Kontingentlimit für Managed Airflow-Arbeitslasten |
composer.googleapis.com/environment/workloads_cpu_quota
|
(Nur Managed Airflow (3. Generation)) Das Zuteilungskontingent für die CPU für Compute Engine für die Gesamtzahl der virtuellen CPUs, die von einer Umgebung verwendet werden. Das Limit gilt pro Umgebung. Wenn Ihr Projekt mehrere Managed Airflow-Umgebungen (3. Generation) hat, hat jede Umgebung ein eigenes Kontingentlimit. |
| CPU-Kontingentnutzung für Managed Airflow-Arbeitslasten |
composer.googleapis.com/environment/workloads_cpu_quota_usage
|
(Nur Managed Airflow (Gen 3)) Die Nutzung des Compute Engine-Zuteilungskontingents für die CPU-Zuweisung durch eine Umgebung. |
DAG-Messwerte
Mit den folgenden DAG-Messwerten können Sie die Effizienz der DAG-Ausführungen überwachen und Aufgaben ermitteln, die eine hohe Latenz verursachen.
| DAG-Messwert | API |
|---|---|
| Anzahl der DAG-Ausführungen |
composer.googleapis.com/workflow/run_count |
| Dauer jeder DAG-Ausführung |
composer.googleapis.com/workflow/run_duration |
| Anzahl der Aufgabenausführungen |
composer.googleapis.com/workflow/task/run_count |
| Dauer jeder Aufgabenausführung |
composer.googleapis.com/workflow/task/run_duration |
Cloud Monitoring stellt nur die Messwerte für abgeschlossene Workflows und Aufgaben (als erfolgreich oder fehlgeschlagen) dar. No Data (Keine Daten) wird angezeigt, wenn keine Workflowaktivität vorhanden ist, oder für Workflow- und Aufgabenausführungen, die sich in Bearbeitung befinden.
Celery Executor-Messwerte
Die folgenden Celery Executor-Messwerte sind verfügbar. Mithilfe dieser Messwerte können Sie feststellen, ob in Ihrer Umgebung genügend Worker-Ressourcen vorhanden sind.
| Celery Executor-Messwert | API |
|---|---|
| Anzahl der Aufgaben in der Warteschlange |
composer.googleapis.com/environment/task_queue_length |
| Anzahl der Online-Celery-Worker |
composer.googleapis.com/environment/num_celery_workers |
Airflow-Messwerte
Die folgenden Airflow-Messwerte sind verfügbar. Diese Messwerte entsprechen Messwerten, die von Airflow bereitgestellt werden.
| Name | API | Name in Airflow | Beschreibung |
|---|---|---|---|
| Exit-Codes ungleich null für Celery-Tasks |
composer.googleapis.com/environment/celery/execute_command_failure_count
|
celery.execute_command.failure
|
Anzahl der Exit-Codes ungleich null aus Celery-Tasks. |
| Zeitüberschreitungen beim Veröffentlichen von Celery-Aufgaben |
composer.googleapis.com/environment/celery/task_timeout_error_count
|
celery.task_timeout_error
|
Anzahl der AirflowTaskTimeout-Fehler, die beim Veröffentlichen der Task in Celery Broker aufgetreten sind. |
| Dauer des Abrufs serialisierter DAGs |
composer.googleapis.com/environment/collect_db_dag_duration
|
collect_db_dags
|
Zeit, die zum Abrufen aller serialisierten DAGs aus der Datenbank benötigt wird. |
| Fehler beim Aktualisieren von DAGs |
composer.googleapis.com/environment/dag_callback/exception_count
|
dag.callback_exceptions
|
Anzahl der Ausnahmen, die von DAG-Callbacks ausgelöst wurden. In diesem Fall funktioniert ein DAG-Rückruf nicht. |
| Fehler beim Aktualisieren von DAGs |
composer.googleapis.com/environment/dag_file/refresh_error_count
|
dag_file_refresh_error
|
Anzahl der Fehler beim Laden von DAG-Dateien. |
| Ladezeit der DAG-Datei |
composer.googleapis.com/environment/dag_processing/last_duration
|
dag_processing.last_duration.<dag_file>
|
Zeit, die zum Laden einer bestimmten DAG-Datei benötigt wurde. |
| Zeit seit der Verarbeitung der DAG-Datei |
composer.googleapis.com/environment/dag_processing/last_run_elapsed_time
|
dag_processing.last_run.seconds_ago.<dag_file>
|
Sekunden seit der letzten Verarbeitung einer DAG-Datei. |
| Anzahl der Blockierungen von DagFileProcessorManager |
composer.googleapis.com/environment/dag_processing/manager_stall_count
|
dag_processing.manager_stalls
|
Anzahl der DagFileProcessorManager-Prozesse, die nicht abgeschlossen werden können. |
| Fehler beim Parsen von DAGs |
composer.googleapis.com/environment/dag_processing/parse_error_count
|
dag_processing.import_errors
|
Anzahl der Fehler, die beim Parsen von DAG-Dateien generiert wurden. |
| DAG-Parsing-Prozesse ausführen |
composer.googleapis.com/environment/dag_processing/processes
|
dag_processing.processes
|
Anzahl der aktuell ausgeführten DAG-Parsing-Prozesse. |
| Zeitüberschreitungen von Prozessoren |
composer.googleapis.com/environment/dag_processing/processor_timeout_count
|
dag_processing.processor_timeouts
|
Anzahl der Dateiprozessoren, die aufgrund zu langer Ausführungszeit beendet wurden. |
| Zeit, die zum Scannen und Importieren aller DAG-Dateien benötigt wird |
composer.googleapis.com/environment/dag_processing/total_parse_time
|
dag_processing.total_parse_time
|
Gesamtzeit, die benötigt wird, um alle DAG-Dateien einmal zu scannen und zu importieren. |
| Aktuelle Größe der DAG-Bags |
composer.googleapis.com/environment/dagbag_size
|
dagbag_size
|
Anzahl der DAGs, die gefunden wurden, als der Scheduler einen Scan basierend auf seiner Konfiguration ausgeführt hat. |
| E-Mail-Benachrichtigungen bei nicht eingehaltenen SLAs |
composer.googleapis.com/environment/email/sla_notification_failure_count
|
sla_email_notification_failure
|
Anzahl der fehlgeschlagenen Versuche, E‑Mail-Benachrichtigungen zu verpassten SLAs zu senden. |
| Offene Slots auf dem Executor |
composer.googleapis.com/environment/executor/open_slots
|
executor.open_slots
|
Anzahl der offenen Slots auf dem Executor. |
| Aufgaben in der Warteschlange für Executor |
composer.googleapis.com/environment/executor/queued_tasks
|
executor.queued_tasks
|
Anzahl der in die Warteschlange eingereihten Aufgaben für den Executor. |
| Tasks auf dem Executor ausführen |
composer.googleapis.com/environment/executor/running_tasks
|
executor.running_tasks
|
Anzahl der laufenden Aufgaben auf dem Executor. |
| Erfolge/Fehler bei Task-Instanzen |
composer.googleapis.com/environment/finished_task_instance_count
|
ti_failures, ti_successes
|
Gesamtzahl der erfolgreichen/fehlgeschlagenen Aufgabeninstanzen. |
| Gestartete/abgeschlossene Jobs |
composer.googleapis.com/environment/job/count
|
<job_name>_start, <job_name>_end
|
Anzahl der gestarteten/abgeschlossenen Jobs, z. B. SchedulerJob, LocalTaskJob. |
| Fehler bei Job-Heartbeats |
composer.googleapis.com/environment/job/heartbeat_failure_count
|
<job_name>_heartbeat_failure
|
Anzahl der fehlgeschlagenen Heartbeats für einen Job. |
| Von Operatoren erstellte Aufgaben |
composer.googleapis.com/environment/operator/created_task_instance_count
|
task_instance_created-<operator_name>
|
Anzahl der Aufgabeninstanzen, die für einen bestimmten Operator erstellt wurden. |
| Operatorausführungen |
composer.googleapis.com/environment/operator/finished_task_instance_count
|
operator_failures_<operator_name>, operator_successes_<operator_name>
|
Anzahl der abgeschlossenen Aufgabeninstanzen pro Operator |
| Offene Slots im Pool |
composer.googleapis.com/environment/pool/open_slots
|
pool.open_slots.<pool_name>
|
Anzahl der freien Plätze im Pool. |
| In die Warteschlange eingereihte Slots im Pool |
composer.googleapis.com/environment/pool/queued_slots
|
pool.queued_slots.<pool_name>
|
Anzahl der in die Warteschlange eingereihten Slots im Pool. |
| Slots im Pool ausführen |
composer.googleapis.com/environment/pool/running_slots
|
pool.running_slots.<pool_name>
|
Anzahl der aktiven Slots im Pool. |
| Aufgaben im Pool werden nicht ausgeführt |
composer.googleapis.com/environment/pool/starving_tasks
|
pool.starving_tasks.<pool_name>
|
Anzahl der Aufgaben im Pool, die nicht ausgeführt werden können. |
| Im kritischen Abschnitt des Schedulers verbrachte Zeit |
composer.googleapis.com/environment/scheduler/critical_section_duration
|
scheduler.critical_section_duration
|
Zeit, die im kritischen Abschnitt der Scheduler-Schleife verbracht wurde. Es kann jeweils nur ein Scheduler in diese Schleife eintreten. |
| Fehler bei der Sperrung kritischer Abschnitte |
composer.googleapis.com/environment/scheduler/critical_section_lock_failure_count
|
scheduler.critical_section_busy
|
Anzahl der Versuche eines Scheduler-Prozesses, eine Sperre für den kritischen Abschnitt zu erhalten (erforderlich, um Aufgaben an den Executor zu senden), bei denen der Abschnitt durch einen anderen Prozess gesperrt war. |
| Extern beendete Aufgaben |
composer.googleapis.com/environment/scheduler/task/externally_killed_count
|
scheduler.tasks.killed_externally
|
Anzahl der extern beendeten Aufgaben. |
| Verwaiste Aufgaben |
composer.googleapis.com/environment/scheduler/task/orphan_count
|
scheduler.orphaned_tasks.cleared, scheduler.orphaned_tasks.adopted
|
Anzahl der verwaisten Aufgaben, die vom Scheduler gelöscht/übernommen wurden. |
| Laufende/ausgehungerte/ausführbare Aufgaben |
composer.googleapis.com/environment/scheduler/tasks
|
scheduler.tasks.running, scheduler.tasks.starving, scheduler.tasks.executable
|
Anzahl der laufenden/unterversorgten/ausführbaren Aufgaben. |
| Planer-Heartbeats |
composer.googleapis.com/environment/scheduler_heartbeat_count
|
scheduler_heartbeat
|
Planer-Heartbeats. |
| Benachrichtigungen über fehlgeschlagene SLA-Rückrufe |
composer.googleapis.com/environment/sla_callback_notification_failure_count
|
sla_callback_notification_failure
|
Anzahl der fehlgeschlagenen Versuche, Rückrufbenachrichtigungen zu verpassten SLAs zu senden. |
| Fehler bei Smart Sensor-Poking-Ausnahmen |
composer.googleapis.com/environment/smart_sensor/exception_failures
|
smart_sensor_operator.exception_failures
|
Anzahl der Fehler, die durch eine Ausnahme in der vorherigen Smart-Sensor-Poking-Schleife verursacht wurden. |
| Fehler bei der Infrastruktur für das Poking von Smart-Sensoren |
composer.googleapis.com/environment/smart_sensor/infra_failures
|
smart_sensor_operator.infra_failures
|
Anzahl der Infrastrukturfehler im vorherigen Smart-Sensor-Poking-Loop. |
| Ausnahmen für das Poking von Smart-Sensoren |
composer.googleapis.com/environment/smart_sensor/poked_exception
|
smart_sensor_operator.poked_exception
|
Anzahl der Ausnahmen im vorherigen Smart-Sensor-Poking-Loop. |
| Aufgaben wurden erfolgreich durch Smart Sensor ausgelöst |
composer.googleapis.com/environment/smart_sensor/poked_success
|
smart_sensor_operator.poked_success
|
Anzahl der neu erfolgreich ausgeführten Aufgaben, die vom Smart Sensor im vorherigen Poking-Loop ausgelöst wurden. |
| Aufgaben für Smart-Sensoren |
composer.googleapis.com/environment/smart_sensor/poked_tasks
|
smart_sensor_operator.poked_tasks
|
Anzahl der Aufgaben, die vom Smart-Sensor im vorherigen Poking-Loop ausgelöst wurden. |
| Zuvor erfolgreiche Task-Instanzen |
composer.googleapis.com/environment/task_instance/previously_succeeded_count
|
previously_succeeded
|
Anzahl der zuvor erfolgreich ausgeführten Aufgabeninstanzen. |
| Gelöschte Zombie-Aufgaben |
composer.googleapis.com/environment/zombie_task_killed_count
|
zombies_killed
|
Anzahl der beendeten Zombie-Aufgaben. |
| Dauer der DAG-Ausführung |
composer.googleapis.com/workflow/dag/run_duration
|
dagrun.duration.success.<dag_id>, dagrun.duration.failed.<dag_id>
|
Zeit, die für einen DagRun benötigt wird, um den Status „Erfolgreich“ oder „Fehlgeschlagen“ zu erreichen. |
| Dauer der DAG-Abhängigkeitsprüfung |
composer.googleapis.com/workflow/dependency_check_duration
|
dagrun.dependency-check.<dag_id>
|
Zeit, die zum Prüfen von DAG-Abhängigkeiten benötigt wird. Dieser Messwert unterscheidet sich von den Messwerten für die Abhängigkeits- und Berechtigungsprüfungen der Umgebung und gilt für DAGs. |
| Verzögerung des DAG-Ausführungszeitplans |
composer.googleapis.com/workflow/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
Verzögerung zwischen dem geplanten Startdatum des DAG-Laufs und dem tatsächlichen Startdatum des DAG-Laufs. |
| Erledigte Aufgaben |
composer.googleapis.com/workflow/task_instance/finished_count
|
ti.finish.<dag_id>.<task_id>.<state>
|
Anzahl der abgeschlossenen Aufgaben in einem bestimmten DAG. |
| Ausführungsdauer der Taskinstanz |
composer.googleapis.com/workflow/task_instance/run_duration
|
dag.<dag_id>.<task_id>.duration
|
Die Zeit, die zum Erledigen einer Aufgabe benötigt wird. |
| Gestartete Aufgaben |
composer.googleapis.com/workflow/task_instance/started_count
|
ti.start.<dag_id>.<task_id>
|
Anzahl der gestarteten Aufgaben in einem bestimmten DAG. |
| Dauer der Warteschlange für Taskinstanz |
composer.googleapis.com/workflow/task_instance/queued_duration
|
dag.<dag_id>.<task_id>.queued_duration
|
Die Zeit, die eine Aufgabe im Status „In der Warteschlange“ verbringt, bevor sie in den Status „Wird ausgeführt“ wechselt. |
| CPU-Nutzung der Aufgabe |
composer.googleapis.com/workflow/task/cpu_usage
|
task.cpu_usage.<dag_id>.<task_id>
|
Prozentsatz der CPU, der von einer Aufgabe verwendet wird. |
| Arbeitsspeichernutzung von Aufgaben |
composer.googleapis.com/workflow/task/mem_usage
|
task.mem_usage.<dag_id>.<task_id>
|
Prozentsatz des von einer Aufgabe verwendeten Arbeitsspeichers. |
| Aufgaben aus DAG entfernt |
composer.googleapis.com/workflow/task/removed_from_dag_count
|
task_removed_from_dag.<dag_id>
|
Anzahl der Aufgaben, die für einen bestimmten DAG entfernt wurden (d. h. die Aufgabe ist nicht mehr im DAG vorhanden). |
| Aufgaben in DAG wiederhergestellt |
composer.googleapis.com/workflow/task/restored_to_dag_count
|
task_restored_to_dag.<dag_id>
|
Anzahl der für einen bestimmten DAG wiederhergestellten Aufgaben (d. h. der Aufgabeninstanz, die zuvor in der Datenbank den Status „REMOVED“ hatte, wird der DAG-Datei hinzugefügt). |
| Verzögerung bei der Aufgabenplanung |
composer.googleapis.com/workflow/task/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
Zeit, die zwischen dem „start_date“ der ersten Aufgabe und dem erwarteten Start des DAG-Laufs vergangen ist. |
| Gesamtzahl der laufenden Trigger |
composer.googleapis.com/workload/triggerer/num_running_triggers
|
triggers.running
|
Die Anzahl der laufenden Trigger pro Trigger-Instanz. |
| Blockierende Trigger |
composer.googleapis.com/environment/trigger/blocking_count
|
triggers.blocked_main_thread
|
Anzahl der Trigger, die den Hauptthread blockiert haben (wahrscheinlich, weil sie nicht vollständig asynchron sind). |
| Fehlgeschlagene Trigger |
composer.googleapis.com/environment/trigger/failed_count
|
triggers.failed
|
Anzahl der Trigger, die mit einem Fehler fehlgeschlagen sind, bevor sie ein Ereignis auslösen konnten. |
| Erfolgreiche Trigger |
composer.googleapis.com/environment/trigger/succeeded_count
|
triggers.succeeded
|
Anzahl der Trigger, die mindestens ein Ereignis ausgelöst haben. |
Monitoring für Managed Airflow-Umgebungen verwenden
Console
Mit dem Metrics Explorer können Sie Messwerte zu Ihren Umgebungen und DAGs aufrufen:
Die Ressource Cloud Composer Environment (Cloud Composer-Umgebung) enthält Messwerte für Umgebungen.
Wenn Sie Messwerte für eine bestimmte Umgebung aufrufen möchten, filtern Sie die Messwerte nach dem Label
environment_name. Sie können auch nach anderen Labels filtern, z. B. nach dem Standort der Umgebung oder der Bildversion.Die Ressource Cloud Composer Workflow enthält Messwerte für DAGs.
Wenn Sie Messwerte für einen bestimmten DAG oder eine bestimmte Aufgabe aufrufen möchten, filtern Sie die Messwerte nach den Labels
workflow_nameundtask_name. Sie können auch nach anderen Labels filtern, z. B. nach dem Aufgabenstatus oder dem Namen des Airflow-Operators.
API und gcloud
Sie können benutzerdefinierte Dashboards und die Widgets über die Cloud Monitoring API und den Befehl gcloud monitoring dashboards erstellen und verwalten. Weitere Informationen finden Sie unter Dashboards nach API verwalten.
Weitere Informationen zu Ressourcen, Messwerten und Filtern finden Sie in der Referenz zur Cloud Monitoring API:
Cloud Monitoring-Benachrichtigungen verwenden
Sie können Benachrichtigungsrichtlinien erstellen, um Messwerte zu beobachten und sich informieren zu lassen, wenn diese gegen eine Bedingung verstoßen.
-
Rufen Sie in der Google Cloud Console die Seite notifications Benachrichtigungen auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Wenn Sie keine Benachrichtigungskanäle erstellt haben und Benachrichtigungen erhalten möchten, klicken Sie auf Benachrichtigungskanäle bearbeiten und fügen Sie Benachrichtigungskanäle hinzu. Kehren Sie nach dem Hinzufügen der Kanäle zur Seite Benachrichtigungen zurück.
- Klicken Sie auf der Seite Benachrichtigungen auf Richtlinie erstellen.
- Maximieren Sie zum Auswählen des Messwerts das Menü Messwert auswählen und gehen Sie dann so vor:
- Um das Menü auf relevante Einträge zu beschränken, geben Sie in die Filterleiste
Cloud Composerein. Wenn nach dem Filtern des Menüs keine Ergebnisse angezeigt werden, deaktivieren Sie die Option Nur aktive Ressourcen und Messwerte anzeigen. - Wählen Sie für den Ressourcentyp Cloud Composer Environment oder Cloud Composer Workflow aus.
- Wählen Sie eine Messwertkategorie und einen Messwert aus, und klicken Sie dann auf Übernehmen.
- Um das Menü auf relevante Einträge zu beschränken, geben Sie in die Filterleiste
- Klicken Sie auf Weiter.
- Die Einstellungen auf der Seite Benachrichtigungstrigger konfigurieren bestimmen, wann die Benachrichtigung ausgelöst wird. Wählen Sie einen Bedingungstyp aus, und geben Sie ggf. einen Schwellenwert an. Weitere Informationen finden Sie unter Benachrichtigungsrichtlinien mit Messwertschwellen erstellen.
- Klicken Sie auf Weiter.
- Optional: Klicken Sie auf Benachrichtigungskanäle, um Benachrichtigungen zu Ihrer Benachrichtigungsrichtlinie hinzuzufügen. Wählen Sie im Dialogfeld einen oder mehrere Benachrichtigungskanäle aus dem Menü aus, und klicken Sie dann auf OK.
- Optional: Aktualisieren Sie die Dauer bis zur automatischen Schließung von Vorfällen. Dieses Feld bestimmt, wann Monitoring Vorfälle ohne Messwertdaten schließt.
- Optional: Klicken Sie auf Dokumentation, und geben Sie alle Informationen an, die in einer Benachrichtigung angezeigt werden sollen.
- Klicken Sie auf Benachrichtigungsname, und geben Sie einen Namen für die Benachrichtigungsrichtlinie ein.
- Klicken Sie auf Richtlinie erstellen.