Informazioni sulla scalabilità degli ambienti

Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)

Questa pagina descrive il funzionamento della scalabilità dell'ambiente.

Altre pagine sulla scalabilità:

Scalabilità automatica degli ambienti

Gli ambienti Managed Airflow scalano automaticamente in risposta alle esigenze dei DAG e delle attività eseguiti:

  • Se l'ambiente è sottoposto a un carico elevato, Managed Airflow aumenta automaticamente il numero di worker nell'ambiente.
  • Se l'ambiente non utilizza alcuni dei suoi worker, questi vengono rimossi per risparmiare risorse e costi dell'ambiente.
  • Puoi impostare il numero minimo e massimo di worker per l'ambiente. Managed Airflow scala automaticamente l'ambiente entro i limiti impostati. Puoi modificare questi limiti in qualsiasi momento.

Il numero di worker viene modificato in base a la metrica Obiettivo fattore di scalabilità. Questa metrica viene calcolata in base a:

  • Numero attuale di worker
  • Numero di attività Celery nella coda Celery, non assegnate a un worker
  • Numero di worker inattivi
  • Opzione di configurazione di Airflow celery.worker_concurrency

La scalabilità automatica di Managed Airflow utilizza tre diversi gestori della scalabilità automatica forniti da GKE:

Managed Airflow configura questi gestori della scalabilità automatica nel cluster dell'ambiente. In questo modo, il numero di nodi nel cluster, il tipo di macchina e il numero di worker vengono scalati automaticamente.

Parametri di scalabilità e prestazioni

Oltre alla scalabilità automatica, puoi controllare i parametri di scalabilità e prestazioni dell'ambiente modificando i limiti di CPU, memoria e disco di worker, scheduler, trigger e server web. In questo modo, puoi scalare l'ambiente verticalmente, oltre alla scalabilità orizzontale fornita dalla funzionalità di scalabilità automatica. Puoi modificare i parametri di scalabilità e prestazioni in qualsiasi momento.

Il parametro di prestazioni Dimensione ambiente dell'ambiente controlla i parametri di prestazioni dell'infrastruttura Managed Airflow gestita che include il database Airflow. Se hai intenzione di eseguire un numero elevato di DAG e attività con prestazioni dell'infrastruttura più elevate, valuta la possibilità di selezionare una dimensione dell'ambiente più grande. Ad esempio, la dimensione di un ambiente più grande aumenta la quantità di voci di log delle attività Airflow che l'ambiente può elaborare con un ritardo minimo.

La dimensione dell'ambiente è diversa dai preset dell'ambiente. I preset dell'ambiente , che puoi selezionare quando crei un ambiente nella Google Cloud console, determinano i limiti iniziali, la scalabilità e i parametri di prestazioni dell'ambiente, inclusa la dimensione dell'ambiente. La dimensione dell'ambiente determina solo i parametri di prestazioni dell'infrastruttura Managed Airflow gestita dell'ambiente.

Più scheduler

L'ambiente può eseguire più di uno scheduler Airflow contemporaneamente:

  • Puoi impostare il numero di scheduler per l'ambiente e modificarlo in qualsiasi momento.
  • Managed Airflow non scala automaticamente il numero di scheduler nell'ambiente.

Per ulteriori informazioni sulla configurazione del numero di scheduler per l'ambiente, consulta Scalare gli ambienti.

Spazio su disco del database

Lo spazio su disco per il database Airflow aumenta automaticamente per soddisfare la domanda.

Passaggi successivi