Ringkasan Orchestration Pipelines

Orchestration Pipelines adalah framework orkestrasi dan deployment otomatis yang terpadu dan deklaratif yang dioptimalkan untuk mengelola pipeline data dan AI secara lancar diGoogle Cloud.

Dengan Pipeline Orkestrasi, Anda dapat menentukan pipeline dan konfigurasi deployment-nya menggunakan Bahasa Khusus Domain (DSL) berbasis YAML deklaratif. Framework ini mengabstraksi infrastruktur yang mendasarinya, sehingga Anda dapat berfokus pada logika alur kerja data dan AI, sementara Orchestration Pipelines menangani deployment, pembuatan versi, dan orkestrasi.

Skenario penggunaan yang dimaksudkan

Pipeline Orkestrasi dirancang untuk data engineer dan data scientist yang perlu:

  • Membangun CI/CD yang andal untuk pipeline data: Validasi dan deploy pipeline secara otomatis setiap kali perubahan di-commit ke repositori.
  • Mengelola beberapa lingkungan deployment: Pertahankan konfigurasi terpisah untuk lingkungan pengembangan, staging, dan produksi, yang masing-masing memiliki setelan dan resource pelaksana sendiri.
  • Membangun pipeline menggunakan alat pilihan: Gunakan IDE (seperti Colab, VS Code, atau JupyterLab) dan bahasa pilihan Anda untuk mengembangkan pipeline yang berjalan di berbagai mesin.
  • Memastikan konsistensi deployment: Gunakan paket pipeline versi untuk memastikan semua aset dan konfigurasi untuk rilis tertentu di-deploy dan dieksekusi bersama.

Fitur utama produk

  • DSL deklaratif: Bahasa berbasis YAML untuk menentukan pipeline, tindakan, dan konfigurasi deployment.
  • Lingkungan Deployment: Dukungan untuk beberapa lingkungan, yang masing-masing dikonfigurasi dengan lingkungan pelaksananya sendiri (seperti Managed Service for Apache Airflow) dan penyimpanan artefak.
  • Paket Pipeline dengan Kontrol Versi dan Reproduksibilitas: Paket berversi yang berisi definisi pipeline dan aset terkait (seperti skrip Python) yang di-deploy sebagai satu unit. Setiap deployment dilacak, sehingga memudahkan untuk me-roll back atau mereproduksi run tertentu.
  • Substitusi Variabel dan Pengelolaan Secret: Sistem fleksibel untuk membuat parameter pipeline menggunakan variabel kustom, variabel lingkungan, dan secret dari penyedia CI/CD.
  • Alat Validasi: Perintah bawaan untuk memeriksa sintaksis dan kebenaran semantik pipeline Anda sebelum deployment.
  • Pemicu Manual dan Terjadwal: Mendukung penjadwalan otomatis dan eksekusi pipeline secara manual.

Framework dan integrasi yang didukung

Pipeline Orkestrasi dirancang untuk terintegrasi dengan berbagai alat dan layanan:

  • Mesin Orkestrasi: Managed Service for Apache Airflow (Gen 2 dan Gen 3), termasuk dukungan untuk Airflow 2 dan Airflow 3.
  • Mesin Komputasi dan Data: BigQuery, Managed Service for Apache Spark, Managed Service for Apache Spark, Dataform, DBT.
  • Lingkungan Pengembangan: VS Code, dan Antigravity melalui ekstensi Google Cloud Data Agent Kit.
  • Penyedia Git: GitHub.