Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Membangun pipeline rekayasa data

Panduan ini menjelaskan cara membuat dan men-deploy pipeline orkestrasi di ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code.

Contoh pipeline menjalankan skrip PySpark di Managed Service untuk Apache Spark.

Anda dapat men-deploy pipeline orkestrasi dari VS Code sebagai versi lokal atau melalui tindakan GitHub, seperti saat menggabungkan perubahan ke cabang main. Dokumen ini menunjukkan cara men-deploy versi lokal pipeline orkestrasi.

Sebelum memulai

Sebelum Anda memulai, selesaikan hal-hal berikut:

Instal ekstensi Data Agent Kit untuk VS Code.
Konfigurasi setelan Anda.
Tambahkan repositori GitHub ke ruang kerja VS Code Anda untuk menyimpan pipeline orkestrasi dan aset seperti skrip.

Meninjau peran IAM yang diperlukan

Untuk mendapatkan izin membuat resource di project, men-deploy, dan menjalankan pipeline orkestrasi, minta administrator untuk memberi Anda peran yang diperlukan.

Untuk membuat dan mengelola lingkungan Managed Service untuk Apache Airflow serta mengelola objek di bucket terkaitnya, Anda memerlukan peran berikut. Untuk mengetahui informasi selengkapnya tentang peran pengguna ini, lihat Memberikan peran kepada pengguna di dokumentasi Managed Service for Apache Airflow.

Environment and Storage Object Administrator (composer.environmentAndStorageObjectAdmin)
Service Account User (iam.serviceAccountUser)

Untuk menggunakan resource BigQuery dan Cloud Storage, Anda memerlukan peran berikut.

BigQuery Data Editor (roles/bigquery.dataEditor)
Storage Object Admin (roles/storage.objectAdmin)

Bergantung pada resource yang ingin Anda akses, Anda mungkin memerlukan peran tambahan selain peran yang memungkinkan Anda menggunakan ekstensi dan bekerja dengan pipeline orkestrasi.

Buat akun layanan dan berikan peran IAM

Gunakan akun layanan unik untuk lingkungan Managed Airflow Gen 3. Akun layanan membuat lingkungan Managed Airflow Gen 3 dan menjalankan semua pipeline orkestrasi yang Anda deploy.

Minta administrator Anda untuk menyelesaikan langkah-langkah berikut:

Buat akun layanan seperti yang dijelaskan dalam dokumentasi IAM.
Berikan peran Composer Worker (composer.worker) ke akun layanan. Peran ini memberikan izin yang diperlukan dalam sebagian besar kasus.

Sebagai praktik terbaik, jika Anda perlu mengakses resource lain di Google Cloud project, berikan izin tambahan ke akun layanan ini hanya jika diperlukan untuk operasi pipeline orkestrasi.

Membuat resource Google Cloud untuk pipeline orkestrasi Anda

Pada langkah ini, buat resource Google Cloud untuk pipeline orkestrasi Anda.

Membuat lingkungan Managed Airflow Gen 3

Buat lingkungan Managed Airflow Gen 3 dengan konfigurasi berikut:

Nama lingkungan: Masukkan nama yang akan Anda gunakan nanti untuk mengonfigurasi pipeline orkestrasi. Contoh, example-pipeline-scheduler.
Lokasi: Pilih lokasi. Sebaiknya buat semua resource dalam panduan ini di lokasi yang sama. Contoh, us-central1.
Akun layanan: Pilih akun layanan yang Anda buat untuk lingkungan ini.

Contoh perintah Google Cloud CLI berikut menunjukkan sintaksisnya:

gcloud composer environments create example-pipeline-scheduler \
  --location us-central1 \
  --image-version composer-3-airflow-2 \
  --service-account "example-account@example-project.iam.gserviceaccount.com"

Menambahkan parameter lingkungan ke konfigurasi penjadwal

Berikan detail koneksi untuk lingkungan Managed Airflow yang akan menjalankan pipeline orkestrasi Anda.

Tambahkan parameter konfigurasi lingkungan yang telah Anda buat menggunakan editor Setelan Google Cloud Data Agent Kit:

Klik ikon Google Cloud Data Agent Kit di kolom aktivitas.
Luaskan Setelan, lalu klik Setelan.
Pilih Scheduler.
Masukkan parameter untuk lingkungan Managed Airflow Gen 3 yang Anda buat sebelumnya:
- Project ID: nama project tempat lingkungan berada. Contoh: example-project.
- Region: region tempat lingkungan berada. Contoh: us-central1.
- Environment: nama lingkungan. Contoh: example-pipeline-scheduler.
Klik Simpan.

Membuat bucket untuk artefak pipeline

Buat bucket Cloud Storage di project yang sama dengan lingkungan Managed Airflow dan beri nama yang mirip dengan example-pipelines-bucket. Bucket ini diperlukan untuk menyimpan tugas Managed Service untuk Apache Spark Anda.

Beberapa tindakan pipeline, seperti output hasil ke bucket Cloud Storage.

Membuat set data dan tabel baru di BigQuery

Panduan ini menunjukkan pipeline yang menulis data ke tabel BigQuery. Buat resource BigQuery berikut di project Anda:

Buat set data baru bernama wordcount_dataset.
Buat tabel BigQuery baru bernama wordcount_output.

Menambahkan aset funnel

Panduan ini menunjukkan tugas rekayasa data umum (ETL: Ekstrak, Transformasi, Muat) menggunakan PySpark, membaca dari BigQuery, mentransformasi data (jumlah kata), dan memuatnya kembali ke BigQuery.

Non-agentik

Tambahkan file berikut ke folder /scripts repositori Anda. Selanjutnya, Anda akan menambahkan tindakan pipeline yang menjalankan skrip ini di Managed Service untuk Apache Spark.

Contoh file wordcount.py:

#!/usr/bin/python
"""BigQuery I/O PySpark example for Word Count"""

from pyspark.sql import SparkSession

spark = SparkSession \
.builder \
.appName('spark-bigquery-demo') \
.getOrCreate()

# Use the Cloud Storage bucket for temporary BigQuery export data used
# by the connector.
bucket = ARTIFACTS_BUCKET_NAME
spark.conf.set('temporaryGcsBucket', bucket)

# Load data from BigQuery public dataset (Shakespeare).
words = spark.read.format('bigquery') \
.option('table', 'bigquery-public-data:samples.shakespeare') \
.load()
words.createOrReplaceTempView('words')

# Perform word count using Spark SQL.
# This query counts occurrences of each word.
word_count = spark.sql(
    'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word ORDER BY word_count DESC'
)
word_count.show()
word_count.printSchema()

# Saving the results to a new table in BigQuery.
# Replace YOUR_PROJECT_ID with your project ID.
destination_table = 'PROJECT_ID:wordcount_dataset.wordcount_output'
word_count.write.format('bigquery') \
.option('table', destination_table) \
.mode('overwrite') \
.save()

print(f"Successfully wrote word counts to BigQuery table: {destination_table}")

Ganti kode berikut:

ARTIFACTS_BUCKET_NAME: nama bucket Cloud Storage yang Anda buat sebelumnya. Contoh: example-pipelines-bucket.
PROJECT_ID: nama project tempat lingkungan berada. Contoh: example-project.

Agentic

Minta Agen untuk membuat contoh skrip PySpark di folder /scripts repositori Anda. Selanjutnya, Anda akan menambahkan tindakan pipeline yang menjalankan skrip ini di Managed Service untuk Apache Spark.

Masukkan perintah yang mirip dengan berikut:

I want to create a PySpark script that does the following:

1. Loads data from the bigquery-public-data:samples.shakespeare.
2. Counts occurrences of each word across all works using a Spark SQL query.
Sum the existing word counts for each word to get the total occurrences.
I want the results to be ordered by the word popularity, most popular first.
3. Saves results to a new table in BigQuery, in my project.

My project is sample-project, the destination table is
wordcount_dataset.wordcount_output, and I want to store temporary BigQuery
export data in example-pipelines-bucket.

Save the resulting script to /scripts as wordcount.py

Menginisialisasi pipeline orkestrasi di repositori Anda

Saat Anda menginisialisasi pipeline orkestrasi, ekstensi Data Agent Kit untuk VS Code akan membuat scaffolding yang mencakup hal berikut:

File YAML pipeline orkestrasi: Contoh definisi pipeline yang berisi jadwal, tetapi tidak ada tindakan yang ditentukan.
deployment.yaml: Contoh konfigurasi deployment pipeline yang menentukan cara pipeline Anda harus di-deploy. File ini menunjukkan konfigurasi yang diperlukan untuk lingkungan Managed Airflow, bucket artefak, dan resource lain yang digunakan oleh tindakan pipeline Anda.
.github/workflows/deploy.yaml: Menyiapkan tindakan GitHub yang men-deploy pipeline saat Anda menggabungkan perubahan ke cabang main di repositori GitHub Anda.
.github/workflows/validate.yaml: Menyiapkan tindakan GitHub yang memvalidasi pipeline Anda setelah di-deploy.

Pada langkah-langkah selanjutnya dalam dokumen ini, Anda akan memperluas definisi ini menggunakan ekstensi Data Agent Kit untuk VS Code guna membuat dan men-deploy pipeline orkestrasi secara lokal.

Non-agentik

Untuk menginisialisasi pipeline orkestrasi, lakukan hal berikut:

Klik ikon Google Cloud Data Agent Kit di kolom aktivitas.
Luaskan Data Engineering, lalu klik Initialize orchestration pipeline.
Masukkan parameter untuk pipeline orkestrasi baru:
ID Pipeline: Masukkan ID pipeline Anda. Contoh: example-pipeline.
Project ID Google Cloud: nama project tempat lingkungan berada. Contoh: example-project.
Region: region tempat lingkungan Anda berada. Contoh: us-central1.
ID Lingkungan: nama lingkungan yang ingin Anda gunakan untuk pengembangan. Contoh: dev/staging.
Scheduler Managed Service for Apache Airflow Environment: nama lingkungan tempat Anda ingin mengorkestrasi pipeline. Untuk dokumen ini, tentukan lingkungan yang sama dalam parameter ini.

Catatan: Ekstensi Data Agent Kit untuk VS Code menyediakan opsi terpisah untuk men-deploy dan menjalankan pipeline, serta untuk memantau eksekusinya. Misalnya, Anda mungkin ingin men-deploy pipeline ke lingkungan pengembangan, tetapi memantau lingkungan produksi.
Artifacts Bucket: nama bucket yang digunakan untuk artefak pipeline, tanpa awalan gs://. Contoh: example-pipelines-bucket.
Klik Berikutnya.
Klik Initialize.
Tentukan ruang kerja tempat Anda ingin pipeline diinisialisasi.

Agentic

Minta Agen untuk membuat struktur dasar pipeline orkestrasi repositori Anda.

Masukkan perintah yang mirip dengan berikut:

Initialize orchestration pipelines in my repository. Don't add any actions
or schedule yet. I want to do it later.

The pipeline is my-sample-pipeline, the project ID is my-project, and the
region is us-central1.

The environment ID is my-test-environment. Use the same environment ID for
the Scheduler Managed Service.

Store pipeline artifacts in example-pipelines-bucket.

Setelah menginisialisasi pipeline di repositori, Anda tidak dapat melakukannya lagi karena scaffolding baru akan menimpa perubahan konfigurasi yang Anda buat. Anda dapat menambahkan pipeline baru dengan membuat file definisi pipeline baru di project dan menambahkannya ke konfigurasi deployment.

Menambahkan tugas baru ke pipeline

Karena konfigurasi pipeline awal tidak memiliki tindakan apa pun, Anda menambahkan tindakan yang menjalankan skrip PySpark ke pipeline tersebut.

Non-agentik

Untuk mengedit pipeline, lakukan tindakan berikut:

Klik ikon Google Cloud Data Agent Kit di kolom aktivitas.
Perluas Data Engineering, lalu Orchestration Pipelines.
Pilih example-pipeline.yaml. Editor pipeline akan terbuka untuk pipeline yang dipilih.
Opsional: Pilih node Pemicu jadwal. Anda dapat menyesuaikan jadwal untuk pipeline dengan menentukan ekspresi seperti cron serta waktu mulai dan akhir jadwal. Jadwal default untuk pipeline yang baru diinisialisasi adalah 0 2 * * *, yang berjalan setiap hari pada pukul 02.00.

Tambahkan tugas baru. Dalam panduan ini, Anda akan menambahkan tugas PySpark yang menjalankan skrip PySpark yang Anda tambahkan sebelumnya:
1. Klik Tambahkan tugas pertama untuk menambahkan node tugas baru.
2. Pilih Execute PySpark script dan file script/wordcount.py.
Panel Execute PySpark script akan terbuka.
1. Di Spark Cluster Mode, pilih Serverless Spark.
2. Di Location, tentukan lokasi tempat lingkungan Anda berada. Contoh: us-central1.
3. Klik Simpan.

Agentic

Jalankan perintah berikut:

Add the wordcount.py script to the pipeline. I want to run it in Serverless
Spark every day at 1 AM. Run it in the same region where the environment that
runs my pipeline is located. Use the minimal resource profile.

Men-deploy pipeline versi lokal

Deploy versi lokal pipeline untuk mengonfirmasi bahwa pipeline telah dikonfigurasi dengan benar.

Saat Anda men-deploy pipeline orkestrasi versi lokal, ekstensi Data Agent Kit untuk VS Code akan mengupload paket pipeline versi lokal ke lingkungan Managed Airflow dan menjalankannya. Deployment lokal dimaksudkan untuk digunakan saat bekerja di lingkungan pengembangan.

Perintah deploy men-deploy jadwal yang tidak dijeda. Untuk mencegah hal ini, Anda dapat menjeda jadwal secara manual di panel Pengelolaan Pipeline. Anda juga dapat mengedit file YAML pipeline untuk memberi komentar atau menghapus blok triggers: - schedule.

Non-agentik

Untuk men-deploy versi lokal pipeline orkestrasi contoh, lakukan hal berikut:

Klik ikon Google Cloud Data Agent Kit di kolom aktivitas.
Perluas Data Engineering, lalu Orchestration Pipelines.
Pilih example-pipeline.yaml. Editor pipeline akan terbuka untuk pipeline yang dipilih.
Pilih Run pipeline, lalu pilih lingkungan pengembangan atau staging yang Anda buat sebelumnya.

Agentic

Jalankan perintah berikut:

Deploy my pipeline

Memantau eksekusi pipeline dan memeriksa log eksekusi

Setelah pipeline di-deploy, Anda dapat melihat informasi mendetail, histori eksekusi pipeline, dan log eksekusi pipeline untuk pipeline tersebut:

Klik ikon Google Cloud Data Agent Kit di kolom aktivitas.
Luaskan Data Engineering, lalu pilih Pipelines management.
Klik nama pipeline Anda (example-pipeline) untuk melihat histori eksekusinya. Dalam daftar operasi untuk tanggal tertentu, Anda dapat melihat operasi pipeline individual dan perincian tindakan individual dalam setiap operasi pipeline.
Klik ID tugas untuk melihat log eksekusi tugas. Karena contoh skrip PySpark dieksekusi di Managed Service untuk Apache Spark, log tugas akan memiliki link ke log Batch.

Memecahkan masalah dan memperbaiki kegagalan pipeline

Jika pipeline gagal, Anda akan melihat tombol Diagnostik di panel Pengelolaan pipeline.

Agentic

Saat Anda mengklik tombol Diagnostik, Agen akan membuat perintah untuk memecahkan masalah kegagalan pipeline. Perintah akan disalin ke papan klip Anda atau dibuka di sesi percakapan baru.

Agen menggunakan keterampilan khusus untuk memecahkan masalah pipeline, dengan berfokus pada pengumpulan log, pemeriksaan silang kode yang di-deploy dan ruang kerja, serta pembuatan analisis penyebab utama (RCA).

Langkah berikutnya yang mungkin dilakukan setelah menerima RCA adalah sebagai berikut:

Terapkan analisis akar masalah di ruang kerja saat ini.
Minta agen untuk membuat cabang baru dan menerapkan perubahan di sana.
Buka tiket Cloud Customer Care dengan detail RCA.

Untuk mendapatkan bantuan dalam memecahkan masalah ekstensi, lihat Pemecahan masalah.

Membangun pipeline rekayasa data Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Meninjau peran IAM yang diperlukan

Buat akun layanan dan berikan peran IAM

Membuat resource Google Cloud untuk pipeline orkestrasi Anda

Membuat lingkungan Managed Airflow Gen 3

Menambahkan parameter lingkungan ke konfigurasi penjadwal

Membuat bucket untuk artefak pipeline

Membuat set data dan tabel baru di BigQuery

Menambahkan aset funnel

Non-agentik

Agentic

Menginisialisasi pipeline orkestrasi di repositori Anda

Non-agentik

Agentic

Menambahkan tugas baru ke pipeline

Non-agentik

Agentic

Men-deploy pipeline versi lokal

Non-agentik

Agentic

Memantau eksekusi pipeline dan memeriksa log eksekusi

Memecahkan masalah dan memperbaiki kegagalan pipeline

Agentic

Langkah berikutnya

Membangun pipeline rekayasa data