Agen Data Engineering dalam ekstensi Google Cloud Data Agent Kit dapat membantu Anda membuat dan membangun pipeline orkestrasi di lingkungan pengembangan terintegrasi (IDE). Dengan memanfaatkan Gemini untuk Google Cloud, Agen Rekayasa Data menyediakan antarmuka bahasa natural untuk mengotomatiskan pembuatan, modifikasi, dan pengelolaan alur kerja orkestrasi yang kompleks.
Ekstensi Data Agent Kit didukung di VS Code.
Agen Data Engineering mendukung tugas umum data engineering berikut:
- Buat pipeline orkestrasi: Buat pipeline baru di ruang kerja yang kosong atau tambahkan pipeline lain ke project yang ada.
- Ubah struktur pipeline: Gunakan bahasa alami untuk menambahkan, menghapus, atau memperbarui setiap tindakan dalam pipeline orkestrasi.
- Mengelola metadata eksekusi: Ubah nama pipeline dan perbarui jadwal eksekusi, misalnya, dari eksekusi manual ke harian.
- Memecahkan masalah eksekusi pipeline: Mengidentifikasi penyebab utama kegagalan eksekusi pipeline secara proaktif dan menerapkan perbaikan yang disarankan agen.
Sebelum memulai
Sebelum menggunakan Data Engineering Agent di IDE, lakukan langkah-langkah di bagian ini.
- Instal ekstensi Data Agent Kit untuk Visual Studio Code. Agen Data Engineering disertakan dalam ekstensi Data Agent Kit.
Aktifkan Gemini Data Analytics API dan Dataform API.
Konfigurasi lingkungan di Managed Service for Apache Airflow. Gunakan konfigurasi lingkungan Managed Service for Apache Airflow default. Kemudian, di setelan Scheduler ekstensi Data Agent Kit, masukkan nama lingkungan Managed Service for Apache Airflow, ID projectGoogle Cloud tempat lingkungan dihosting, dan region tempat lingkungan berada.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk berinteraksi dengan Agen Data Engineering dan layanan dasarnya, minta administrator untuk memberi Anda peran IAM berikut di project:
-
Pengguna Chat Stateless Gemini Data Analytics (
roles/geminidataanalytics.dataAgentStatelessUser) -
Editor Kode Dataform (
roles/dataform.codeEditor) -
BigQuery Job User (
roles/bigquery.jobUser) -
Untuk mencantumkan lingkungan dan mengelola DAG Apache Airflow:
Pengguna Composer (
roles/composer.user) -
Untuk men-deploy pipeline orkestrasi atau memperbarui pipeline menggunakan akun layanan lingkungan Managed Airflow yang ditetapkan:
Service Account User (
roles/iam.serviceAccountUser)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Praktik terbaik
- Pahami bahwa agen mengikuti loop multi-langkah. Agen akan membuat rencana terlebih dahulu untuk mendapatkan persetujuan Anda. Selanjutnya, agen melakukan tindakan (misalnya, menulis kode). Terakhir, agen memverifikasi hasil menggunakan uji coba atau pengujian.
- Performa agen bergantung pada file yang terbuka di ruang kerja Anda. Gunakan sintaksis
@fileatau buka file SQLX yang relevan untuk memberikan konteks yang diperlukan kepada agen untuk membangun logika orkestrasi Anda.
Membuat pipeline orkestrasi
Untuk membuat pipeline orkestrasi di ruang kerja kosong atau menambahkan pipeline orkestrasi tambahan ke ruang kerja yang ada, lakukan hal berikut:
- Buka IDE Anda dengan ekstensi Data Agent Kit yang terinstal.
- Buka panel Tanya Agen.
Masukkan perintah bahasa alami untuk membuat pipeline orkestrasi. Misalnya:
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.Setelah Anda memasukkan perintah, klik Kirim.
Tinjau struktur pipeline yang dibuat dan terapkan perubahan.
Memperbarui jadwal pipeline
Untuk mengubah nama pipeline orkestrasi atau memperbarui jadwal eksekusi (misalnya, dari manual ke harian), lakukan hal berikut:
- Buka IDE Anda dengan ekstensi Data Agent Kit yang terinstal.
- Buka konfigurasi pipeline orkestrasi yang ada.
- Buka panel Tanya Agen.
Masukkan perintah bahasa alami untuk memperbarui jadwal pipeline. Misalnya:
Update the execution schedule for this pipeline to run daily at 2 AM.Agen memperbarui konfigurasi yang mendasarinya, misalnya, setelan DAG Apache Airflow.
Tinjau dan simpan jadwal pipeline yang diperbarui.
Mengubah tindakan pipeline
Untuk menambahkan atau menghapus tindakan satu per satu di pipeline orkestrasi Anda, lakukan hal berikut:
- Buka IDE Anda dengan ekstensi Data Agent Kit yang terinstal.
- Identifikasi tindakan pipeline yang ingin Anda tambahkan atau hapus.
- Buka panel Tanya Agen.
Masukkan perintah bahasa alami untuk mengubah tindakan pipeline. Misalnya:
Add a new action to the pipeline that runs the daily_sales_aggregation table task.Tinjau dan simpan definisi pipeline yang telah diperbarui.
Memecahkan masalah
Jika Anda mengalami error selama pembuatan pipeline orkestrasi, pastikan Anda telah menyelesaikan semua prasyarat yang diperlukan untuk menjalankan Agen Data Engineering. Untuk mengetahui informasi selengkapnya, lihat Sebelum memulai.
Untuk memecahkan masalah kegagalan orkestrasi atau eksekusi pipeline data, lakukan hal berikut:
- Buka IDE Anda dengan ekstensi Data Agent Kit yang terinstal.
- Di pipeline atau ruang kerja pengembangan, klik tab Eksekusi.
- Dari daftar eksekusi, temukan eksekusi pipeline data yang gagal. Anda dapat mengidentifikasi eksekusi yang gagal di kolom Status eksekusi.
- Arahkan kursor ke ikon kegagalan, lalu klik Selidiki. Agen Data Engineering menganalisis log dan mengidentifikasi penyebab utama, seperti perubahan skema atau ketidakcocokan jenis data.
- Di panel Ask Agent, tinjau perbaikan yang disarankan.
- Untuk mengatasi masalah ini, masukkan perintah seperti,
Apply the suggested fix to the pipeline. Atau, Anda dapat memperbarui kode SQLX secara manual berdasarkan analisis agen.
Langkah berikutnya
- Pelajari cara menggunakan Agen Data Engineering untuk membangun dan mengubah pipeline orkestrasi menggunakan perintah Google Cloud CLI.
- Pelajari cara menggunakan Agen Data Engineering untuk membangun dan mengubah pipeline data di konsol Google Cloud .