Menggunakan Agen Data Engineering untuk membangun dan mengubah pipeline data

Dokumen ini menunjukkan cara menggunakan Agen Data Engineering di BigQuery dan Dataform untuk membuat dan mengubah pipeline data.

Agen Data Engineering memungkinkan Anda membangun, mengubah, dan mengelola pipeline data untuk memuat dan memproses data di BigQuery. Dengan Agen Data Engineering, Anda dapat menggunakan perintah bahasa alami untuk membuat pipeline data dari berbagai sumber data atau menyesuaikan pipeline data yang ada agar sesuai dengan kebutuhan data engineering Anda.

Agen membuat dan mengatur kode pipeline data langsung dalam repositori Dataform. Agen beroperasi di ruang kerja Dataform, sehingga pipeline Dataform otomatis tersedia untuk agen.

Untuk contoh perintah lainnya yang dapat Anda gunakan dengan Agen Rekayasa Data, lihat Contoh perintah.

Anda juga dapat menggunakan Data Engineering Agent API, yang menggunakan protokol A2A, untuk berinteraksi dengan agen.

Batasan

Agen Data Engineering memiliki batasan berikut:

  • Agen Data Engineering tidak mendukung perintah bahasa alami untuk jenis file berikut:
    • Notebook
    • Persiapan data
  • Agen Data Engineering tidak dapat menjalankan pipeline. Anda harus meninjau dan menjalankan atau menjadwalkan pipeline.
  • Agen Rekayasa Data tidak dapat menelusuri link web atau URL apa pun yang diberikan melalui petunjuk atau perintah langsung.
  • Saat mengimpor file dalam file instruksi agen, sintaksis impor @ hanya mendukung jalur yang dimulai dengan ./, /, atau huruf.
  • Fitur pratinjau data hanya didukung untuk tabel, deklarasi, atau kueri dengan tanda hasOutput yang ditetapkan ke true.
  • Agen Data Engineering tunduk pada batasan umum teknologi AI.

Sebelum memulai

Sebelum menggunakan Agen Data Engineering, lakukan langkah-langkah di bagian ini.

Mengaktifkan Gemini di BigQuery

Pastikan Gemini di BigQuery diaktifkan untuk projectGoogle Cloud Anda. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Gemini di BigQuery.

Mengaktifkan API yang diperlukan

console

Aktifkan API berikut di konsol Google Cloud untuk project Google Cloud yang Anda gunakan dengan Conversational Analytics API.

Mengaktifkan Gemini Data Analytics API

Mengaktifkan Gemini for Google Cloud API

Aktifkan BigQuery API

gcloud

Untuk mengaktifkan Gemini Data Analytics API, Gemini for Google Cloud API, dan BigQuery API, gunakan Google Cloud CLI dan jalankan perintah gcloud services enable berikut:

gcloud services enable geminidataanalytics.googleapis.com --project=PROJECT_ID
gcloud services enable cloudaicompanion.googleapis.com --project=PROJECT_ID
gcloud services enable bigquery.googleapis.com --project=PROJECT_ID

Ganti PROJECT_ID dengan project ID Google Cloud Anda.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna menggunakan Agen Data Engineering, minta administrator untuk memberi Anda peran IAM berikut pada project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini memiliki izin geminidataanalytics.locations.useDataEngineeringAgent yang diperlukan untuk menggunakan Agen Data Engineering.

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Prasyarat integrasi Knowledge Catalog

Untuk mendapatkan izin yang diperlukan guna mengintegrasikan Agen Data Engineering dengan Knowledge Catalog, minta administrator untuk memberi Anda peran IAM Dataplex Catalog Editor (roles/dataplex.catalogEditor) di project. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin geminidataanalytics.locations.useDataEngineeringAgent yang diperlukan untuk mengintegrasikan Agen Data Engineering dengan Knowledge Catalog.

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Anda juga harus mengaktifkan Knowledge Catalog API.

Mengenkripsi data dengan kunci Cloud Key Management Service

Anda dapat mengenkripsi data di tingkat set data atau project dengan kunci Cloud Key Management Service yang dikelola pelanggan default di BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menetapkan kunci default set data dan Menetapkan kunci default project.

Anda dapat mengenkripsi kode pipeline di tingkat project dengan menetapkan kunci Cloud Key Management Service Dataform default.

Mengonfigurasi perimeter Kontrol Layanan VPC

Jika menggunakan Kontrol Layanan VPC, Anda harus mengonfigurasi perimeter untuk melindungi Dataform, BigQuery, dan Conversational Analytics API. Untuk informasi selengkapnya, lihat Dataform, BigQuery, dan Conversational Analytics API.

Membuat pipeline data dengan Agen Data Engineering

Untuk menggunakan Agen Data Engineering di BigQuery, pilih salah satu opsi berikut:

Pipeline BigQuery

Anda dapat menggunakan Agen Data Engineering di antarmuka pipeline BigQuery dengan melakukan hal berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di editor kueri, klik arrow_drop_down Create new > Pipeline.

  3. Pilih opsi untuk kredensial eksekusi, lalu klik Mulai. Kredensial ini tidak digunakan oleh agen, tetapi diperlukan untuk menjalankan pipeline data yang dihasilkan.

  4. Klik Coba pengalaman agen untuk pipeline data.

  5. Di kolom Ask agent, masukkan perintah bahasa alami untuk membuat pipeline data, misalnya:

      Create dimension tables for a taxi trips star schema from
      new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all
      the descriptive attributes.
    

    Setelah Anda memasukkan perintah, klik Kirim.

  6. Agen Data Engineering membuat pipeline data berdasarkan perintah Anda.

Agen Data Engineering membuat draf usulan pipeline data. Anda dapat mengklik node pipeline untuk meninjau kueri SQLX yang dihasilkan. Untuk menerapkan pipeline data yang disarankan agen, klik Terapkan.

Pipeline data dengan tombol 'Terapkan' yang ditandai, menunjukkan perubahan yang disarankan oleh Agen Data Engineering.

Dataform

Anda dapat menggunakan Agen Rekayasa Data di Dataform dengan melakukan hal berikut:

  1. Buka Dataform.

    Buka Dataform

  2. Pilih repositori.

  3. Pilih atau buat ruang kerja pengembangan.

  4. Di ruang kerja, klik Minta Bantuan Agen.

  5. Di prompt Ask agent yang muncul, masukkan perintah bahasa alami untuk membuat pipeline data—misalnya:

      Create dimension tables for a taxi trips star schema from
      new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all
      the descriptive attributes.
    

    Setelah Anda memasukkan perintah, klik Kirim.

Setelah perintah Anda dikirim, Agen Data Engineering akan membuat pipeline data dan mengubah file SQLX Dataform berdasarkan perintah Anda. Agen menerapkan perubahan ini langsung ke file ruang kerja Anda.

Mengedit pipeline data

Untuk mengedit pipeline data, klik Tanya agen, lalu masukkan perintah yang menyarankan perubahan pada pipeline data.

Antarmuka pipeline data dengan tombol 'Tanya agen' ditandai.

Tinjau perubahan yang diusulkan oleh Agen Data Engineering, lalu klik Terapkan untuk menerapkan perubahan.

Anda juga dapat mengedit kueri SQLX secara manual dengan memilih node pipeline, lalu mengklik Buka.

Meninjau pipeline data

Anda dapat mengklik node pipeline di pipeline data yang dihasilkan oleh Data Engineering Agent untuk meninjaunya.

  • Tab Konfigurasi menampilkan kueri SQLX yang dihasilkan dan terkait dengan node.
  • Tab Pratinjau data menampilkan tabel input dan output file. Anda dapat melihat pratinjau transformasi data melalui node ini dengan mengklik Jalankan tugas untuk menjalankan tugas dengan atau tanpa dependensi.

Memecahkan masalah error pipeline data

Jika Anda mengalami error selama pembuatan pipeline data, pastikan Anda telah menyelesaikan semua prasyarat untuk menjalankan Agen Data Engineering. Untuk mengetahui informasi selengkapnya, lihat Sebelum memulai.

Menjalankan investigasi Gemini Cloud Assist

Untuk pemecahan masalah pipeline lebih lanjut, Anda dapat menggunakan Agen Data Engineering untuk menjalankan analisis penyebab utama dan menyarankan rekomendasi pemecahan masalah.

Fitur ini menggunakan investigasi Gemini Cloud Assist (Pratinjau) dan hanya tersedia untuk pengguna dengan kontrak Dukungan Premium. Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan investigasi Gemini Cloud Assist, lihat Memecahkan masalah terkait Investigasi Gemini Cloud Assist.

Anda dapat menggunakan Agen Data Engineering untuk memecahkan masalah error pipeline data dengan langkah-langkah berikut:

  1. Di pipeline atau ruang kerja pengembangan, klik tab Eksekusi.
  2. Dari daftar eksekusi, temukan eksekusi pipeline data yang gagal. Anda dapat mengidentifikasi proses yang gagal di kolom Status.

    Daftar eksekusi pipeline, dengan operasi yang gagal ditandai di kolom 'Status'.

  3. Arahkan kursor ke ikon, lalu klik Selidiki. Agen Rekayasa Data menjalankan analisis akar masalah (RCA) pada eksekusi pipeline data Anda untuk menemukan error.

    Antarmuka pipeline data yang menampilkan ikon untuk 'Selidiki' eksekusi yang gagal, sehingga Agen Data Engineering dapat mendiagnosis error.

  4. Setelah analisis selesai, Agen Rekayasa Data akan membuat laporan di bagian Pengamatan dan Hipotesis. Laporan ini mencakup:

    • Pengamatan dan titik data yang diekstrak dari log eksekusi pipeline data.
    • Kemungkinan penyebab kegagalan.
    • Serangkaian langkah atau rekomendasi yang dapat ditindaklanjuti untuk menyelesaikan masalah yang teridentifikasi.

Dengan laporan pemecahan masalah dari Agen Data Engineering, Anda dapat menerapkan rekomendasi secara manual. Anda juga dapat menginstruksikan Data Engineering Agent untuk menerapkan perbaikan bagi Anda dengan melakukan langkah-langkah berikut:

  1. Salin saran di laporan pemecahan masalah.
  2. Kembali ke Agen Data Engineering:
    1. Jika Anda menggunakan pipeline BigQuery, buka halaman pipeline, lalu klik Ask agent.
    2. Jika Anda menggunakan Dataform, klik Tanya agen.
  3. Tempelkan saran ke dalam perintah, lalu instruksikan Agen Data Engineering untuk melakukan perbaikan langsung pada pipeline data Anda.
  4. Klik Kirim.

Membuat petunjuk agen

Petunjuk agen adalah petunjuk natural language untuk Agen Rekayasa Data yang memungkinkan Anda menyimpan petunjuk persisten sehingga agen mengikuti serangkaian aturan kustom yang telah ditentukan sebelumnya. Gunakan petunjuk agen jika Anda ingin hasil agen konsisten di seluruh organisasi Anda—misalnya, dengan konvensi penamaan atau untuk menerapkan panduan gaya.

Anda dapat membuat file konteks GEMINI.MD sebagai file petunjuk agen untuk Agen Data Engineering. Anda dapat membuat file instruksi agen untuk digunakan di ruang kerja lokal, atau Anda dapat menggunakan file instruksi yang sama di beberapa pipeline data dengan repositori eksternal.

Untuk membuat petunjuk agen, lakukan hal berikut:

  1. Di bagian Tanya agen, klik Petunjuk pipeline.
  2. Di panel Instructions for pipeline, klik Create instructions file.
  3. Di file GEMINI.MD yang muncul, masukkan petunjuk Anda dalam bahasa alami.

    Contoh berikut menunjukkan file instruksi agen dengan beberapa aturan:

      1. All event-specific tables MUST be prefixed with `cs_event_`.
      2. The primary key for any player activity table is a composite key of `player_id` and `event_timestamp_micros`.
      3. Filter out any player actions where `mana_spent` is greater than `max_mana_pool`. This is considered a data anomaly.
    
  4. Klik Simpan.

Untuk mengetahui informasi tentang cara terbaik menyusun file petunjuk agen, lihat Praktik terbaik dengan file petunjuk agen.

Memuat petunjuk agen dari repositori eksternal

Untuk menggunakan kembali serangkaian petunjuk agen di beberapa pipeline data, tautkan repositori eksternal:

  1. Di bagian Tanya agen, klik Petunjuk pipeline.
  2. Di bagian External repository, pilih Use instructions from external repository.
  3. Di kolom yang disediakan, tentukan repositori yang berisi petunjuk agen yang ingin Anda gunakan dengan pipeline data.
  4. Klik Simpan.

Contoh perintah

Bagian berikut memberikan contoh perintah yang dapat Anda gunakan dengan Agen Data Engineering untuk mengembangkan pipeline data Anda.

Menggabungkan data yang ada ke dalam tabel baru

Dengan perintah ini, Agen Data Engineering menggunakan skema dan sampel untuk menyimpulkan pengelompokan data menurut kunci. Agen biasanya menyiapkan konfigurasi tabel baru dengan deskripsi tabel dan kolom.

  Create a daily sales report from the
  bigquery-public-data.thelook_ecommerce.order_items table into a
  reporting.daily_sales_aggregation table.

Membuat kolom turunan baru dan menambahkan pemeriksaan kualitas data ke tabel baru

Perintah ini menunjukkan cara menambahkan tabel dan kolom, serta menentukan pemeriksaan kualitas ke tabel secara bersamaan:

  Create a new table named staging.products from
  bigquery-public-data.thelook_ecommerce.products and add a calculated column
  named gross_profit, which is the retail_price minus the cost.


  Also, add the following assertions: ID must not be null and must be unique.
  The retail_price must be greater than or equal to the cost. The department
  column can only contain 'Men' or 'Women'.

Membuat UDF sebagai bagian dari definisi model

Agen Data Engineering juga dapat menyiapkan DDL untuk membuat fungsi yang ditentukan pengguna (UDF). Meskipun agen tidak akan benar-benar membuat UDF, Anda dapat membuat UDF dengan menjalankan pipeline data. UDF ini dapat digunakan dalam definisi model di pipeline data Anda.

  Create a user-defined function (UDF) named get_age_group that takes an integer
  age as input and returns a string representing the age group ('Gen Z',
  'Millennial', 'Gen X', 'Baby Boomer').


  Use this UDF on the age column from the
  bigquery-public-data.thelook_ecommerce.users table to create a new view called
  reporting.user_age_demographics that includes user_id, age, and the calculated
  age_group.

Praktik terbaik

Untuk meningkatkan hasil saat menggunakan Agen Rekayasa Data dan Dataform, sebaiknya lakukan hal berikut:

Menggunakan petunjuk agen untuk permintaan umum. Jika Anda biasanya menerapkan teknik tertentu, atau jika Anda sering melakukan koreksi yang sama pada agen, gunakan petunjuk agen sebagai lokasi terpusat untuk menyimpan petunjuk dan permintaan umum.

Manfaatkan rencana agen. Rencana agen dapat membantu menguraikan tugas pipeline yang kompleks. Rencana agen juga dapat menunjukkan asumsi dan niat agen, jadi sebaiknya tinjau rencana tersebut untuk memastikan agen diberi konteks yang benar.

Setelah meninjau rencana, Anda dapat mengedit rencana dengan memberikan masukan dan perubahan kepada Agen Rekayasa Data. Contoh:

In the plan, ensure that all of the intermediate tables are views.

Terkadang, Anda dapat meminta agen untuk membuat rencana yang tidak memerlukan persetujuan eksplisit Anda. Tindakan membuat rencana agen memaksa Agen Data Engineering untuk menguraikan tindakannya, yang sering kali menghasilkan hasil yang lebih baik. Anda dapat memaksa agen untuk membuat rencana dan mengeksekusinya secara otomatis. Contoh:

Create a plan for a pipeline that finds the
top N pick up and drop off locations in NYC. You have my explicit pre-approval
to go ahead and execute this plan.

Tulis dengan jelas. Nyatakan permintaan Anda dengan jelas dan hindari kata-kata yang tidak jelas. Jika memungkinkan, berikan sumber data sumber dan tujuan saat memberikan perintah, seperti yang ditunjukkan dalam contoh berikut:

  Extract data from the sales.customers table in the us_west_1 region, and load
  it into the reporting.dim_customers table in BigQuery. Match the schema of the
  destination table.

Berikan permintaan langsung dan dalam cakupan. Ajukan pertanyaan satu per satu, dan buat perintah tetap ringkas. Untuk perintah dengan lebih dari satu pertanyaan, buat setiap bagian pertanyaan yang berbeda dalam bentuk item untuk meningkatkan kejelasan, seperti yang ditunjukkan dalam contoh berikut:

  1. Create a new table named staging.events_cleaned. Use raw.events as the
     source. This new table should filter out any records where the user_agent
     matches the pattern '%bot%'. All original columns should be included.

  2. Next, create a table named analytics.user_sessions. Use
     staging.events_cleaned as the source. This table should calculate the
     duration for each session by grouping by session_id and finding the
     difference between the MAX(event_timestamp) and MIN(event_timestamp).

Berikan petunjuk yang jelas dan tekankan istilah-istilah penting. Anda dapat menambahkan penekanan pada istilah atau konsep utama dalam perintah dan memberi label persyaratan tertentu sebagai penting, seperti yang ditunjukkan dalam contoh berikut:

  When creating the staging.customers table, it is *VERY IMPORTANT* that you
  transform the email column from the source table bronze.raw_customers.
  Coalesce any NULL values in the email column to an empty string ''.

Tentukan urutan operasi. Untuk tugas yang berurutan, susun perintah Anda dalam daftar, dengan item yang tercantum dibagi menjadi langkah-langkah kecil yang terfokus, seperti yang ditunjukkan dalam contoh berikut:

  Create a pipeline with the following steps:
  1. Extract data from the ecomm.orders table.
  2. Join the extracted data with the marts.customers table on customer_id.
  3. Load the final result into the reporting.customer_orders table.

Sempurnakan dan lakukan iterasi. Terus coba berbagai frasa dan pendekatan untuk melihat mana yang memberikan hasil terbaik. Jika agen menghasilkan SQL yang tidak valid atau kesalahan lainnya, pandu agen dengan contoh atau dokumentasi publik.

  The previous query was incorrect because it removed the timestamp. Please
  correct the SQL. Use the TIMESTAMP_TRUNC function to truncate the
  event_timestamp to the nearest hour, instead of casting it as a DATE. For
  example: TIMESTAMP_TRUNC(event_timestamp, HOUR).