Menerapkan alur kerja analisis agentic untuk data terdistribusi

Last reviewed 2026-06-09 UTC

Dokumen ini memberikan arsitektur tingkat tinggi untuk menerapkan alur kerja analisis lintas cloud yang menggunakan agen AI. Dokumen ini ditujukan untuk arsitek cloud, data engineer, dan data scientist yang ingin menggunakan AI berbasis agen untuk alur kerja analisis di seluruh data lake multicloud, data warehouse terstruktur, dan penyimpanan data tidak terstruktur. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep AI agentik, analisis data, dan arsitektur cloud.

Bagian Deployment dalam dokumen ini menyediakan codelab yang dapat Anda gunakan untuk mempelajari cara membuat solusi analisis berbasis agen.

Arsitektur

Diagram berikut menunjukkan arsitektur untuk solusi analisis berbasis agen yang memperoleh insight bisnis dari data terstruktur dan tidak terstruktur yang didistribusikan di beberapa penyimpanan data dan penyedia layanan cloud.

Arsitektur yang menggunakan lingkungan pengembangan berbasis agen dan model AI untuk menganalisis data yang didistribusikan di Google Cloud dan penyedia layanan cloud lainnya.

Komponen dalam arsitektur ini disusun ke dalam lapisan berikut:

  • Tindakan pengguna dan tindakan agentik

    • Lingkungan pengembangan berbasis agen: Praktisi data, seperti data engineer dan data scientist, mengirimkan permintaan bahasa natural menggunakan salah satu metode berikut:
      • Lingkungan pengembangan yang berorientasi pada agen seperti Google Antigravity IDE atau Microsoft Visual Studio Code.
      • Agen CLI CLI agent seperti Gemini CLI, Claude Code, atau Codex.
    • Ekstensi Google Cloud Data Agent Kit: Ekstensi ini memungkinkan agen mengakses data tepercaya di Google Cloud dengan memuat keterampilan yang sesuai dan terhubung ke server MCP jarak jauh untuk layanan Google Cloud .
    • Model dasar: Untuk menghasilkan insight bisnis dari konteks dan data tepercaya, lingkungan pengembangan berbasis agen menggunakan model dasar, seperti model dari rangkaian model Gemini. Model ini menggunakan keterampilan yang sesuai dari ekstensi Data Agent Kit dan menggunakan alat server MCP yang diperlukan untuk menerapkan alur kerja analisis yang kompleks.
  • Alur kerja Analytics

    • Lakehouse untuk Apache Iceberg: Lakehouse menyediakan katalog metadata terpadu berperforma tinggi yang mengintegrasikan format tabel terbuka Apache Iceberg dengan penyimpanan tingkat perusahaan di Google Cloud.
    • Managed Service untuk Apache Spark: Ini adalah komponen pemrosesan data inti dalam arsitektur. Fitur Lightning Engine Managed Service untuk Apache Spark mendukung pemrosesan data serverless berperforma tinggi dalam mode batch dan interaktif. Tugas pemrosesan data Spark menggunakan metadata dari katalog Iceberg di Lakehouse, membaca data terstruktur dari BigQuery, dan melakukan pembacaan tanpa penyalinan dari sumber eksternal seperti Amazon S3.
    • Knowledge Catalog: Agen menggunakan Knowledge Catalog untuk melakukan pemindaian cerdas data tidak terstruktur di Cloud Storage, mengekstrak metadata semantik, dan membangun grafik konteks.
  • Penyimpanan data tepercaya

    • Data di Google Cloud: BigQuery berfungsi sebagai data warehouse pusat untuk data terstruktur, termasuk ekstrak terstruktur dari data tidak terstruktur di Cloud Storage.
    • Data dari sumber eksternal: Arsitektur ini menampilkan sumber data eksternal, seperti data dalam bucket Amazon S3 dan metadata dalam Databricks Unity Catalog. Cross-Cloud Interconnect menyediakan konektivitas khusus bandwidth tinggi antara Google Cloud dan penyedia layanan cloud lainnya.

Produk yang digunakan

Arsitektur ini menggunakan produk dan alat Google Cloud berikut:

  • Kit Agen Data Google Cloud: Ekstensi agen yang memungkinkan data scientist, data engineer, dan developer aplikasi data mengelola seluruh siklus proses data dari dalam lingkungan pengembangan berbasis agen pilihan mereka.
  • BigQuery: Data warehouse perusahaan yang membantu Anda mengelola dan menganalisis data dengan fitur bawaan seperti machine learning, analisis geospasial, dan business intelligence.
  • Managed Service untuk Apache Spark: Layanan terkelola yang menjalankan beban kerja batch Apache Spark di infrastruktur komputasi terkelola.
  • Lakehouse untuk Apache Iceberg: Mesin penyimpanan berperforma tinggi yang memungkinkan Anda membangun lakehouse data terbuka dan menyediakan antarmuka terpadu untuk analisis dan AI tingkat lanjut.
  • Knowledge Catalog: Layanan yang didukung AI yang menyediakan katalog terpadu aset data dengan metadata dan kemampuan tata kelola yang cerdas.
  • Gemini: Rangkaian model AI multimodal yang dikembangkan oleh Google.
  • Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
  • Cross-Cloud Interconnect: Layanan yang menyediakan konektivitas khusus berlatensi rendah dan bandwidth tinggi antara Google Cloud dan penyedia layanan cloud lainnya.
  • Server MCP Google Cloud: Layanan jarak jauh yang dikelola Google yang menerapkan Model Context Protocol (MCP) untuk memberikan akses aplikasi AI ke produk dan layanan Google. Google Cloud

Kasus penggunaan

Arsitektur yang dijelaskan dalam dokumen ini cocok untuk kasus penggunaan berikut:

  • Analisis data multicloud: Kueri dan analisis data secara efisien yang didistribusikan di seluruh Google Cloud dan penyedia layanan cloud lainnya tanpa memindahkan file atau membuat pipeline ekstraksi, transformasi, pemuatan (ETL) yang kompleks. Misalnya, seorang manajer pemasaran di retailer global dapat menganalisis efektivitas kampanye pemasaran dengan menggabungkan data loyalitas pelanggan di Amazon S3 dengan data operasi pemasaran di BigQuery.
  • Penemuan data cerdas: Gunakan perintah bahasa alami dan agen AI untuk menemukan, membuat kueri, dan memproses set data gabungan di beberapa lingkungan. Misalnya, spesialis pengadaan dapat menentukan penyebab umum gangguan rantai pasokan berdasarkan data terstruktur dalam sistem pengelolaan rantai pasokan (SCM) yang dikombinasikan dengan insight dari komunikasi email yang tidak terstruktur dan laporan penilaian kerusakan.
  • Ekstraksi data terstruktur dari sumber tidak terstruktur: Pindai data tidak terstruktur dalam volume besar, dapatkan metadata semantik, dan simpan hasil ekstraksi data terstruktur di BigQuery untuk analisis hilir. Misalnya, pengontrol operasi dapat menganalisis pengeluaran secara efisien dengan mengekstrak data terstruktur dari ribuan invoice yang disimpan dalam format tidak terstruktur, seperti file PDF.

Deployment

Untuk mempelajari cara membuat solusi analisis berbasis agen menggunakan ekstensi Data Agent Kit, lihat codelab, Data mentah hingga perkiraan dalam hitungan detik dengan agen AI. Codelab ini menunjukkan cara ekstensi Data Agent Kit memungkinkan Anda menganalisis data secara efisien dari dalam lingkungan pengembangan berbasis agen pilihan Anda. Semua data contoh yang digunakan codelab ini disimpan diGoogle Cloud.

Langkah berikutnya

Kontributor

Penulis: Kumar Dhanagopal | Cross-Product Solution Developer

Kontributor lainnya: