Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menerapkan alur kerja analisis agentic untuk data terdistribusi

Last reviewed 2026-06-09 UTC

Dokumen ini memberikan arsitektur tingkat tinggi untuk mengimplementasikan alur kerja analisis lintas cloud yang menggunakan agen AI. Dokumen ini ditujukan untuk arsitek cloud, data engineer, dan data scientist yang ingin menggunakan AI agentik untuk alur kerja analisis di seluruh data lake multi-cloud, data warehouse terstruktur, dan penyimpanan data tidak terstruktur. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep AI agentik, analisis data, dan arsitektur cloud.

Bagian Deployment dalam dokumen ini menyediakan codelab yang dapat Anda gunakan untuk mempelajari cara membangun solusi analisis agentik.

Arsitektur

Diagram berikut menunjukkan arsitektur untuk solusi analisis agentik yang memperoleh insight bisnis dari data terstruktur dan tidak terstruktur yang didistribusikan di beberapa penyimpanan data dan penyedia layanan cloud.

Arsitektur yang menggunakan lingkungan pengembangan berbasis agen dan model AI untuk menganalisis data yang didistribusikan di Google Cloud dan penyedia layanan cloud lainnya.

Komponen dalam arsitektur ini diatur ke dalam lapisan berikut:

Tindakan pengguna dan agentik
- Lingkungan pengembangan agentik: Praktisi data, seperti data engineer dan data scientist, mengirimkan permintaan bahasa alami menggunakan salah satu metode berikut:
  - Lingkungan pengembangan agentik seperti Google Antigravity IDE atau Microsoft Visual Studio Code.
  - Agen CLI seperti Gemini CLI, Claude Code, atau Codex.
- Ekstensi Google Cloud Data Agent Kit: Ekstensi ini memungkinkan agen mengakses data tepercaya Google Cloud dengan memuat keterampilan yang sesuai dan terhubung ke server MCP jarak jauh untuk Google Cloud layanan.
- Model dasar: Untuk menghasilkan insight bisnis dari konteks dan data tepercaya, lingkungan pengembangan agentik menggunakan model dasar, seperti model dari keluarga Gemini. Model ini menggunakan keterampilan yang sesuai dari ekstensi Data Agent Kit dan menggunakan alat server MCP yang diperlukan untuk mengimplementasikan alur kerja analisis yang kompleks.
Alur kerja analisis
- Lakehouse untuk Apache Iceberg: Lakehouse menyediakan katalog metadata terpadu berperforma tinggi yang mengintegrasikan format tabel terbuka Apache Iceberg dengan penyimpanan tingkat perusahaan di Google Cloud.
- Managed Service untuk Apache Spark: Ini adalah komponen pemrosesan data inti dalam arsitektur. Fitur Lightning Engine dari Managed Service untuk Apache Spark mendukung pemrosesan data serverless berperforma tinggi dalam mode batch dan interaktif. Tugas pemrosesan data Spark menggunakan metadata dari katalog Iceberg di Lakehouse, membaca data terstruktur dari BigQuery, dan melakukan pembacaan tanpa salinan dari sumber eksternal seperti Amazon S3.
- Knowledge Catalog: Agen menggunakan Knowledge Catalog untuk melakukan pemindaian cerdas data tidak terstruktur di Cloud Storage, mengekstrak metadata semantik, dan membangun diagram konteks.
Penyimpanan data tepercaya
- Data di Google Cloud: BigQuery berfungsi sebagai data warehouse pusat untuk data terstruktur, termasuk ekstrak terstruktur dari data tidak terstruktur di Cloud Storage.
- Data dari sumber eksternal: Arsitektur ini menunjukkan sumber data eksternal, seperti data di bucket Amazon S3 dan metadata di Databricks Unity Catalog. Cross-Cloud Interconnect menyediakan konektivitas khusus bandwidth tinggi antara Google Cloud dan penyedia layanan cloud lainnya.

Produk yang digunakan

Arsitektur ini menggunakan produk dan alat berikut: Google Cloud

Google Cloud Data Agent Kit: Ekstensi agen untuk memungkinkan data scientist, data engineer, dan developer aplikasi data mengelola seluruh siklus proses data dari dalam lingkungan pengembangan agentik pilihan mereka.
BigQuery: Data warehouse perusahaan yang membantu Anda mengelola dan menganalisis data dengan fitur bawaan seperti machine learning, analisis geospasial, dan business intelligence.
Managed Service untuk Apache Spark: Layanan terkelola yang menjalankan workload batch Apache Spark di infrastruktur komputasi terkelola.
Lakehouse untuk Apache Iceberg: Mesin penyimpanan berperforma tinggi yang memungkinkan Anda membangun data lakehouse terbuka dan menyediakan antantarmuka terpadu untuk analisis dan AI tingkat lanjut.
Knowledge Catalog: Layanan yang didukung AI yang menyediakan katalog aset data terpadu dengan metadata dan tata kelola cerdas kemampuan.
Gemini : Rangkaian model AI multimodal yang dikembangkan oleh Google.

Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
Cross-Cloud Interconnect: Layanan yang menyediakan konektivitas khusus bandwidth tinggi, latensi rendah, dedicated connectivity between Google Cloud dan penyedia layanan cloud lainnya.
Server MCP Google Cloud: Layanan jarak jauh yang dikelola Google yang mengimplementasikan Model Context Protocol (MCP) untuk memberikan akses aplikasi AI ke produk dan layanan Google dan Google Cloud .

Kasus penggunaan

Arsitektur yang dijelaskan dalam dokumen ini cocok untuk kasus penggunaan berikut:

Analisis data multi-cloud: Membuat kueri dan menganalisis data yang didistribusikan di Google Cloud dan penyedia layanan cloud lainnya secara efisien tanpa memindahkan file atau membangun pipeline extract, transform, load (ETL) yang kompleks. Misalnya, manajer pemasaran di retailer global dapat menganalisis efektivitas kampanye pemasaran dengan menggabungkan data loyalitas pelanggan di Amazon S3 dengan data operasi pemasaran di BigQuery.
Penemuan data cerdas: Menggunakan perintah bahasa alami dan agen AI untuk menemukan, membuat kueri, dan memproses set data gabungan di beberapa lingkungan. Misalnya, spesialis pengadaan dapat menentukan penyebab umum gangguan rantai pasokan berdasarkan data terstruktur dalam sistem pengelolaan rantai pasokan (SCM) yang dikombinasikan dengan insight dari komunikasi email tidak terstruktur dan laporan penilaian kerusakan.
Ekstraksi data terstruktur dari sumber tidak terstruktur: Memindai data tidak terstruktur dalam jumlah besar memperoleh metadata semantik, dan menyimpan ekstrak data terstruktur di BigQuery untuk analisis hilir. Misalnya, pengontrol operasi dapat menganalisis pengeluaran secara efisien dengan mengekstrak data terstruktur dari ribuan invoice yang disimpan dalam format tidak terstruktur, seperti file PDF.

Deployment

Untuk mempelajari cara membangun solusi analisis agentik menggunakan ekstensi Data Agent Kit, lihat codelab, Data mentah ke perkiraan dalam hitungan detik dengan agen AI. Codelab ini menunjukkan cara ekstensi Data Agent Kit memungkinkan Anda menganalisis data secara efisien dari dalam lingkungan pengembangan agentik pilihan Anda. Semua data contoh yang digunakan codelab disimpan di Google Cloud.

Langkah berikutnya

Pelajari cara ekstensi Data Agent Kit memungkinkan Anda menggunakan notebook untuk transformasi dan analisis data.
Pelajari kasus penggunaan Knowledge Catalog.
Pelajari lebih lanjut Lakehouse.
Pelajari cara mempercepat workload Apache Spark menggunakan Lightning Engine.
Pelajari cara menggunakan Knowledge Catalog sebagai lapisan tata kelola dan agentik untuk BigQuery.
Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.

Kontributor

Penulis: Kumar Dhanagopal | Developer Solusi Lintas Produk

Kontributor lainnya:

Abirami Sukumaran | Developer Advocate Staf
Arti Prasad | Penulis Teknis
Brad Miro | Developer Advocate Senior
Matthew Rahmann | Product Manager Senior
Ranadip Chatterjee | Solutions Engineer
Remigiusz Samborski | Lead Developer Relations Engineer

Menerapkan alur kerja analisis agentic untuk data terdistribusi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.