Tentang produk data

Dokumen ini menjelaskan arsitektur dan konsep utama produk data di Knowledge Catalog (sebelumnya Dataplex Universal Catalog).

Produk data adalah kumpulan aset data logis dan pilihan, yang dikemas secara formal untuk memastikan produk tersebut mudah ditemukan, tepercaya, dan dapat diakses. Kemampuan utama produk data mencakup hal berikut:

  • Mengatur aset katalog ke dalam unit logis yang memecahkan masalah bisnis tertentu dan memungkinkan waktu yang lebih cepat untuk mendapatkan insight.
  • Mendistribusikan dengan konteks yang mencakup deskripsi, dokumentasi, dan aspek.
  • Membangun kepercayaan dengan kontrak yang memungkinkan produsen data memberikan jaminan kepada konsumen data.
  • Menyediakan alur kerja layanan mandiri bagi konsumen data untuk mengevaluasi produk data dan mendapatkan akses ke data.

Konsep utama

Bagian ini menjelaskan konsep dan terminologi utama yang terkait dengan produk data.

Produk data

Pengelompokan aset data logis dan pilihan, yang dikemas secara formal agar mudah ditemukan, tepercaya, dan dapat diakses untuk memecahkan masalah bisnis tertentu.

Aset

Pointer ke resource data fisik, seperti set data, tabel, atau tampilan BigQuery. Produk data berisi satu atau beberapa aset.

Grup akses

Grup akses menyederhanakan pengelolaan izin untuk produk data Anda. Grup ini memetakan peran yang mudah digunakan (seperti Reader atau Analyst) ke Akun layanan atau Google Grup yang mendasarinya. Abstraksi ini memungkinkan pemilik produk data mengelola akses pada tingkat konseptual, dan membantu konsumen produk data meminta tingkat akses yang sesuai.

  • Pemilik produk data mengonfigurasi grup akses dan menetapkan izin aset tertentu ke grup tersebut.

  • Konsumen produk data menggunakan grup ini untuk meminta akses ke produk data.

Pemilik produk data atau produsen data

Individu atau tim yang bertanggung jawab atas pembuatan dan pengelolaan produk data. Hal ini mencakup pengelolaan kualitas, akses, dan dokumentasi.

Konsumen produk data

Individu, tim, atau agen AI yang menggunakan produk data untuk menghasilkan insight.

Kontrak

Perjanjian antara pemilik produk data dan konsumennya. Perjanjian ini menetapkan ekspektasi yang jelas dengan menentukan persyaratan khusus untuk cara data akan diberikan dan digunakan, seperti jadwal refresh dan standar kualitasnya.

Contoh kasus penggunaan

Pertimbangkan data scientist yang menganalisis bisnis e-commerce. Tujuannya adalah menemukan nilai pesanan rata-rata (AOV) berdasarkan sumber traffic dan melihat apakah ada korelasi antara usia pengguna dan ukuran pesanan. Untuk melakukannya, mereka perlu menggabungkan data dari beberapa tabel, seperti order_details, user_traffic, dan user_demographics.

Dalam penyiapan konvensional, proses ini menimbulkan kesulitan. Untuk menghasilkan insight, data scientist harus terlebih dahulu menemukan tabel yang benar dalam lanskap data organisasi yang luas, lalu menghubungi setiap pemilik data, membenarkan permintaan akses mereka, dan menunggu persetujuan.

Dengan produk data, pemilik data dapat menyederhanakan pengalaman ini dengan mengemas aset yang relevan ke dalam satu produk bernama "Data Bisnis E-commerce". Paket ini mencakup hal berikut:

  • Aset

    • Tabel BigQuery order_details dan user_traffic (berisi data pesanan historis dan sumber traffic)
    • Tampilan BigQuery user_demographics (memberikan detail pengguna dengan PII dikecualikan)
  • Grup akses

    • Grup Reader dan Writer yang telah ditentukan sebelumnya untuk menyederhanakan permintaan akses
  • Kontrak

    • Kontrak yang menentukan frekuensi refresh data (misalnya, mingguan pada pukul 08.00 PST)
  • Konteks

    • Dokumentasi dengan contoh kueri dan detail lainnya
    • Metadata tambahan untuk menggambarkan sensitivitas data

Data scientist kini dapat menemukan produk data ini sebagai satu unit logis. Hal ini memungkinkan mereka menghasilkan insight dengan percaya diri untuk menjawab pertanyaan seperti, 'Berapa nilai pesanan rata-rata untuk setiap sumber traffic?'—yang pada akhirnya mengungkapkan sumber mana yang menghasilkan pelanggan dengan nilai tertinggi.

Alur pengguna produk data

Siklus proses produk data di Knowledge Catalog melibatkan dua perjalanan pengguna utama: satu untuk pemilik (atau produsen) produk data yang membuat dan mengelola data, dan satu untuk konsumen produk data yang menemukan dan menggunakannya.

Perjalanan pemilik produk data

Perjalanan ini berfokus pada pengemasan, pengamanan, dan pengelolaan produk data untuk memastikan produk tersebut tepercaya dan dapat diakses.

  • Buat: Tentukan produk data dan sertakan aset. Hal ini melibatkan tindakan berikut:

    • Mengonfigurasi nama, project, region, dan deskripsi yang unik.
    • Menambahkan aset seperti tabel, set data, atau tampilan BigQuery.
    • Mengonfigurasi grup akses (misalnya, Analyst atau Reader) dan memetakannya ke Akun layanan atau Google Grup yang mendasarinya untuk menyederhanakan pengelolaan izin.
    • Menetapkan peran IAM yang diperlukan ke grup akses ini untuk aset tertentu.
    • Menambahkan kontrak (aspek sistem) untuk mengomunikasikan secara formal frekuensi, irama, dan nilai minimum refresh data yang disepakati.

    Untuk mengetahui informasi selengkapnya, lihat Membuat produk data.

  • Kelola: Perbarui produk data dan pastikan produk tersebut mudah ditemukan. Hal ini melibatkan tindakan berikut:

    • Memperbarui detail dasar, aset, izin, dan aspek tambahan (metadata), serta dokumentasi teks lengkap.
    • Memberikan akses kepada konsumen untuk menemukan dan meminta akses ke produk data.

    Untuk mengetahui informasi selengkapnya, lihat Mengelola produk data.

Perjalanan konsumen produk data

Perjalanan ini berfokus pada pencarian data tepercaya dengan cepat dan mendapatkan izin yang diperlukan untuk menggunakannya.

  • Temukan: Temukan data tepercaya yang relevan untuk masalah bisnis tertentu. Hal ini melibatkan tindakan berikut:

    • Menggunakan Penelusuran Knowledge Catalog dengan kata kunci atau natural language untuk menemukan produk data yang dikemas.
    • Meninjau ringkasan, aset, kontrak, dan aspek lain dari produk data untuk menentukan kesesuaiannya untuk digunakan.

    Untuk mengetahui informasi selengkapnya, lihat Menelusuri produk data.

  • Minta akses: Minta izin kepada pemilik produk data untuk mengakses data.

    Untuk mengetahui informasi selengkapnya, lihat Meminta akses ke produk data.

  • Gunakan: Akses aset yang mendasarinya untuk menghasilkan insight. Hal ini melibatkan tindakan berikut:

    • Setelah disetujui, Anda dapat mengakses produk dan asetnya. Misalnya, jika asetnya adalah tabel BigQuery, Anda dapat membuka BigQuery studio dan membuat kueri data secara langsung.

    • Untuk alur kerja pengembangan dan aplikasi yang beroperasi di luar Google Cloud, Anda dapat mengekspos produk data menggunakan gateway metadata eksternal. Untuk mengetahui informasi selengkapnya, lihat Menggunakan server MCP jarak jauh Knowledge Catalog.

    Untuk mengetahui informasi selengkapnya, lihat Menggunakan produk data.

Aset yang didukung

Produk data dapat terdiri dari satu atau beberapa aset data. Aset data berikut didukung:

  • Set data BigQuery
  • Tabel BigQuery
  • Tampilan BigQuery
  • Rutinitas BigQuery
  • Model BigQuery
  • Tabel eksternal BigQuery
  • Set data Gemini Enterprise Agent Platform
  • Model Gemini Enterprise Agent Platform

Batasan

  • Lokasi: Produk data dan aset yang mendasarinya harus berada di lokasi yang sama Google Cloud .
  • Metadata otomatis: Dokumentasi dan insight otomatis tidak mendukung multi-region us (Amerika Serikat) dan eu (Uni Eropa).
  • Model BigQuery: Akses ke model BigQuery dalam produk data dikelola melalui kondisi IAM yang diterapkan ke kebijakan IAM set data induk. Pembagian model BigQuery tunduk pada batasan kondisi IAM.
  • Kuota dan batas: Untuk daftar lengkap kuota kapasitas dan batas frekuensi API, lihat Kuota untuk permintaan API produk data.

Langkah berikutnya