Tentang produk data

Dokumen ini menjelaskan arsitektur dan konsep utama produk data di Dataplex Universal Catalog.

Produk data adalah kumpulan aset data yang logis dan diseleksi, yang dikemas secara formal untuk memastikan produk tersebut dapat ditemukan, tepercaya, dan dapat diakses. Kemampuan utama produk data meliputi hal-hal berikut:

  • Atur aset katalog ke dalam unit logis yang memecahkan masalah bisnis tertentu dan memungkinkan waktu yang lebih cepat untuk mendapatkan insight.
  • Bagikan dengan konteks yang mencakup deskripsi, dokumentasi, dan aspek.
  • Membangun kepercayaan dengan kontrak yang memungkinkan produsen data memberikan jaminan kepada konsumen data.
  • Menyediakan alur kerja layanan mandiri bagi konsumen data untuk mengevaluasi produk data dan mendapatkan akses ke data.

Konsep utama

Bagian ini menjelaskan konsep dan terminologi utama yang terkait dengan produk data.

Produk data

Pengelompokan aset data yang dikurasi dan logis, yang dikemas secara formal agar dapat ditemukan, tepercaya, dan dapat diakses untuk memecahkan masalah bisnis tertentu.

Aset

Penunjuk ke resource data fisik, seperti set data, tabel, atau tampilan BigQuery. Produk data berisi satu atau beberapa aset.

Grup akses

Grup Google dikonfigurasi oleh pemilik produk data dan digunakan oleh konsumen produk data untuk meminta akses. Izin aset ditetapkan ke grup akses ini.

Grup akses menyederhanakan pengelolaan izin untuk produk data Anda. Alias ini berfungsi sebagai alias yang mudah digunakan (seperti Reader atau Analyst) untuk grup IAM yang mendasarinya. Dengan demikian, pemilik produk data dapat menetapkan izin di tingkat tinggi dan membantu konsumen meminta tingkat akses yang tepat.

Pemilik produk data atau produser data

Individu atau tim yang bertanggung jawab atas pembuatan dan pengelolaan produk data. Hal ini mencakup pengelolaan kualitas, akses, dan dokumentasi.

Pengguna produk data

Individu, tim, atau agen AI yang menggunakan produk data untuk menghasilkan insight.

Kontrak

Perjanjian antara pemilik produk data dan konsumennya. Perjanjian ini menetapkan ekspektasi yang jelas dengan menentukan persyaratan khusus tentang cara data akan diberikan dan digunakan, seperti jadwal pembaruan dan standar kualitasnya.

Contoh kasus penggunaan

Pertimbangkan seorang ilmuwan data yang menganalisis bisnis e-commerce. Tujuannya adalah menemukan nilai pesanan rata-rata (AOV) menurut sumber traffic dan melihat apakah ada korelasi antara usia pengguna dan ukuran pesanan. Untuk melakukannya, mereka perlu menggabungkan data dari beberapa tabel, seperti order_details, user_traffic, dan user_demographic.

Dalam penyiapan konvensional, proses ini menimbulkan hambatan. Untuk menghasilkan insight, ilmuwan data harus terlebih dahulu menemukan tabel yang tepat dalam lanskap data organisasi yang luas, lalu menghubungi setiap pemilik data, membenarkan permintaan akses mereka, dan menunggu persetujuan.

Dengan produk data, pemilik data dapat menyederhanakan pengalaman ini dengan mengemas aset yang relevan ke dalam satu produk bernama "Data Bisnis E-commerce". Paket ini mencakup:

  • Aset

    • Tabel BigQuery order_details dan user_traffic (yang berisi data pesanan historis dan sumber traffic)
    • Tampilan BigQuery user_demographics (memberikan detail pengguna dengan PII dikecualikan)
  • Grup akses

    • Grup Reader dan Writer yang telah ditentukan untuk menyederhanakan permintaan akses
  • Kontrak

    • Kontrak yang menentukan frekuensi pembaruan data (misalnya, mingguan pada pukul 08.00 PST)
  • Konteks

    • Dokumentasi dengan contoh kueri dan detail lainnya
    • Metadata tambahan untuk menggambarkan sensitivitas data

Data scientist kini dapat menemukan produk data ini sebagai satu unit logis. Dengan begitu, mereka dapat menghasilkan insight secara yakin untuk menjawab pertanyaan seperti, 'Berapa nilai pesanan rata-rata untuk setiap sumber traffic?'—yang pada akhirnya mengungkapkan sumber mana yang menghasilkan pelanggan dengan nilai tertinggi.

Alur pengguna produk data

Siklus proses produk data di Dataplex Universal Catalog melibatkan dua perjalanan pengguna utama: satu untuk pemilik (atau produsen) produk data yang membuat dan mengelola data, dan satu untuk konsumen produk data yang menemukan dan menggunakannya.

Perjalanan pemilik produk data

Perjalanan ini berfokus pada pengemasan, pengamanan, dan pengelolaan produk data untuk memastikan produk tersebut tepercaya dan dapat diakses.

  • Buat: Tentukan produk data dan sertakan aset. Hal ini melibatkan tindakan berikut:

    • Konfigurasi nama unik, project, region, dan deskripsi.
    • Tambahkan aset seperti tabel, set data, atau tampilan BigQuery.
    • Konfigurasi grup akses (misalnya, Analyst atau Reader) dan petakan ke grup Google yang mendasarinya untuk menyederhanakan pengelolaan izin.
    • Tetapkan peran IAM yang diperlukan ke grup akses ini untuk aset tertentu.
    • Tambahkan kontrak (aspek sistem) untuk secara resmi mengomunikasikan irama, frekuensi, dan nilai minimum pemuatan ulang data yang disepakati.

    Untuk mengetahui informasi selengkapnya, lihat Membuat produk data.

  • Kelola: Perbarui produk data dan pastikan visibilitasnya. Hal ini melibatkan tindakan berikut:

    • Perbarui detail dasar, aset, izin, dan aspek tambahan (metadata), serta dokumentasi teks kaya.
    • Memberikan akses kepada konsumen untuk menemukan dan meminta akses ke produk data.

    Untuk mengetahui informasi selengkapnya, lihat Mengelola produk data.

Perjalanan konsumen produk data

Perjalanan ini berfokus pada penemuan data tepercaya dengan cepat dan mendapatkan izin yang diperlukan untuk menggunakannya.

  • Temukan: Temukan data yang relevan dan tepercaya untuk masalah bisnis tertentu. Hal ini melibatkan tindakan berikut:

    • Gunakan Penelusuran Dataplex Universal Catalog dengan kata kunci atau natural language untuk menemukan produk data yang dikemas.
    • Tinjau ringkasan, aset, kontrak, dan aspek lain dari produk data untuk menentukan kesesuaiannya untuk digunakan.

    Untuk mengetahui informasi selengkapnya, lihat Menelusuri produk data.

  • Minta akses: Minta izin kepada pemilik produk data untuk mengakses data.

    Untuk mengetahui informasi selengkapnya, lihat Meminta akses ke produk data.

  • Penggunaan: Akses aset pokok untuk menghasilkan insight. Hal ini melibatkan tindakan berikut:

    • Setelah disetujui, Anda dapat mengakses produk dan asetnya. Misalnya, jika aset adalah tabel BigQuery, Anda dapat membuka BigQuery Studio dan membuat kueri data secara langsung.

    Untuk mengetahui informasi selengkapnya, lihat Menggunakan produk data.

Aset yang didukung

Produk data dapat terdiri dari satu atau beberapa aset data. Dalam pratinjau, aset data berikut didukung:

  • Set data BigQuery
  • Tabel BigQuery
  • Tampilan BigQuery

Batasan

  • Produk data dan aset yang mendasarinya harus berada diGoogle Cloud lokasi yang sama.
  • Produk data dapat berisi maksimal 10 aset.
  • Anda dapat membuat maksimum 50 produk data per project.
  • Integrasi alur kerja persetujuan permintaan tidak tersedia dalam pratinjau. Namun, konsumen produk data dapat meminta akses dengan memicu notifikasi email kepada pemilik produk data.

Langkah berikutnya