Tentang insight data untuk data terstruktur

Insight data Knowledge Catalog (sebelumnya Dataplex Universal Catalog) secara otomatis membuat deskripsi, grafik hubungan, dan kueri SQL dari metadata tabel dan set data Anda. Informasi ini membantu Anda memahami struktur data, konten, dan hubungan dengan cepat tanpa penyiapan manual yang ekstensif. Untuk menyelidiki lebih lanjut, Anda dapat mengajukan pertanyaan lanjutan di kanvas data.

Saat menjelajahi tabel baru yang tidak dikenal, analis data sering kali menghadapi masalah cold start tentang cara memulai penulisan kueri. Masalahnya dapat mencakup ketidakpastian tentang struktur data dan pola utama dalam data. Fitur insight data Knowledge Catalog menawarkan cara otomatis untuk menjelajahi dan memahami data Anda. Hal ini membantu Anda menemukan pola, menilai kualitas data, dan melakukan analisis statistik.

Bagaimana cara kerja insight data?

Insight data menggunakan Gemini untuk menganalisis metadata Anda dan membuat hal berikut:

  • Deskripsi: Ringkasan buatan AI yang menjelaskan tujuan set data, struktur tabel, dan detail kolom tertentu.

  • Contoh kueri: Kueri SQL yang disesuaikan dan dirancang khusus untuk skema dan konten set data atau tabel Anda.

  • Grafik hubungan: Visualisasi yang menunjukkan koneksi dan dependensi antara berbagai tabel dalam set data Anda.

Resource yang didukung

Insight data tersedia untuk jenis data terstruktur berikut:

  • Set data, tabel, dan tampilan BigQuery
  • Tabel BigLake (termasuk Apache Iceberg)
  • Tabel eksternal
  • Tabel Katalog REST Iceberg

Contoh menjalankan insight

Insight data otomatis membuat kueri natural language dan padanan SQL-nya berdasarkan metadata tabel.

Pertimbangkan tabel bernama telco_churn dengan metadata berikut:

Nama kolom Jenis
CustomerID STRING
Gender STRING
Masa bakti INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Kontrak STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Berikut adalah beberapa contoh kueri yang dihasilkan insight data untuk tabel ini:

  • Identifikasi pelanggan yang telah berlangganan semua layanan premium dan telah menjadi pelanggan selama lebih dari 50 bulan.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifikasi layanan internet mana yang memiliki pelanggan yang berhenti berlangganan paling banyak.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifikasi rasio churn menurut segmen di antara pelanggan bernilai tinggi.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Mode untuk menghasilkan insight data

Saat menghasilkan insight data, Knowledge Catalog menyediakan dua mode:

Mode Deskripsi Penggunaan
Membuat dan memublikasikan

Mempertahankan insight data yang dihasilkan ke dalam Knowledge Catalog sebagai aspek metadata. Anda harus memiliki izin yang diperlukan untuk memublikasikan. Saat Anda menggunakan Buat dan publikasikan, tindakan berikut akan terjadi:

  • Menyimpan deskripsi tabel dan kolom di Knowledge Catalog.
  • Mencatat kueri dan pertanyaan yang disarankan sebagai aspek yang dapat digunakan kembali.
  • Membuat insight yang dipublikasikan dapat diakses oleh semua pengguna yang memiliki akses Katalog Pengetahuan yang sesuai, sehingga memastikan pengetahuan organisasi dibagikan.
  • Memungkinkan Anda mengedit dan menyimpan deskripsi langsung di Katalog Pengetahuan.

Gunakan mode ini untuk dokumentasi data di seluruh perusahaan yang tetap ada dan dapat digunakan kembali, atau saat membuat alur kerja tata kelola berbasis katalog.

Buat tanpa memublikasikan

Membuat insight data seperti deskripsi, pertanyaan natural language, dan kueri SQL sesuai permintaan. Generate without publishing tidak memublikasikan insight ke Katalog Pengetahuan.

Gunakan mode ini untuk eksplorasi ad hoc yang cepat guna menghindari kekacauan katalog.

Harga

Untuk mengetahui detail tentang harga fitur ini, lihat Ringkasan harga Gemini in BigQuery.

Kuota dan batas

Untuk mengetahui informasi tentang kuota dan batas untuk fitur ini, lihat Kuota untuk Gemini di BigQuery.

Lokasi

Anda dapat menggunakan insight data di semua lokasi BigQuery. Untuk mempelajari tempat Gemini in BigQuery memproses data Anda, lihat Tempat Gemini in BigQuery memproses data Anda.

Batasan

  • Untuk pelanggan multi-cloud, data dari cloud lain tidak tersedia.
  • Insight data tidak mendukung jenis kolom Geo atau JSON.
  • Eksekusi insight tidak menjamin presentasi kueri setiap saat. Untuk meningkatkan kemungkinan menghasilkan kueri yang lebih menarik, buat ulang insight di BigQuery Studio.

Langkah berikutnya