Pengantar framework resolusi entity BigQuery
Dokumen ini menjelaskan arsitektur framework penyelesaian entitas BigQuery. Penyelesaian entitas mencocokkan data di seluruh data bersama jika tidak ada ID umum atau menambah data bersama menggunakan layanan identitas dari partner Google Cloud .
Dokumen ini ditujukan untuk pengguna akhir dan penyedia identitas resolusi entitas. Untuk mengetahui detail penerapan, lihat Mengonfigurasi dan menggunakan penyelesaian entitas di BigQuery.
Anda dapat menggunakan resolusi entity BigQuery untuk data yang disiapkan sebelum Anda menyumbangkannya ke ruang bersih data. Resolusi entity tersedia dalam model harga on-demand dan berbasis kapasitas serta di semua edisi BigQuery.
Manfaat
Pengguna akhir mendapatkan manfaat berikut dari penyelesaian entity:
- Menyelesaikan entity di tempat tanpa biaya transfer data. Pelanggan atau Google Cloud partner mencocokkan data Anda dengan tabel identitas mereka dan menulis hasil kecocokan ke set data di project Google Cloud Anda.
- Menghindari pengelolaan tugas ekstraksi, transformasi, dan pemuatan (ETL).
Penyedia identitas mendapatkan manfaat berikut dari penyelesaian entitas:
- Menawarkan penyelesaian entitas sebagai penawaran software as a service (SaaS) terkelola di Google Cloud Marketplace.
- Menggunakan grafik identitas dan logika pencocokan eksklusif tanpa menunjukkannya kepada pengguna.
Arsitektur
BigQuery menerapkan resolusi entity menggunakan panggilan fungsi jarak jauh yang mengaktifkan proses resolusi entity di lingkungan penyedia identitas. Data Anda tidak disalin atau dipindahkan selama proses ini. Diagram dan penjelasan berikut menjelaskan alur kerja penyelesaian entitas:
- Pengguna akhir memberikan akses baca ke akun layanan penyedia identitas untuk set data inputnya dan akses tulis ke set data outputnya.
- Pengguna memanggil fungsi jarak jauh yang mencocokkan data inputnya dengan data grafik identitas penyedia. Fungsi jarak jauh meneruskan parameter yang cocok ke penyedia.
- Akun layanan penyedia membaca dan memproses set data input.
- Akun layanan penyedia menulis hasil penyelesaian entitas ke set data output pengguna.
Bagian berikut menjelaskan komponen pengguna akhir dan project penyedia.
Komponen pengguna akhir
Komponen pengguna akhir mencakup hal berikut:
- Panggilan fungsi jarak jauh: panggilan yang menjalankan prosedur yang ditentukan dan diimplementasikan oleh penyedia identitas. Panggilan ini memulai proses penyelesaian entitas.
- Set data input: set data sumber yang berisi data yang akan dicocokkan. Secara opsional, set data dapat berisi tabel metadata dengan parameter tambahan. Penyedia menentukan persyaratan skema untuk set data input.
- Set data output: set data tujuan tempat penyedia menyimpan hasil yang cocok sebagai tabel output. Secara opsional, penyedia dapat menulis tabel status tugas yang berisi detail tugas penyelesaian entitas ke kumpulan data ini. Set data output dapat sama dengan set data input.
Komponen penyedia identitas
Komponen penyedia identitas mencakup hal berikut:
- Control plane: berisi fungsi jarak jauh BigQuery yang mengatur proses pencocokan. Fungsi ini dapat diimplementasikan sebagai tugas Cloud Run, atau Cloud Run function. Bidang kontrol juga dapat berisi layanan lain, seperti autentikasi dan otorisasi.
- Data plane: berisi set data grafik identitas dan prosedur tersimpan yang menerapkan logika pencocokan penyedia. Prosedur tersimpan dapat diterapkan sebagai prosedur tersimpan SQL atau prosedur tersimpan Apache Spark. Set data grafik identitas berisi tabel yang digunakan untuk mencocokkan data pengguna akhir.
Langkah berikutnya
- Pelajari cara mengonfigurasi dan menggunakan penyelesaian entitas.
- Pelajari fungsi jarak jauh.
- Pelajari prosedur tersimpan.
- Pelajari ruang bersih data.