Dokumen ini mendefinisikan istilah dan konsep utama untuk BigLake.
Halaman ini bukan daftar lengkap fitur, tetapi referensi umum istilah dan konsep yang digunakan di seluruh dokumentasi BigLake.
Konsep Inti
Konsep berikut membentuk dasar arsitektur BigLake.
Lakehouse Data
Lakehouse data adalah arsitektur data yang menggabungkan efisiensi biaya dan fleksibilitas data lake dengan struktur pengelolaan data dan performa data warehouse. BigLake memungkinkan arsitektur lakehouse dengan memungkinkan Anda menyimpan data dalam format terbuka di Cloud Storage sambil menggunakan fitur BigQuery seperti keamanan tingkat tinggi dan kueri berperforma tinggi.
Interoperabilitas Terbuka
Interoperabilitas terbuka adalah kemampuan beberapa sistem analitik dan transaksional, seperti BigQuery, Spark, dan Flink, untuk beroperasi pada satu salinan data dalam format terbuka seperti Apache Iceberg. Hal ini menghilangkan kebutuhan akan duplikasi data dan memastikan tampilan data yang konsisten di berbagai alat yang berbeda.
BigLake Metastore
Metastore BigLake adalah layanan metadata terpusat dan serverless yang berfungsi sebagai satu sumber tepercaya untuk lakehouse Anda. Dengan begitu, beberapa mesin, seperti Spark, Flink, dan BigQuery, dapat menemukan dan membuat kueri tabel yang sama secara bersamaan.
Jenis Katalog
Metastore BigLake menawarkan dua jenis katalog berbeda untuk mengelola metadata Anda. Pilihan katalog adalah keputusan mendasar yang memengaruhi cara Anda berinteraksi dengan data.
Katalog REST Iceberg
Ini adalah katalog berdasarkan spesifikasi katalog REST Apache Iceberg. BigLake menyediakan interoperabilitas antara mesin open source dan BigQuery, serta mendukung fitur seperti penyediaan kredensial dan pemulihan bencana.
Katalog Iceberg kustom untuk BigQuery
Integrasi ini menggunakan BigQuery secara langsung sebagai metastore pendukung.
Format Tabel
BigLake mendukung beberapa format tabel, bergantung pada mesin yang digunakan untuk mengelola data.
Tabel BigLake Iceberg di BigQuery
Ini adalah tabel Iceberg yang Anda buat dari BigQuery dan simpan di Cloud Storage. BigQuery menangani semua tata letak dan pengoptimalan data. Meskipun tabel ini dapat dibaca oleh beberapa mesin, BigQuery adalah satu-satunya mesin yang dapat menulis langsung ke tabel tersebut.
Tabel Iceberg BigLake
Tabel ini adalah tabel Iceberg yang dibuat dari mesin open source dan disimpan di Cloud Storage. Metastore BigLake berfungsi sebagai katalog pusat. Mesin open source yang membuat tabel adalah satu-satunya mesin yang dapat menulis ke tabel tersebut.
Tabel BigQuery standar
Tabel ini dikelola oleh BigQuery dan menyimpan data di penyimpanan BigQuery. Anda dapat menghubungkan tabel ini ke metastore BigLake.
Tabel eksternal
Tabel eksternal berada di luar metastore BigLake. Data dan metadata dikelola sendiri dalam katalog pihak ketiga. BigQuery hanya dapat membaca dari tabel ini.
Fitur Tabel
BigLake menyediakan beberapa fitur yang menyederhanakan pengelolaan data dan meningkatkan performa kueri untuk tabel Iceberg.
Evolusi tabel
BigLake mendukung evolusi tabel Iceberg, yang memungkinkan Anda mengubah skema atau spesifikasi partisi tabel dari waktu ke waktu tanpa menulis ulang data tabel atau membuat ulang tabel.
Perjalanan waktu
Perjalanan waktu memungkinkan Anda mengkueri data tabel sebagaimana adanya pada titik waktu atau ID snapshot tertentu. Hal ini berguna untuk mengaudit, mereproduksi eksperimen, atau memulihkan data setelah penghapusan yang tidak disengaja.
Caching Metadata
Penyimpanan cache metadata adalah fitur yang mempercepat performa kueri untuk tabel eksternal BigLake. Fitur ini menyimpan salinan metadata tabel di penyimpanan BigQuery, sehingga mengurangi kebutuhan untuk membaca file metadata dari Cloud Storage selama eksekusi kueri.
Pemeliharaan tabel otomatis
Pemeliharaan tabel otomatis menyederhanakan pengelolaan lakehouse dengan mengotomatiskan tugas seperti pemadatan dan pengumpulan sampah untuk tabel terkelola. Hal ini memastikan performa kueri yang optimal dan efisiensi penyimpanan tanpa intervensi manual.
Konsep Interoperabilitas
Interoperabilitas menyediakan akses data di seluruh sistem open source dan Google Cloud .
Federasi Katalog
Federasi katalog adalah fitur katalog REST Iceberg yang memungkinkannya mengelola dan membuat kueri tabel yang terlihat oleh BigQuery, termasuk tabel yang dibuat dengan katalog Iceberg kustom.
Struktur Penamaan P.C.N.T
Struktur penamaan P.C.N.T adalah konvensi empat bagian yang digunakan untuk mengidentifikasi dan membuat kueri tabel secara unik di metastore BigLake dari BigQuery. Ini adalah singkatan dari Project.Catalog.Namespace.Table:
- Project: ID project Google Cloud
- Katalog: Nama katalog metastore BigLake
- Namespace: Pengelompokan logis untuk tabel (mirip dengan set data)
- Tabel: Nama tabel data
Konsep Keamanan
Fitur keamanan menyediakan mekanisme untuk pengelolaan akses dan perlindungan data.
Koneksi
Koneksi adalah resource BigQuery yang menyimpan kredensial untuk mengakses data eksternal. Di BigLake, koneksi mendelegasikan akses ke Cloud Storage dengan mengizinkan akun layanan koneksi mengakses bucket penyimpanan atas nama Anda.
Penyediaan Kredensial
Pemberian kredensial adalah mekanisme keamanan yang membantu memperketat kontrol akses saat menggunakan katalog REST Iceberg. Jika diaktifkan, BigLake membuat kredensial berumur pendek dan tercakup yang dirancang untuk memberikan akses hanya ke jalur file tertentu yang diperlukan untuk kueri, bukan meneruskan akses bucket umum ke Compute Engine. Hal ini membantu mencegah pengguna mengabaikan kebijakan keamanan tingkat tabel untuk membaca file mentah secara langsung.
Tata kelola terpadu
Tata kelola terpadu memungkinkan Anda menentukan dan menerapkan kebijakan keamanan dan pengelolaan data secara terpusat melalui integrasi dengan Dataplex Universal Catalog.
Konsep Keandalan
Fitur keandalan menyediakan ketahanan data dan ketersediaan katalog.
Replikasi lintas-region
Replikasi lintas-region mereplikasi metadata di beberapa region untuk memastikan ketersediaan katalog selama pemadaman layanan regional.
Failover
Failover adalah proses beralih antara region primer dan sekunder selama pemadaman regional untuk mempertahankan operasi katalog.