Konsep utama

Dokumen ini mendefinisikan istilah dan konsep utama untuk BigLake.

Halaman ini bukan daftar lengkap fitur, tetapi referensi umum istilah dan konsep yang digunakan di seluruh dokumentasi BigLake.

Konsep Inti

Konsep berikut membentuk dasar arsitektur BigLake.

Lakehouse Data

Lakehouse data adalah arsitektur data yang menggabungkan efisiensi biaya dan fleksibilitas data lake dengan struktur pengelolaan data dan performa data warehouse. BigLake memungkinkan arsitektur lakehouse dengan memungkinkan Anda menyimpan data dalam format terbuka di Cloud Storage sambil menggunakan fitur BigQuery seperti keamanan tingkat tinggi dan kueri berperforma tinggi.

Interoperabilitas Terbuka

Interoperabilitas terbuka adalah kemampuan beberapa sistem analitik dan transaksional, seperti BigQuery, Spark, dan Flink, untuk beroperasi pada satu salinan data dalam format terbuka seperti Apache Iceberg. Hal ini menghilangkan kebutuhan akan duplikasi data dan memastikan tampilan data yang konsisten di berbagai alat yang berbeda.

BigLake Metastore

Metastore BigLake adalah layanan metadata terpusat dan serverless yang berfungsi sebagai satu sumber tepercaya untuk lakehouse Anda. Dengan begitu, beberapa mesin, seperti Spark, Flink, dan BigQuery, dapat menemukan dan membuat kueri tabel yang sama secara bersamaan.

Jenis Katalog

Metastore BigLake menawarkan dua jenis katalog berbeda untuk mengelola metadata Anda. Pilihan katalog adalah keputusan mendasar yang memengaruhi cara Anda berinteraksi dengan data.

Katalog REST Iceberg

Ini adalah katalog berdasarkan spesifikasi katalog REST Apache Iceberg. BigLake menyediakan interoperabilitas antara mesin open source dan BigQuery, serta mendukung fitur seperti penyediaan kredensial dan pemulihan bencana.

Katalog Iceberg kustom untuk BigQuery

Integrasi ini menggunakan BigQuery secara langsung sebagai metastore pendukung.

Format Tabel

BigLake mendukung beberapa format tabel, bergantung pada mesin yang digunakan untuk mengelola data.

Tabel BigLake Iceberg di BigQuery

Ini adalah tabel Iceberg yang Anda buat dari BigQuery dan simpan di Cloud Storage. BigQuery menangani semua tata letak dan pengoptimalan data. Meskipun tabel ini dapat dibaca oleh beberapa mesin, BigQuery adalah satu-satunya mesin yang dapat menulis langsung ke tabel tersebut.

Tabel Iceberg BigLake

Tabel ini adalah tabel Iceberg yang dibuat dari mesin open source dan disimpan di Cloud Storage. Metastore BigLake berfungsi sebagai katalog pusat. Mesin open source yang membuat tabel adalah satu-satunya mesin yang dapat menulis ke tabel tersebut.

Tabel BigQuery standar

Tabel ini dikelola oleh BigQuery dan menyimpan data di penyimpanan BigQuery. Anda dapat menghubungkan tabel ini ke metastore BigLake.

Tabel eksternal

Tabel eksternal berada di luar metastore BigLake. Data dan metadata dikelola sendiri dalam katalog pihak ketiga. BigQuery hanya dapat membaca dari tabel ini.

Fitur Tabel

BigLake menyediakan beberapa fitur yang menyederhanakan pengelolaan data dan meningkatkan performa kueri untuk tabel Iceberg.

Evolusi tabel

BigLake mendukung evolusi tabel Iceberg, yang memungkinkan Anda mengubah skema atau spesifikasi partisi tabel dari waktu ke waktu tanpa menulis ulang data tabel atau membuat ulang tabel.

Perjalanan waktu

Perjalanan waktu memungkinkan Anda mengkueri data tabel sebagaimana adanya pada titik waktu atau ID snapshot tertentu. Hal ini berguna untuk mengaudit, mereproduksi eksperimen, atau memulihkan data setelah penghapusan yang tidak disengaja.

Caching Metadata

Penyimpanan cache metadata adalah fitur yang mempercepat performa kueri untuk tabel eksternal BigLake. Fitur ini menyimpan salinan metadata tabel di penyimpanan BigQuery, sehingga mengurangi kebutuhan untuk membaca file metadata dari Cloud Storage selama eksekusi kueri.

Pemeliharaan tabel otomatis

Pemeliharaan tabel otomatis menyederhanakan pengelolaan lakehouse dengan mengotomatiskan tugas seperti pemadatan dan pengumpulan sampah untuk tabel terkelola. Hal ini memastikan performa kueri yang optimal dan efisiensi penyimpanan tanpa intervensi manual.

Konsep Interoperabilitas

Interoperabilitas menyediakan akses data di seluruh sistem open source dan Google Cloud .

Federasi Katalog

Federasi katalog adalah fitur katalog REST Iceberg yang memungkinkannya mengelola dan membuat kueri tabel yang terlihat oleh BigQuery, termasuk tabel yang dibuat dengan katalog Iceberg kustom.

Struktur Penamaan P.C.N.T

Struktur penamaan P.C.N.T adalah konvensi empat bagian yang digunakan untuk mengidentifikasi dan membuat kueri tabel secara unik di metastore BigLake dari BigQuery. Ini adalah singkatan dari Project.Catalog.Namespace.Table:

  • Project: ID project Google Cloud
  • Katalog: Nama katalog metastore BigLake
  • Namespace: Pengelompokan logis untuk tabel (mirip dengan set data)
  • Tabel: Nama tabel data

Konsep Keamanan

Fitur keamanan menyediakan mekanisme untuk pengelolaan akses dan perlindungan data.

Koneksi

Koneksi adalah resource BigQuery yang menyimpan kredensial untuk mengakses data eksternal. Di BigLake, koneksi mendelegasikan akses ke Cloud Storage dengan mengizinkan akun layanan koneksi mengakses bucket penyimpanan atas nama Anda.

Penyediaan Kredensial

Pemberian kredensial adalah mekanisme keamanan yang membantu memperketat kontrol akses saat menggunakan katalog REST Iceberg. Jika diaktifkan, BigLake membuat kredensial berumur pendek dan tercakup yang dirancang untuk memberikan akses hanya ke jalur file tertentu yang diperlukan untuk kueri, bukan meneruskan akses bucket umum ke Compute Engine. Hal ini membantu mencegah pengguna mengabaikan kebijakan keamanan tingkat tabel untuk membaca file mentah secara langsung.

Tata kelola terpadu

Tata kelola terpadu memungkinkan Anda menentukan dan menerapkan kebijakan keamanan dan pengelolaan data secara terpusat melalui integrasi dengan Dataplex Universal Catalog.

Konsep Keandalan

Fitur keandalan menyediakan ketahanan data dan ketersediaan katalog.

Replikasi lintas-region

Replikasi lintas-region mereplikasi metadata di beberapa region untuk memastikan ketersediaan katalog selama pemadaman layanan regional.

Failover

Failover adalah proses beralih antara region primer dan sekunder selama pemadaman regional untuk mempertahankan operasi katalog.