Konsep utama

Dokumen ini mendefinisikan istilah dan konsep utama untuk Google Cloud Lakehouse.

Halaman ini bukan daftar lengkap fitur, melainkan referensi umum istilah dan konsep yang digunakan di seluruh dokumentasi Google Cloud Lakehouse.

Konsep Inti

Konsep berikut membentuk dasar arsitektur Google Cloud Lakehouse.

Data Lakehouse Google Cloud

Data lakehouse menggabungkan penghematan biaya dan fleksibilitas data lake dengan pengelolaan data dan performa data warehouse. Dengan layanan ini, Anda dapat menyimpan data dalam format terbuka di Cloud Storage dan menggunakan fitur BigQuery, seperti kontrol keamanan yang akurat dan kueri cepat.

Interoperabilitas Terbuka

Interoperabilitas terbuka adalah kemampuan beberapa sistem analitik dan transaksional, seperti BigQuery, Apache Spark, dan Apache Flink, untuk beroperasi pada satu salinan data dalam format terbuka seperti Apache Iceberg. Hal ini menghilangkan kebutuhan akan duplikasi data dan memastikan tampilan data yang konsisten di berbagai alat yang berbeda.

Katalog runtime lakehouse

Katalog runtime Lakehouse adalah layanan metadata terpusat dan serverless yang bertindak sebagai satu sumber tepercaya untuk Google Cloud Lakehouse. BigLake memungkinkan beberapa mesin, seperti Apache Spark, Apache Flink, dan BigQuery, menemukan dan membuat kueri tabel yang sama secara bersamaan.

Jenis Katalog

Katalog runtime Lakehouse menawarkan berbagai jenis katalog untuk mengelola metadata Anda.

Endpoint katalog REST Apache Iceberg

Ini adalah katalog berdasarkan endpoint katalog REST Apache Iceberg. BigLake menyediakan interoperabilitas antara mesin open source dan BigQuery, serta mendukung fitur seperti penyediaan kredensial dan pemulihan dari bencana.

Katalog Apache Iceberg kustom untuk BigQuery

Integrasi ini menggunakan katalog BigQuery secara langsung sebagai layanan metadata pendukung untuk tabel Apache Iceberg terkelola.

Format Tabel

Google Cloud Lakehouse mendukung beberapa format tabel, bergantung pada mesin yang digunakan untuk mengelola data.

Tabel katalog REST Iceberg Lakehouse

Tabel ini adalah tabel Apache Iceberg yang dibuat dari mesin open source dan disimpan di Cloud Storage. Katalog runtime Lakehouse berfungsi sebagai katalog pusat. Mesin open source yang membuat tabel adalah satu-satunya mesin yang dapat menulis ke tabel tersebut.

Tabel BigQuery

Tabel ini dikelola dengan BigQuery.

Tabel Apache Iceberg

Ini adalah tabel Apache Iceberg yang Anda buat dari BigQuery dan disimpan di Cloud Storage. BigQuery menangani semua tata letak dan pengoptimalan data. Meskipun tabel ini dapat dibaca oleh beberapa mesin, BigQuery adalah satu-satunya mesin yang dapat menulis langsung ke tabel tersebut.

Tabel native

Tabel ini dikelola oleh BigQuery dan menyimpan data di penyimpanan BigQuery. Anda dapat menghubungkan tabel ini ke katalog runtime Lakehouse.

Tabel eksternal

Tabel eksternal berada di luar katalog runtime Lakehouse. Data dan metadata dikelola sendiri dalam katalog pihak ketiga (seperti Cloud Storage, S3, atau Azure Blob Storage). BigQuery hanya dapat membaca dari tabel ini.

Fitur Tabel

Evolusi tabel

Lakehouse Google Cloud mendukung evolusi tabel Apache Iceberg, yang memungkinkan Anda mengubah skema atau spesifikasi partisi tabel dari waktu ke waktu tanpa menulis ulang data tabel atau membuat ulang tabel.

Perjalanan waktu

Perjalanan waktu memungkinkan Anda membuat kueri data tabel sebagaimana adanya pada titik waktu atau ID snapshot tertentu. Hal ini berguna untuk mengaudit, mereproduksi eksperimen, atau memulihkan data setelah penghapusan yang tidak disengaja.

Caching Metadata

Caching metadata adalah fitur yang mempercepat performa kueri untuk tabel eksternal. Fitur ini menyimpan salinan metadata tabel di penyimpanan BigQuery, sehingga mengurangi kebutuhan untuk membaca file metadata dari Cloud Storage selama eksekusi kueri.

Pengelolaan tabel Google Cloud Lakehouse

Pengelolaan tabel Google Cloud Lakehouse menyederhanakan pemeliharaan lakehouse dengan mengotomatiskan tugas seperti pemadatan dan pengumpulan sampah untuk tabel terkelola. Hal ini memastikan performa kueri dan efisiensi penyimpanan yang optimal.

Konsep Interoperabilitas

Federasi katalog runtime lakehouse

Federasi katalog adalah fitur yang memungkinkan katalog runtime Lakehouse mengelola dan membuat kueri tabel dari katalog asing—seperti AWS Glue atau Unity Catalog—yang terlihat oleh BigQuery.

Struktur Penamaan P.C.N.T

Struktur penamaan P.C.N.T adalah konvensi empat bagian yang digunakan untuk mengidentifikasi dan membuat kueri tabel secara unik dalam katalog runtime Lakehouse dari BigQuery. Ini adalah singkatan dari Project.Catalog.Namespace.Table:

  • Project: ID project Google Cloud .
  • Katalog: Nama katalog runtime Lakehouse.
  • Namespace: Pengelompokan logis untuk tabel (mirip dengan set data).
  • Tabel: Nama tabel data.

Konsep Keamanan

Koneksi

Koneksi adalah resource BigQuery yang menyimpan kredensial untuk mengakses data eksternal. Di Google Cloud Lakehouse, koneksi mendelegasikan akses ke Cloud Storage dengan mengizinkan akun layanan koneksi mengakses bucket penyimpanan atas nama Anda.

Pemberian Kredensial

Pemberian kredensial adalah mekanisme keamanan yang membantu memperketat kontrol akses saat menggunakan katalog runtime Lakehouse. Jika diaktifkan, layanan akan membuat kredensial berjangka pendek dan tercakup yang dirancang untuk memberikan akses hanya ke jalur file tertentu yang diperlukan untuk kueri.

Tata kelola terpadu

Tata kelola terpadu memungkinkan Anda menentukan dan menerapkan kebijakan keamanan dan pengelolaan data secara terpusat melalui integrasi dengan Knowledge Catalog.

Konsep Keandalan

Replikasi lintas-region

Replikasi lintas-region mereplikasi metadata di beberapa region untuk memastikan ketersediaan katalog selama pemadaman layanan regional.

Failover

Failover adalah proses beralih antara region primer dan sekunder selama pemadaman layanan regional untuk mempertahankan operasi katalog.