Cara kerja BigLake

Halaman ini menjelaskan arsitektur teknis BigLake, memberikan detail tentang cara penanganan kueri, dan cara metastore BigLake mendukung interoperabilitas antar-mesin.

Arsitektur

Lakehouse data yang dibangun dengan BigLake terdiri dari komponen berikut:

  • Penyimpanan: Cloud Storage dan penyimpanan BigQuery berfungsi sebagai lapisan penyimpanan, dengan Apache Iceberg sebagai format tabel terbuka yang direkomendasikan untuk Cloud Storage.
  • Metastore: BigLake Metastore menyediakan satu sumber kebenaran untuk mengelola metadata di beberapa mesin.
  • Mesin kueri: BigQuery, Apache Spark, Apache Flink, Trino, dan mesin open source lainnya kompatibel dengan BigLake.
  • Tata kelola: Dataplex Universal Catalog menyediakan kebijakan keamanan dan tata kelola terpusat.
  • Alat penulisan dan analisis data: Mesin dan alat yang terintegrasi dengan BigLake menyediakan beberapa jalur untuk penyerapan dan analisis data.

Hierarki resource

BigLake mengatur data menggunakan hierarki Apache Iceberg standar. Struktur ini memetakan konsep database logis ke jalur penyimpanan fisik.

  1. Layanan Metastore: Resource regional tingkat teratas di Google Cloud.
  2. Katalog: Penampung untuk mengelompokkan database, yang sesuai dengan project.
  3. Namespace: Pengelompokan tabel secara logis. Di BigQuery, ini dipetakan ke set data.
  4. Tabel: Entitas spesifik yang mengarah ke data di Cloud Storage. Metadata tabel berisi informasi seperti skema tabel, informasi partisi, properti kustom, dan penunjuk ke status tabel saat ini melalui file metadata.json.

Urutan pemrosesan kueri

Saat Anda mengirimkan kueri ke tabel BigLake, permintaan akan mengikuti jalur tertentu untuk menerapkan kebijakan sebelum data dibaca.

  1. Permintaan: Anda mengirimkan kueri SQL ke mesin (misalnya, Spark).
  2. Pencarian metadata: Engine mengirim permintaan ke metastore BigLake untuk menyelesaikan tabel.
  3. Autentikasi dan kebijakan: Metastore mengautentikasi Anda dan memeriksa izin.
  4. Respons: Metastore menampilkan metadata dan, secara opsional, token penyimpanan ke mesin. Token penyimpanan hanya digunakan jika penyediaan kredensial diaktifkan.
  5. Baca: Mesin menggunakan token untuk membaca file langsung dari penyimpanan.
  6. Compute: Mesin memproses data dan menampilkan hasilnya.

BigLake metastore

BigLake Metastore adalah metastore serverless yang terkelola sepenuhnya untuk lakehouse Anda diGoogle Cloud. BigLake Metastore menyediakan satu sumber kebenaran untuk metadata dari berbagai sumber dan dapat diakses dari BigQuery dan berbagai mesin pemrosesan data terbuka, sehingga menghilangkan kebutuhan untuk menyinkronkan metadata di antara berbagai repositori.

BigLake Metastore didukung dengan Dataplex Universal Catalog, yang memberikan kontrol akses terpadu dan terperinci di semua mesin yang didukung dan mendukung tata kelola end-to-end dengan silsilah, kualitas data, dan kemampuan penemuan.

Jenis tabel

Saat membangun lakehouse di BigLake, Anda memiliki beberapa pilihan untuk format dan pengelolaan tabel:

  • Tabel BigLake Iceberg: Tabel Iceberg yang dibuat dari mesin open source dan disimpan di Cloud Storage.
  • Tabel Iceberg BigLake di BigQuery: Tabel Iceberg yang dibuat dari BigQuery. Metadata untuk tabel ini disimpan di katalog BigQuery dan hanya dapat diakses melalui federasi katalog BigQuery, sementara data tabel dan metadata fisik disimpan di Cloud Storage.
  • Tabel BigQuery standar: Tabel yang dikelola sepenuhnya oleh BigQuery yang dapat dihubungkan ke metastore BigLake.
  • Tabel eksternal: Tabel di luar metastore BigLake tempat data dan metadata dikelola sendiri.

Untuk perbandingan mendetail tentang opsi ini, lihat Ringkasan tabel.

Langkah berikutnya