Pengantar metastore BigLake

Metastore BigLake adalah metastore terpadu, terkelola, serverless, dan skalabel yang menghubungkan data lakehouse yang disimpan di Google Cloud ke beberapa runtime, termasuk mesin open source (seperti Apache Spark) dan BigQuery. Layanan ini menyediakan fondasi yang Anda butuhkan untuk membangun lakehouse yang terbuka, terkelola, dan berperforma tinggi dengan pengelolaan data otomatis dan tata kelola bawaan menggunakan format tabel open source utama, seperti Apache Iceberg.

Metastore BigLake menyediakan satu sumber kebenaran untuk metadata dari berbagai sumber, sehingga Anda tidak perlu menyalin dan menyinkronkan data dan metadata antara berbagai sistem dan repositori analitik dengan alat yang disesuaikan. Layanan ini juga mendukung model delegasi akses penyimpanan, seperti penyediaan kredensial, yang menghilangkan kebutuhan pengguna katalog untuk memiliki akses langsung ke bucket Cloud Storage.

Untuk alur kerja yang menggunakan tabel Iceberg BigLake di BigQuery, metastore BigLake juga didukung dengan Dataplex Universal Catalog, yang menyediakan kontrol akses terpadu dan terperinci di semua mesin yang didukung serta memungkinkan tata kelola end-to-end yang mencakup kemampuan silsilah, kualitas data, dan penemuan yang komprehensif.

BigLake Metastore dapat dikonfigurasi dengan salah satu dari dua cara: dengan katalog REST Iceberg atau katalog Iceberg kustom untuk BigQuery. Opsi terbaik bergantung pada kasus penggunaan Anda, seperti yang ditunjukkan dalam tabel berikut:

Kasus penggunaan Rekomendasi
Pengguna metastore BigLake baru yang ingin mesin open source mereka mengakses data di Cloud Storage dan memerlukan interoperabilitas dengan mesin lain, termasuk BigQuery dan AlloyDB. Gunakan katalog REST Iceberg.
Pengguna metastore BigLake yang sudah ada dan memiliki tabel saat ini dengan katalog Iceberg kustom untuk BigQuery. Terus menggunakan katalog Iceberg kustom untuk BigQuery, tetapi gunakan katalog REST Iceberg untuk alur kerja baru. Tabel yang dibuat dengan katalog Iceberg kustom untuk BigQuery terlihat dengan katalog REST Iceberg melalui federasi.

Kemampuan utama

Metastore BigLake menawarkan beberapa keuntungan utama untuk pengelolaan dan analisis data:

  • Arsitektur serverless. Metastore BigLake menyediakan arsitektur tanpa server, sehingga Anda tidak perlu mengelola server atau cluster. Dengan begitu, overhead operasional dapat dikurangi, deployment disederhanakan, dan penskalaan otomatis dapat dilakukan berdasarkan permintaan.
  • Interoperabilitas mesin dengan API terbuka. Metastore BigLake mendukung interoperabilitas dengan mesin open source dan pihak ketiga. Metastore BigLake memberi Anda akses tabel langsung di seluruh mesin open source (seperti Spark dan Flink) dan BigQuery, sehingga Anda dapat mengkueri tabel format terbuka tanpa langkah koneksi tambahan. Konfigurasi ini membantu menyederhanakan alur kerja analisis Anda dan mengurangi kebutuhan akan proses ETL atau pemindahan data yang kompleks.
  • Pengalaman pengguna yang terpadu. Metastore BigLake menyediakan alur kerja terpadu di seluruh mesin open source dan BigQuery. Dengan pengalaman terpadu ini, Anda dapat, misalnya, mengonfigurasi lingkungan Spark yang dihosting sendiri, dihosting oleh Dataproc melalui katalog REST Iceberg, atau di notebook BigQuery.
  • Analisis, streaming, dan AI berperforma tinggi dengan BigQuery. Metastore BigLake memungkinkan Anda menyimpan data Iceberg di bucket Cloud Storage Anda sendiri dan memanfaatkan kemampuan pengelolaan metadata real-time yang sangat skalabel dari BigQuery. Arsitektur ini melengkapi Anda dengan keterbukaan dan kepemilikan data Cloud Storage, serta kemampuan streaming, analisis, dan AI yang terkelola sepenuhnya dari BigQuery.

Perbedaan dengan metastore BigLake (klasik)

Metastore BigLake adalah metastore yang direkomendasikan di Google Cloud, sementara BigLake Metastore (klasik) dianggap sebagai fitur lama.

Perbedaan utama antara BigLake Metastore dan BigLake Metastore (klasik) meliputi hal berikut:

  • Metastore BigLake mendukung integrasi langsung dengan mesin open source seperti Spark, yang membantu mengurangi redundansi saat Anda menyimpan metadata dan menjalankan tugas. Tabel di metastore BigLake dapat diakses langsung dari beberapa mesin open source dan BigQuery.
  • BigLake Metastore mendukung katalog REST Iceberg, sedangkan BigLake Metastore (klasik) tidak.

Batasan BigLake metastore

Batasan berikut berlaku untuk tabel di metastore BigLake:

  • Anda tidak dapat membuat atau mengubah tabel BigLake Iceberg dengan pernyataan bahasa definisi data (DDL) atau bahasa pengolahan data (DML) BigQuery. Anda dapat mengubah tabel BigLake Iceberg menggunakan BigQuery API (dengan alat command line bq atau library klien), tetapi tindakan ini berisiko membuat perubahan yang tidak kompatibel dengan mesin eksternal.
  • Tabel metastore BigLake tidak mendukung operasi penggantian nama atau pernyataan SQL Spark ALTER TABLE ... RENAME TO.
  • Tabel metastore BigLake di BigQuery tunduk pada kuota dan batas yang sama seperti tabel standar.
  • Performa kueri untuk tabel metastore BigLake dari mesin BigQuery mungkin lambat dibandingkan dengan membuat kueri data dalam tabel BigQuery standar. Secara umum, kecepatan kueri harus setara dengan membaca data dari Cloud Storage.
  • Uji coba BigQuery dari kueri yang menggunakan tabel metastore BigLake mungkin melaporkan batas bawah 0 byte data, meskipun baris ditampilkan. Hasil ini terjadi karena jumlah data yang diproses dari tabel tidak dapat ditentukan hingga kueri lengkap dijalankan. Menjalankan kueri akan menimbulkan biaya untuk pemrosesan data ini.
  • Anda tidak dapat mereferensikan tabel metastore BigLake dalam kueri tabel karakter pengganti.
  • Anda tidak dapat menggunakan metode tabledata.list untuk mengambil data dari tabel metastore BigLake. Sebagai gantinya, Anda dapat menyimpan hasil kueri ke tabel BigQuery, lalu menggunakan metode tabledata.list pada tabel tersebut.
  • Tabel metastore BigLake tidak mendukung pengelompokan.
  • Tabel metastore BigLake tidak mendukung nama kolom fleksibel.
  • Tampilan statistik penyimpanan tabel untuk tabel metastore BigLake tidak didukung.
  • Metastore BigLake tidak mendukung tampilan Iceberg.

Langkah berikutnya