Tentang katalog runtime Lakehouse

Katalog runtime Lakehouse adalah layanan serverless yang terkelola sepenuhnya yang menyediakan sumber kebenaran tunggal untuk data lakehouse Anda. BigLake memungkinkan beberapa mesin, termasuk Apache Spark, Apache Flink, dan BigQuery, untuk berbagi tabel dan metadata tanpa menyalin file.

Katalog runtime Lakehouse mendukung delegasi akses penyimpanan (penyediaan kredensial), yang meningkatkan keamanan dengan menghilangkan kebutuhan akan akses bucket Cloud Storage langsung. Layanan ini juga terintegrasi dengan Knowledge Catalog untuk tata kelola, silsilah, dan kualitas data yang terpadu.

Kemampuan utama

Sebagai komponen Google Cloud Lakehouse, katalog runtime Lakehouse memberikan beberapa keuntungan untuk pengelolaan dan analisis data, termasuk arsitektur tanpa server, interoperabilitas mesin dengan API terbuka, pengalaman pengguna yang terpadu, serta analisis, streaming, dan AI berperforma tinggi saat digunakan dengan BigQuery. Untuk mengetahui informasi selengkapnya tentang manfaat ini, lihat Apa yang dimaksud dengan Google Cloud Lakehouse?

Mesin yang didukung

Katalog runtime Lakehouse kompatibel dengan beberapa mesin kueri, termasuk (tetapi tidak terbatas pada) Apache Spark, Apache Flink, dan Trino. Tabel berikut menyediakan link ke dokumentasi untuk setiap mesin:

Engine Dokumentasi
Apache Spark Panduan memulai: Menggunakan dengan Spark
Apache Flink Penggunaan dengan Apache Flink
Trino Gunakan dengan Trino

Opsi konfigurasi

Katalog runtime Lakehouse dapat dikonfigurasi dengan salah satu dari dua cara: dengan endpoint katalog REST Apache Iceberg atau endpoint *Katalog Apache Iceberg kustom untuk BigQuery. Opsi terbaik bergantung pada kasus penggunaan Anda, seperti yang ditunjukkan dalam tabel berikut:

Kasus penggunaan Rekomendasi
Pengguna katalog runtime Lakehouse baru yang ingin mesin open source mereka mengakses data di Cloud Storage dan memerlukan interoperabilitas dengan mesin lain, termasuk BigQuery dan AlloyDB untuk PostgreSQL. Gunakan endpoint katalog REST Apache Iceberg.
Pengguna katalog runtime Lakehouse yang sudah ada dan memiliki tabel saat ini dengan katalog Apache Iceberg kustom untuk BigQuery. Terus gunakan endpoint katalog Apache Iceberg kustom untuk BigQuery, tetapi gunakan katalog REST Apache Iceberg untuk alur kerja baru. Tabel yang dibuat dengan endpoint katalog Apache Iceberg kustom untuk BigQuery terlihat dengan katalog REST Apache Iceberg melalui federasi katalog BigQuery.

Perbedaan dengan metastore BigLake (klasik)

Katalog runtime Lakehouse adalah metastore yang direkomendasikan diGoogle Cloud, sementara BigLake metastore (klasik) dianggap sebagai fitur lama.

Perbedaan utama antara katalog runtime Lakehouse dan metastore BigLake (klasik) meliputi hal berikut:

  • Katalog runtime Lakehouse mendukung integrasi langsung dengan mesin open source seperti Spark, yang membantu mengurangi redundansi saat Anda menyimpan metadata dan menjalankan tugas. Tabel dalam katalog runtime Lakehouse dapat diakses langsung dari beberapa mesin open source dan BigQuery.
  • Katalog runtime Lakehouse mendukung endpoint katalog REST Apache Iceberg, sedangkan metastore BigLake (klasik) tidak mendukungnya.

Batasan katalog runtime Lakehouse

Batasan berikut berlaku untuk tabel dalam katalog runtime Lakehouse:

Pengelolaan tabel

  • Anda tidak dapat membuat atau mengubah tabel katalog REST Iceberg Lakehouse dengan pernyataan bahasa definisi data (DDL) atau bahasa pengolahan data (DML) BigQuery. Anda dapat mengubah tabel katalog REST Iceberg Lakehouse menggunakan BigQuery API (dengan alat command line bq atau library klien), tetapi tindakan ini berisiko membuat perubahan yang tidak kompatibel dengan mesin eksternal.
  • Tabel katalog runtime lakehouse tidak mendukung operasi penggantian nama atau pernyataan Spark SQL ALTER TABLE ... RENAME TO.
  • Tabel katalog runtime Lakehouse tidak mendukung pengelompokan.
  • Tabel katalog runtime Lakehouse tidak mendukung nama kolom fleksibel.
  • Katalog runtime Lakehouse tidak mendukung tampilan Apache Iceberg.

Membuat kueri

  • Performa kueri untuk tabel katalog runtime Lakehouse dari mesin BigQuery mungkin lambat dibandingkan dengan mengkueri data dalam tabel BigQuery standar. Secara umum, kecepatan kueri harus setara dengan membaca data dari Cloud Storage.
  • Uji coba BigQuery dari kueri yang menggunakan tabel katalog runtime Lakehouse mungkin melaporkan batas bawah 0 byte data, meskipun baris ditampilkan. Hasil ini terjadi karena jumlah data yang diproses dari tabel tidak dapat ditentukan hingga kueri lengkap dijalankan. Menjalankan kueri akan menimbulkan biaya untuk pemrosesan data ini.
  • Anda tidak dapat mereferensikan tabel katalog runtime Lakehouse dalam kueri tabel karakter pengganti.

API dan metadata

  • Anda tidak dapat menggunakan metode tabledata.list untuk mengambil data dari tabel katalog runtime Lakehouse. Sebagai gantinya, Anda dapat menyimpan hasil kueri ke tabel BigQuery, lalu menggunakan metode tabledata.list pada tabel tersebut.
  • Tampilan statistik penyimpanan tabel untuk tabel katalog runtime Lakehouse tidak didukung.

Kuota dan batas

  • Tabel katalog runtime lakehouse di BigQuery tunduk pada kuota dan batas yang sama seperti tabel standar.

Langkah berikutnya