Tentang katalog runtime Lakehouse

Katalog runtime Lakehouse adalah layanan serverless yang terkelola sepenuhnya dan menyediakan satu sumber tepercaya untuk data lakehouse Anda. Layanan ini memungkinkan beberapa mesin, termasuk Apache Spark, Apache Flink, dan BigQuery, untuk berbagi tabel dan metadata tanpa menyalin file.

Katalog runtime Lakehouse mendukung delegasi akses penyimpanan (penjualan kredensial), yang meningkatkan keamanan dengan menghilangkan kebutuhan akan akses bucket Cloud Storage langsung. Layanan ini juga terintegrasi dengan Knowledge Catalog untuk tata kelola, silsilah, dan kualitas data terpadu.

Kemampuan utama

Sebagai komponen Google Cloud Lakehouse, katalog runtime Lakehouse memberikan beberapa keuntungan untuk pengelolaan dan analisis data, termasuk arsitektur serverless interoperabilitas mesin dengan API terbuka, pengalaman pengguna terpadu, serta analisis, streaming, dan AI berperforma tinggi saat digunakan dengan BigQuery. Untuk mengetahui informasi selengkapnya tentang manfaat ini, lihat Apa yang dimaksud dengan Google Cloud Lakehouse?

Mesin yang didukung

Katalog runtime Lakehouse kompatibel dengan beberapa mesin kueri, termasuk (tetapi tidak terbatas pada) Apache Spark, Apache Flink, dan Trino. Tabel berikut menyediakan link ke dokumentasi untuk setiap mesin:

Mesin Dokumentasi
Apache Spark Panduan memulai: Menggunakan Spark
Apache Flink Menggunakan Apache Flink
Trino Menggunakan Trino

Opsi konfigurasi

Katalog runtime Lakehouse dapat dikonfigurasi dengan salah satu dari dua cara: dengan endpoint katalog REST Apache Iceberg atau katalog Apache Iceberg kustom untuk endpoint BigQuery. Opsi terbaik bergantung pada kasus penggunaan Anda, seperti yang ditunjukkan dalam tabel berikut:

Kasus penggunaan Rekomendasi
Pengguna baru katalog runtime Lakehouse yang ingin mesin open source mereka mengakses data di Cloud Storage dan memerlukan interoperabilitas dengan mesin lain, termasuk BigQuery dan AlloyDB untuk PostgreSQL. Gunakan endpoint katalog REST Apache Iceberg.
Pengguna katalog runtime Lakehouse yang sudah ada dan memiliki tabel saat ini yang dibuat dengan the katalog Apache Iceberg kustom untuk endpoint BigQuery. Terus gunakan katalog Apache Iceberg kustom untuk endpoint BigQuery, tetapi gunakan katalog REST Apache Iceberg untuk alur kerja baru. Tabel yang dibuat dengan katalog Apache Iceberg kustom untuk endpoint BigQuery terlihat dengan endpoint katalog REST Apache Iceberg melalui federasi katalog BigQuery.

Perbedaan dengan metastore BigLake (klasik)

Katalog runtime Lakehouse adalah metastore yang direkomendasikan di Google Cloud, sedangkan metastore BigLake (klasik) dianggap sebagai fitur lama.

Perbedaan inti antara katalog runtime Lakehouse dan metastore BigLake (klasik) mencakup hal berikut:

  • Katalog runtime Lakehouse mendukung integrasi langsung dengan mesin open source seperti Spark, yang membantu mengurangi redundansi saat Anda menyimpan metadata dan menjalankan tugas. Tabel di katalog runtime Lakehouse dapat diakses langsung dari beberapa mesin open source dan BigQuery.
  • Katalog runtime Lakehouse mendukung endpoint katalog REST Apache Iceberg, sedangkan metastore BigLake (klasik) tidak.

Batasan katalog runtime Lakehouse

Batasan berikut berlaku untuk tabel di katalog runtime Lakehouse:

Pengelolaan tabel

  • Anda tidak dapat membuat atau mengubah tabel dengan endpoint katalog REST Apache Iceberg menggunakan pernyataan bahasa definisi data (DDL) atau bahasa pengolahan data (DML) BigQuery. Anda dapat mengubah tabel ini menggunakan BigQuery API (dengan alat command line bq atau library klien), tetapi melakukannya berisiko membuat perubahan yang tidak kompatibel dengan mesin eksternal.
  • Tabel di katalog runtime Lakehouse tidak mendukung penggantian nama operasi atau pernyataan Spark SQL ALTER TABLE ... RENAME TO.
  • Tabel di katalog runtime Lakehouse tidak mendukung pengelompokan.
  • Tabel di katalog runtime Lakehouse tidak mendukung nama kolom fleksibel.
  • Katalog runtime Lakehouse tidak mendukung tampilan Apache Iceberg.

Membuat kueri

  • Performa kueri untuk tabel di katalog runtime Lakehouse dari mesin BigQuery mungkin lambat dibandingkan dengan membuat kueri data dalam tabel BigQuery standar. Secara umum, kecepatan kueri harus setara dengan membaca data dari Cloud Storage.
  • Uji coba kueri BigQuery yang menggunakan tabel di katalog runtime Lakehouse mungkin melaporkan batas bawah 0 byte data, meskipun baris ditampilkan. Hasil ini terjadi karena jumlah data yang diproses dari tabel tidak dapat ditentukan hingga kueri lengkap dijalankan. Menjalankan kueri akan dikenai biaya untuk memproses data ini.
  • Anda tidak dapat mereferensikan tabel di katalog runtime Lakehouse dalam kueri tabel karakter pengganti.

API dan metadata

  • Anda tidak dapat menggunakan tabledata.list metode untuk mengambil data dari tabel di katalog runtime Lakehouse. Sebagai gantinya, Anda dapat menyimpan hasil kueri ke tabel BigQuery, lalu menggunakan metode tabledata.list pada tabel tersebut.
  • Tampilan statistik penyimpanan tabel untuk tabel di katalog runtime Lakehouse tidak didukung.

Kuota dan batas

  • Tabel di katalog runtime Lakehouse di BigQuery adalah tunduk pada kuota dan batas yang sama seperti tabel standar.

Langkah berikutnya