Mengintegrasikan Spark dan Hive dengan katalog runtime Lakehouse akan menghilangkan overhead operasional dalam mempertahankan Hive Metastore (HMS) yang dihosting sendiri sekaligus memungkinkan berbagi metadata terpadu dan kueri tabel langsung di BigQuery.
Dokumen ini menyoroti batasan fungsional dan pertimbangan layanan dari integrasi ini. Sebelum memigrasikan atau membuat pipeline database open source di katalog runtime Lakehouse, tinjau batasan ini untuk menentukan apakah pratinjau ini sesuai dengan persyaratan teknis Anda.
Jika Anda mencari petunjuk konfigurasi dan kueri, bukan batasan, lihat Menggunakan Spark dan Hive dengan katalog runtime Lakehouse.
Batasan katalog runtime Lakehouse
Bagian ini mencantumkan batasan penggunaan katalog runtime Lakehouse dengan berbagai layanan.
Batasan metastore
- Managed Service untuk Apache Spark hanya mendukung tugas PySpark dengan Lakehouse Metastore.
- Dataproc API tidak mendukung penetapan properti Lakehouse Metastore di kolom
properties. - Anda tidak dapat membuat cluster Managed Service untuk Apache Spark yang menggunakan Kerberos, karena katalog runtime Lakehouse tidak mendukung token delegasi atau API kunci utama.
- Database dan tabel dapat menggunakan
location_uriCloud Storage yang berbeda dari katalog Hive-nya, asalkan bucket Cloud Storage berada di region yang sama dengan katalog Hive.
Batasan tabel
- Pengubahan nama tabel tidak didukung.
- Pengubahan nama partisi tidak didukung.
- Menghapus tabel atau database tidak akan menghapus file terkait dari Cloud Storage.
- Penelusuran yang tidak peka huruf besar/kecil tidak didukung.
- Pengelompokan dan pembuatan bucket tidak didukung.
Ukuran batch partisi
Katalog runtime Lakehouse mendukung penyimpanan dan pengambilan informasi partisi untuk digunakan dalam pemangkasan partisi. Katalog ini dioptimalkan untuk pembacaan daripada penulisan, yang menghasilkan performa kueri yang lebih cepat melalui pemangkasan partisi.
Untuk mengoptimalkan performa penyerapan partisi, ukuran partisi batch dibatasi hingga 900.
Tetapkan konfigurasi berikut untuk properti Hive dan Spark yang menentukan ukuran batch operasi partisi:
SET hive.msck.repair.batch.size = 900;SET spark.sql.addPartitionInBatch.size = 900;
Batasan BigQuery
- Secara default, BigQuery tidak mendukung
ARRAY<ARRAY<>>atauARRAY<MAP<>>jenis data. Dukungan untukMAPharus ditambahkan ke daftar yang diizinkan. Hubungi biglake-help@google.com jika workload Anda menggunakanMAPsecara ekstensif. - Jenis kunci
MAPhanya mendukung jenis data primitif. Anda tidak dapat menggunakanARRAY,STRUCT, atauMAPsebagai jenis kunci. - Selama pratinjau, BigQuery hanya dapat mengkueri data dari Cloud Storage. Batasan berikut berlaku:
- URI lokasi tabel tidak dapat menyertakan karakter pengganti (
*). - URI lokasi tabel harus berupa direktori.
- URI lokasi tabel tidak dapat menyertakan karakter pengganti (
Batasan replikasi dan pemulihan dari bencana lintas region
Katalog runtime Lakehouse menawarkan replikasi lintas region dan pemulihan dari bencana untuk meningkatkan ketersediaan dan ketahanan katalog Anda.
Saat menggunakan katalog runtime Lakehouse dengan katalog Hive, batasan berikut berlaku:
Katalog Hive tidak menyediakan kemampuan pemulihan dari bencana penuh, seperti failover yang dimulai pengguna.
Saat membuat katalog Hive, Anda harus menetapkan
primary_location-nya agar cocok dengan region bucket Cloud Storage Anda. Katalog runtime Lakehouse kemudian akan otomatis menyalin metadata ke region sekunder berdasarkan konfigurasi dual-region atau multi-region bucket Anda. Salinan metadata sekunder ini bersifat hanya baca, dan Anda tidak dapat mempromosikannya ke primer. Redundansi data bergantung pada setelan dual-region atau multi-region bucket Anda, yang terpisah dari replikasi metadata katalog runtime Lakehouse.
Pertimbangan untuk menggunakan katalog runtime Lakehouse sebagai pengganti metastore Hive
Versi pratinjau katalog runtime Lakehouse mendukung subset antarmuka Hive Metastore. Desain ini memprioritaskan kompatibilitas dengan ExternalCatalog Spark, yang tidak memerlukan kompatibilitas penuh dengan Hive Metastore.
Pemetaan resource
Tabel berikut memetakan resource Hive Metastore ke resource katalog runtime Lakehouse dan izin Identity and Access Management (IAM) yang diperlukan.
| Resource Hive Metastore | Resource katalog runtime Lakehouse | Izin IAM |
|---|---|---|
| Katalog | Katalog | biglake.catalogs.* |
| Database | Database | biglake.namespaces.* |
| Tabel | Tabel | biglake.tables.* |
Tata kelola
Hive Metastore (HMS) menyediakan tata kelola di tingkat tabel, kolom, dan partisi. Katalog runtime Lakehouse menyediakan izin IAM tingkat tabel dan tingkat partisi. Tata kelola tingkat kolom tidak didukung.
Batasan penyimpanan
- Semua batasan tabel eksternal BigQuery berlaku.
Batasan partisi
- Pelacakan statistik tingkat kolom di tingkat partisi tidak didukung.
BatchCreateHivePartitionsAPI membatasi panggilan hingga 900 partisi.