Batasan dan pertimbangan

Mengintegrasikan Spark dan Hive dengan katalog runtime Lakehouse akan menghilangkan overhead operasional dalam mempertahankan Hive Metastore (HMS) yang dihosting sendiri sekaligus memungkinkan berbagi metadata terpadu dan kueri tabel langsung di BigQuery.

Dokumen ini menyoroti batasan fungsional dan pertimbangan layanan dari integrasi ini. Sebelum memigrasikan atau membuat pipeline database open source di katalog runtime Lakehouse, tinjau batasan ini untuk menentukan apakah pratinjau ini sesuai dengan persyaratan teknis Anda.

Jika Anda mencari petunjuk konfigurasi dan kueri, bukan batasan, lihat Menggunakan Spark dan Hive dengan katalog runtime Lakehouse.

Batasan katalog runtime Lakehouse

Bagian ini mencantumkan batasan penggunaan katalog runtime Lakehouse dengan berbagai layanan.

Batasan metastore

  • Managed Service untuk Apache Spark hanya mendukung tugas PySpark dengan Lakehouse Metastore.
  • Dataproc API tidak mendukung penetapan properti Lakehouse Metastore di kolom properties.
  • Anda tidak dapat membuat cluster Managed Service untuk Apache Spark yang menggunakan Kerberos, karena katalog runtime Lakehouse tidak mendukung token delegasi atau API kunci utama.
  • Database dan tabel dapat menggunakan location_uri Cloud Storage yang berbeda dari katalog Hive-nya, asalkan bucket Cloud Storage berada di region yang sama dengan katalog Hive.

Batasan tabel

  • Pengubahan nama tabel tidak didukung.
  • Pengubahan nama partisi tidak didukung.
  • Menghapus tabel atau database tidak akan menghapus file terkait dari Cloud Storage.
  • Penelusuran yang tidak peka huruf besar/kecil tidak didukung.
  • Pengelompokan dan pembuatan bucket tidak didukung.

Ukuran batch partisi

Katalog runtime Lakehouse mendukung penyimpanan dan pengambilan informasi partisi untuk digunakan dalam pemangkasan partisi. Katalog ini dioptimalkan untuk pembacaan daripada penulisan, yang menghasilkan performa kueri yang lebih cepat melalui pemangkasan partisi.

Untuk mengoptimalkan performa penyerapan partisi, ukuran partisi batch dibatasi hingga 900.

Tetapkan konfigurasi berikut untuk properti Hive dan Spark yang menentukan ukuran batch operasi partisi:

  • SET hive.msck.repair.batch.size = 900;
  • SET spark.sql.addPartitionInBatch.size = 900;

Batasan BigQuery

  • Secara default, BigQuery tidak mendukung ARRAY<ARRAY<>> atau ARRAY<MAP<>> jenis data. Dukungan untuk MAP harus ditambahkan ke daftar yang diizinkan. Hubungi biglake-help@google.com jika workload Anda menggunakan MAP secara ekstensif.
  • Jenis kunci MAP hanya mendukung jenis data primitif. Anda tidak dapat menggunakan ARRAY, STRUCT, atau MAP sebagai jenis kunci.
  • Selama pratinjau, BigQuery hanya dapat mengkueri data dari Cloud Storage. Batasan berikut berlaku:
    • URI lokasi tabel tidak dapat menyertakan karakter pengganti (*).
    • URI lokasi tabel harus berupa direktori.

Batasan replikasi dan pemulihan dari bencana lintas region

Katalog runtime Lakehouse menawarkan replikasi lintas region dan pemulihan dari bencana untuk meningkatkan ketersediaan dan ketahanan katalog Anda.

Saat menggunakan katalog runtime Lakehouse dengan katalog Hive, batasan berikut berlaku:

  • Katalog Hive tidak menyediakan kemampuan pemulihan dari bencana penuh, seperti failover yang dimulai pengguna.

  • Saat membuat katalog Hive, Anda harus menetapkan primary_location-nya agar cocok dengan region bucket Cloud Storage Anda. Katalog runtime Lakehouse kemudian akan otomatis menyalin metadata ke region sekunder berdasarkan konfigurasi dual-region atau multi-region bucket Anda. Salinan metadata sekunder ini bersifat hanya baca, dan Anda tidak dapat mempromosikannya ke primer. Redundansi data bergantung pada setelan dual-region atau multi-region bucket Anda, yang terpisah dari replikasi metadata katalog runtime Lakehouse.

Pertimbangan untuk menggunakan katalog runtime Lakehouse sebagai pengganti metastore Hive

Versi pratinjau katalog runtime Lakehouse mendukung subset antarmuka Hive Metastore. Desain ini memprioritaskan kompatibilitas dengan ExternalCatalog Spark, yang tidak memerlukan kompatibilitas penuh dengan Hive Metastore.

Pemetaan resource

Tabel berikut memetakan resource Hive Metastore ke resource katalog runtime Lakehouse dan izin Identity and Access Management (IAM) yang diperlukan.

Resource Hive Metastore Resource katalog runtime Lakehouse Izin IAM
Katalog Katalog biglake.catalogs.*
Database Database biglake.namespaces.*
Tabel Tabel biglake.tables.*

Tata kelola

Hive Metastore (HMS) menyediakan tata kelola di tingkat tabel, kolom, dan partisi. Katalog runtime Lakehouse menyediakan izin IAM tingkat tabel dan tingkat partisi. Tata kelola tingkat kolom tidak didukung.

Batasan penyimpanan

  • Semua batasan tabel eksternal BigQuery berlaku.

Batasan partisi

  • Pelacakan statistik tingkat kolom di tingkat partisi tidak didukung.
  • BatchCreateHivePartitions API membatasi panggilan hingga 900 partisi.

Langkah berikutnya