Memahami jenis dan kemampuan tabel

Lakehouse untuk Apache Iceberg mendukung beberapa jenis tabel, yang menawarkan berbagai tingkat pengelolaan, performa, dan interoperabilitas untuk lakehouse Anda diGoogle Cloud. Berdasarkan asal data, persyaratan mesin tulis, dan kebutuhan kontrol, Anda dapat memilih format tabel yang didukung oleh katalog runtime Lakehouse atau BigQuery.

Format tabel menurut katalog dan mesin telusur

Pilih katalog atau mesin di bawah untuk mempelajari format tabel yang didukung, konfigurasi metastore, kemampuan pengoptimalan penyimpanan, dan interoperabilitas mesin.

Katalog REST Iceberg

Katalog runtime lakehouse mengelola tabel Apache Iceberg melalui endpoint katalog REST Iceberg, yang menyediakan antarmuka REST standar untuk kompatibilitas yang luas dengan mesin open source seperti Apache Spark, Apache Flink, dan Trino. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source dan hanya memerlukan akses baca dari BigQuery.

Key features include:

  • Metastore: Katalog runtime Lakehouse.
  • Penyimpanan: Cloud Storage.
  • Pengoptimalan penyimpanan: Dikelola oleh Anda atau pihak ketiga.
  • Akses baca dan tulis:
    • Mesin open source: Baca dan tulis.
    • BigQuery: Hanya baca.
  • Kasus penggunaan: Lakehouse terbuka dengan penyimpanan berperforma tinggi tingkat perusahaan untuk analisis, streaming, dan AI tingkat lanjut.

Metastore Hive

Katalog runtime Lakehouse mengelola tabel Apache Hive melalui endpoint metastore (HMS) Apache Hive yang dioptimalkan untuk kompatibilitas Apache Spark ExternalCatalog, sehingga Anda dapat membagikan data dengan lancar di seluruh Apache Spark, Apache Hive, dan BigQuery. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source tanpa memerlukan metastore Hive yang dihosting sendiri secara terpisah, dan hanya memerlukan akses baca dari BigQuery.

Key features include:

  • Metastore: Katalog runtime Lakehouse (melalui IMetastoreClient kustom).
  • Penyimpanan: Cloud Storage (mendukung format seperti Parquet, ORC, dan Avro).
  • Pengoptimalan penyimpanan: Dikelola oleh Anda atau pihak ketiga.
  • Akses baca dan tulis:
    • Mesin open source (Spark dan Hive): Baca dan tulis.
    • BigQuery: Hanya baca.
  • Kasus penggunaan: Memigrasikan workload Spark dan Hive yang ada ke metastore serverless yang terkelola sepenuhnya di Google Cloud.

BigQuery

BigQuery mendukung tabel Apache Iceberg, tabel native, dan tabel eksternal.

  • Tabel Apache Iceberg: Ini adalah tabel Apache Iceberg yang Anda buat dan kelola dari BigQuery serta disimpan di Cloud Storage. Meskipun dapat dibaca oleh mesin open source, BigQuery adalah mesin yang mengelola metadata dan menulis ke dalamnya. Opsi ini paling baik jika Anda ingin alur kerja dikelola sepenuhnya oleh BigQuery.

  • Tabel native: Ini adalah tabel BigQuery native. Layanan ini dikelola sepenuhnya dan menawarkan fitur analisis dan pengelolaan paling canggih. Opsi ini paling cocok untuk workload non-Iceberg.

  • Tabel eksternal: Tabel ini adalah konstruksi khusus BigQuery untuk data yang disimpan di Cloud Storage, Amazon S3, atau Azure Blob Storage. Data dan metadata dikelola sendiri, dan BigQuery hanya memiliki akses baca. Pilih opsi ini untuk data yang ingin Anda kelola langsung di katalog atau penyimpanan pihak ketiga.

Membandingkan jenis tabel

Gunakan diagram berikut untuk membandingkan jenis tabel antara katalog runtime Lakehouse dan BigQuery.

Lakehouse

Apache Iceberg (GA) Apache Hive (Pratinjau)
Metastore Katalog runtime Lakehouse Katalog runtime Lakehouse
Penyimpanan Cloud Storage Cloud Storage
Pengoptimalan penyimpanan Dikelola pelanggan atau pihak ketiga Dikelola pelanggan atau pihak ketiga
Baca / Tulis Mesin open source (baca/tulis)

BigQuery (hanya baca)
Mesin open source (baca/tulis)

BigQuery (hanya baca)
Operasi lanjutan Tidak ada Tidak ada
Use cases Lakehouse terbuka Memigrasikan workload Spark dan Hive yang ada ke metastore serverless yang terkelola sepenuhnya

BigQuery

Iceberg yang dikelola BigQuery Tabel eksternal Tabel standar
Metastore BigQuery Metastore eksternal atau yang dihosting sendiri BigQuery
Penyimpanan Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
Pengoptimalan penyimpanan Dikelola Google Dikelola pelanggan atau pihak ketiga Dikelola Google
Baca / Tulis Mesin open source (hanya baca dengan library Iceberg, interoperabilitas baca/tulis dengan BigQuery Storage API)

BigQuery (baca/tulis)

Mesin open source (baca/tulis)

BigQuery (hanya baca)
Mesin open source (interoperabilitas baca/tulis dengan BigQuery Storage API)

BigQuery (baca/tulis)

Operasi lanjutan Streaming throughput tinggi dengan BigQuery Storage Write API, Change Data Capture (CDC), dan transaksi multi-pernyataan Tidak ada Streaming throughput tinggi dengan BigQuery Storage Write API, Change Data Capture (CDC), dan transaksi multi-pernyataan
Use cases Lakehouse terbuka dengan penyimpanan berperforma tinggi tingkat perusahaan untuk analisis lanjutan, streaming, dan AI Tabel staging untuk pemuatan BigQuery, tabel hanya kueri lama Penyimpanan tingkat perusahaan untuk analisis lanjutan, streaming, dan AI

Langkah berikutnya