Lakehouse untuk Apache Iceberg mendukung beberapa jenis tabel, yang menawarkan berbagai tingkat pengelolaan, performa, dan interoperabilitas untuk lakehouse Anda diGoogle Cloud. Berdasarkan asal data, persyaratan mesin tulis, dan kebutuhan kontrol, Anda dapat memilih format tabel yang didukung oleh katalog runtime Lakehouse atau BigQuery.
Format tabel menurut katalog dan mesin telusur
Pilih katalog atau mesin di bawah untuk mempelajari format tabel yang didukung, konfigurasi metastore, kemampuan pengoptimalan penyimpanan, dan interoperabilitas mesin.
Katalog REST Iceberg
Katalog runtime lakehouse mengelola tabel Apache Iceberg melalui endpoint katalog REST Iceberg, yang menyediakan antarmuka REST standar untuk kompatibilitas yang luas dengan mesin open source seperti Apache Spark, Apache Flink, dan Trino. Anda membuat tabel ini dari mesin open source dan menyimpannya di Cloud Storage. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source dan hanya memerlukan akses baca dari BigQuery.
Key features include:
- Metastore: Katalog runtime Lakehouse.
- Penyimpanan: Cloud Storage.
- Pengoptimalan penyimpanan: Dikelola oleh Anda atau pihak ketiga.
- Akses baca dan tulis:
- Mesin open source: Baca dan tulis.
- BigQuery: Hanya baca.
- Kasus penggunaan: Lakehouse terbuka dengan penyimpanan berperforma tinggi tingkat perusahaan untuk analisis, streaming, dan AI tingkat lanjut.
Metastore Hive
Katalog runtime Lakehouse mengelola tabel Apache Hive melalui endpoint metastore (HMS) Apache Hive yang dioptimalkan untuk kompatibilitas Apache Spark ExternalCatalog, sehingga Anda dapat membagikan data dengan lancar di seluruh Apache Spark, Apache Hive, dan BigQuery. Anda membuat tabel ini dari mesin open source
dan menyimpannya di Cloud Storage. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source tanpa memerlukan metastore Hive yang dihosting sendiri secara terpisah, dan hanya memerlukan akses baca dari BigQuery.
Key features include:
- Metastore: Katalog runtime Lakehouse (melalui
IMetastoreClientkustom). - Penyimpanan: Cloud Storage (mendukung format seperti Parquet, ORC, dan Avro).
- Pengoptimalan penyimpanan: Dikelola oleh Anda atau pihak ketiga.
- Akses baca dan tulis:
- Mesin open source (Spark dan Hive): Baca dan tulis.
- BigQuery: Hanya baca.
- Kasus penggunaan: Memigrasikan workload Spark dan Hive yang ada ke metastore serverless yang terkelola sepenuhnya di Google Cloud.
BigQuery
BigQuery mendukung tabel Apache Iceberg, tabel native, dan tabel eksternal.
Tabel Apache Iceberg: Ini adalah tabel Apache Iceberg yang Anda buat dan kelola dari BigQuery serta disimpan di Cloud Storage. Meskipun dapat dibaca oleh mesin open source, BigQuery adalah mesin yang mengelola metadata dan menulis ke dalamnya. Opsi ini paling baik jika Anda ingin alur kerja dikelola sepenuhnya oleh BigQuery.
Tabel native: Ini adalah tabel BigQuery native. Layanan ini dikelola sepenuhnya dan menawarkan fitur analisis dan pengelolaan paling canggih. Opsi ini paling cocok untuk workload non-Iceberg.
Tabel eksternal: Tabel ini adalah konstruksi khusus BigQuery untuk data yang disimpan di Cloud Storage, Amazon S3, atau Azure Blob Storage. Data dan metadata dikelola sendiri, dan BigQuery hanya memiliki akses baca. Pilih opsi ini untuk data yang ingin Anda kelola langsung di katalog atau penyimpanan pihak ketiga.
Membandingkan jenis tabel
Gunakan diagram berikut untuk membandingkan jenis tabel antara katalog runtime Lakehouse dan BigQuery.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (Pratinjau) | |
|---|---|---|
| Metastore | Katalog runtime Lakehouse | Katalog runtime Lakehouse |
| Penyimpanan | Cloud Storage | Cloud Storage |
| Pengoptimalan penyimpanan | Dikelola pelanggan atau pihak ketiga | Dikelola pelanggan atau pihak ketiga |
| Baca / Tulis |
Mesin open source (baca/tulis) BigQuery (hanya baca) |
Mesin open source (baca/tulis) BigQuery (hanya baca) |
| Operasi lanjutan | Tidak ada | Tidak ada |
| Use cases | Lakehouse terbuka | Memigrasikan workload Spark dan Hive yang ada ke metastore serverless yang terkelola sepenuhnya |
BigQuery
| Iceberg yang dikelola BigQuery | Tabel eksternal | Tabel standar | |
|---|---|---|---|
| Metastore | BigQuery | Metastore eksternal atau yang dihosting sendiri | BigQuery |
| Penyimpanan | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Pengoptimalan penyimpanan | Dikelola Google | Dikelola pelanggan atau pihak ketiga | Dikelola Google |
| Baca / Tulis |
Mesin open source (hanya baca dengan library Iceberg, interoperabilitas baca/tulis dengan BigQuery Storage API)
BigQuery (baca/tulis) |
Mesin open source (baca/tulis) BigQuery (hanya baca) |
Mesin open source (interoperabilitas baca/tulis dengan
BigQuery Storage API) BigQuery (baca/tulis) |
| Operasi lanjutan | Streaming throughput tinggi dengan BigQuery Storage Write API, Change Data Capture (CDC), dan transaksi multi-pernyataan | Tidak ada | Streaming throughput tinggi dengan BigQuery Storage Write API, Change Data Capture (CDC), dan transaksi multi-pernyataan |
| Use cases | Lakehouse terbuka dengan penyimpanan berperforma tinggi tingkat perusahaan untuk analisis lanjutan, streaming, dan AI | Tabel staging untuk pemuatan BigQuery, tabel hanya kueri lama | Penyimpanan tingkat perusahaan untuk analisis lanjutan, streaming, dan AI |
Langkah berikutnya
Pelajari cara mengelola tabel Apache Iceberg.
Pelajari cara mengimpor tabel Iceberg eksternal menggunakan Dataflow.
Pelajari cara menggunakan federasi katalog dengan BigQuery.