Konsep katalog REST Apache Iceberg

Dokumen ini memberikan ringkasan tentang katalog REST Apache Iceberg BigLake Metastore, termasuk hierarki resource dan jenis katalog yang didukung.

Katalog REST Apache Iceberg di BigLake Metastore menggunakan hierarki resource untuk mengatur data Anda. Tabel berikut memberikan gambaran umum tingkat tinggi tentang resource ini:

Hierarki resource

Resource Deskripsi
Katalog Sebagai penampung tingkat teratas, katalog memungkinkan Anda mengatur namespace dan tabel ke dalam grup logis dengan membaginya ke dalam katalog yang berbeda.
Namespace Pengelompokan logis yang digunakan untuk mengatur tabel dalam katalog, ini berfungsi seperti database, skema, atau direktori.
Tabel Tabel berisi definisi baris dan kolom yang dapat dikueri.

Jenis katalog yang didukung

Saat mengonfigurasi klien, Anda menentukan lokasi gudang. Pilihan ini menentukan cara kerja katalog Anda dan cara mengintegrasikannya dengan layanan lain. Google CloudTabel berikut menjelaskan jenis katalog yang didukung:

Jenis Katalog Deskripsi
Bucket Cloud Storage Semua data dalam katalog disimpan dalam satu bucket Cloud Storage; untuk data yang dibagikan di beberapa bucket, diperlukan beberapa katalog.
Penggabungan BigQuery Memungkinkan Anda menggunakan katalog REST Iceberg untuk mengelola dan mengkueri tabel yang terlihat oleh BigQuery. Untuk informasi selengkapnya, lihat Federasi katalog dengan BigQuery.

Detail gudang katalog

Direkomendasikan

  • Warehouse bucket Cloud Storage (gs://): Ini adalah pendekatan standar di mana katalog mengelola file data dan metadata Iceberg secara langsung dalam bucket Cloud Storage yang Anda tentukan. Opsi ini memberi Anda kontrol langsung atas tata letak data dan mendukung penjualan kredensial untuk kontrol akses terperinci. Dengan demikian, Anda dapat membuat dan mengelola tabel BigLake untuk Apache Iceberg.

    Misalnya, jika Anda membuat bucket untuk menyimpan katalog dan menamainya iceberg-bucket, nama katalog dan nama bucket Anda adalah iceberg-bucket. Ini akan digunakan nanti saat Anda mengkueri katalog di BigQuery, menggunakan sintaksis P.C.N.T. Contohnya, my-project.biglake-catalog-id.quickstart_namespace.quickstart_table.

Lama

  • Penggabungan BigQuery (bq://): Pendekatan ini memungkinkan Anda menggunakan katalog REST Iceberg untuk mengelola dan membuat kueri tabel yang terlihat oleh BigQuery, tanpa perlu membuat resource katalog. Untuk mengetahui informasi selengkapnya, lihat Federasi katalog dengan BigQuery.

Struktur penamaan P.C.N.T

Saat membuat kueri tabel metastore BigLake dari BigQuery, Anda menggunakan struktur penamaan empat bagian, yang sering disebut sebagai P.C.N.T:

  • Project: Google Cloud Project ID yang memiliki katalog.
  • Catalog: Nama katalog metastore BigLake.
  • Namespace: Namespace Iceberg (setara dengan set data BigQuery).
  • Tabel: Nama tabel.

Misalnya, my-project.biglake-catalog-id.my-namespace.my-table.

Penggabungan katalog dengan BigQuery

Anda dapat menggunakan antarmuka katalog REST Iceberg untuk mengelola dan mengueri tabel yang terlihat oleh BigQuery. Katalog gabungan BigQuery tidak mengharuskan Anda membuat resource katalog; katalog ini dapat digunakan di project mana pun yang mengaktifkan BigQuery API. Hal ini memungkinkan Anda:

Karena resource ini dikelola oleh BigQuery, Anda harus memiliki izin yang diperlukan yang berlaku. Pemberian kredensial tidak didukung untuk katalog gabungan.

Untuk mengaktifkan federasi, konfigurasi klien Anda dengan format pergudangan bq://projects/PROJECT_ID di kolom WAREHOUSE_PATH dalam contoh konfigurasi klien di Menggunakan katalog REST Iceberg. Anda juga dapat memilih untuk menyertakan lokasi BigQuery guna membatasi permintaan mendatang ke satu lokasi menggunakan format bq://projects/PROJECT_ID/locations/LOCATION.