Kasus penggunaan Anda mungkin mengharuskan Anda menghubungkan tabel Katalog REST Iceberg (IRC) eksternal ke tabel Lakehouse untuk Apache Iceberg yang sudah ada. UI builder tugas Dataflow memungkinkan Anda membangun pipeline yang memigrasikan tabel katalog Iceberg open source eksternal ke Lakehouse dengan cara low-code atau no-code. Proses ini memungkinkan Anda menggabungkan data ke dalam format Iceberg yang dikelola Lakehouse dan terpadu untuk analisis lintas-mesin.
Gunakan detail koneksi berikut untuk mengimpor data dari katalog Iceberg eksternal.
Sebelum memulai
Untuk mengimpor data, Anda memerlukan hal berikut:
- Informasi koneksi untuk Katalog REST Iceberg eksternal. Misalnya: nama katalog, namespace, nama tabel, URI akun, dan peran untuk mengakses katalog.
- Katalog, namespace, dan tabel Iceberg Lakehouse untuk mengimpor data.
Dukungan dan batasan
Mengimpor data dari katalog Iceberg eksternal ke Lakehouse untuk Apache Iceberg menggunakan Dataflow memiliki batasan berikut:
- Fitur ini mendukung pembacaan dari penyedia Iceberg yang tersedia secara eksternal yang mendukung IRC (Iceberg Rest Catalog) ke Lakehouse. Jenis katalog Iceberg lainnya tidak didukung.
- Fitur ini mendukung pipeline batch dan streaming.
Mengimpor tabel katalog Iceberg eksternal
Untuk mengimpor tabel katalog Iceberg eksternal ke Lakehouse untuk Apache Iceberg, selesaikan langkah-langkah berikut:
Di konsol Google Cloud , buka halaman Metastore Lakehouse.
Pilih katalog, namespace, dan tabel tempat Anda ingin mengimpor data.
Di halaman Detail tabel, klik Impor tabel.
Dalam dialog Konfigurasi impor, pilih Impor tabel dari Apache Iceberg REST Catalog ke Lakehouse (Batch).
Halaman Job builder Dataflow akan terbuka.
Di bagian Sumber:
Untuk meluaskan panel sumber Tabel gunung es, klik panah peluas .
Di kolom Tabel Iceberg, masukkan ID tabel Apache Iceberg.
Di kolom Catalog name, masukkan nama katalog.
Di kolom Filter, masukkan filter Iceberg yang akan digunakan. Contoh,
id > 5.Opsional: Untuk menentukan perubahan kolom tabel sumber, gunakan bagian Pertahankan kolom atau Hapus kolom.
Di daftar Jenis katalog pada bagian Properti katalog, pilih jenis katalog.
Di kolom Catalog URI, masukkan URI katalog. Contoh,
http://localhost:8181.Di kolom Warehouse name, masukkan nama katalog.
Untuk beberapa penyedia Katalog REST Iceberg eksternal, gudang diabstraksi, dan nama katalog diberikan sebagai nama gudang.
Di daftar Authentication type, pilih jenis autentikasi. Contoh,
OAUTH2.
Opsional: Di bagian Transformasi, tambahkan transformasi apa pun ke sumber data.
Di bagian Sink:
- Opsional: Tinjau panel sink tabel Lakehouse. Informasi di panel ini, seperti tabel Lakehouse, nama katalog, dan lokasi gudang, biasanya sudah terisi otomatis.
Di bagian Opsi Dataflow, klik Jalankan tugas.
Langkah berikutnya
- Pelajari lebih lanjut cara Membuat tugas kustom dengan UI pembuat tugas.
- Pelajari lebih lanjut di Pengantar tabel Lakehouse untuk Apache Iceberg di BigQuery.
- Baca postingan blog Lebih dari sekadar BigLake: Bangun lakehouse berbasis Iceberg yang terbuka, berperforma tinggi, dan khusus perusahaan.