Halaman ini menjelaskan arsitektur teknis Google Cloud Lakehouse, memberikan detail tentang cara penanganan kueri, dan menjelaskan cara katalog runtime Lakehouse mendukung interoperabilitas antar-mesin.
Arsitektur
Membangun Lakehouse Google Cloud terdiri dari komponen teknis berikut:
Penyimpanan: Penyimpanan Cloud Storage dan BigQuery berfungsi sebagai lapisan penyimpanan, dengan Apache Iceberg sebagai format tabel terbuka yang direkomendasikan untuk penyimpanan berperforma tinggi dan dapat dioperasikan di Cloud Storage.
Katalog: Katalog runtime Lakehouse menyediakan satu sumber tepercaya untuk mengelola metadata. Layanan ini memusatkan penemuan metadata di beberapa mesin menggunakan berbagai opsi kompatibilitas, termasuk endpoint katalog REST Apache Iceberg, endpoint Apache Hive, dan federasi katalog.
Mesin kueri: BigQuery dan mesin open source—termasuk Apache Spark, Apache Flink, dan Trino—beroperasi secara lancar dengan terhubung ke katalog runtime Lakehouse.
Tata kelola: Knowledge Catalog menyediakan kebijakan keamanan, silsilah, dan tata kelola terpusat di seluruh lakehouse Anda.
Alat penulisan dan analisis data: Mesin dan alat terintegrasi menyediakan beberapa jalur untuk penyerapan dan analisis data, sehingga memastikan akses data yang konsisten bagi data scientist dan analis.
Hierarki resource
Google Cloud Lakehouse mengatur data menggunakan hierarki yang sesuai dengan standar Apache Iceberg dan konsep database standar. Struktur ini memungkinkan katalog runtime Lakehouse memetakan identitas logis ke jalur penyimpanan fisik.
- Katalog runtime lakehouse: Resource layanan regional tingkat teratas di Google Cloud yang menghosting metadata Anda.
- Katalog: Penampung logis dalam layanan katalog runtime. Dalam struktur penamaan P.C.N.T, ini mewakili instance katalog tertentu yang Anda kueri.
- Namespace: Pengelompokan logis tabel dalam katalog. Untuk pengguna yang sudah terbiasa dengan BigQuery, namespace secara fungsional mirip dengan set data.
- Tabel: Entitas spesifik yang mengarah ke data di Cloud Storage. Metadata tabel berisi skema, informasi partisi, dan pointer ke status tabel saat ini melalui file
metadata.jsonApache Iceberg.
Urutan pemrosesan kueri
Saat Anda mengirimkan kueri ke tabel Google Cloud Lakehouse, permintaan akan mengikuti jalur tertentu untuk menerapkan kebijakan dan mengambil metadata sebelum data diproses.
- Pengiriman: Anda mengirimkan kueri SQL ke mesin yang kompatibel seperti Apache Spark, Trino, atau BigQuery.
- Permintaan metadata: Mesin meminta metadata tabel dari katalog runtime Lakehouse untuk mengidentifikasi tabel dan lokasi metadatanya.
- Otorisasi: Katalog memvalidasi permintaan terhadap Identity and Access Management (IAM) dan kebijakan keamanan terperinci.
- Respons metadata: Katalog menampilkan metadata. Jika penyediaan kredensial diaktifkan, layanan ini juga menyediakan token berjangka pendek untuk membantu akses penyimpanan yang aman.
- Pengambilan data: Mesin menggunakan metadata dan token opsional untuk membaca file data langsung dari Cloud Storage.
- Eksekusi: Mesin memproses data dan menampilkan hasilnya.
Katalog runtime lakehouse
Katalog runtime Lakehouse adalah layanan metadata serverless dan terkelola sepenuhnya untuk Google Cloud Lakehouse. BigLake Metastore menyediakan satu sumber kebenaran untuk metadata di seluruh sistem yang berbeda dan dapat diakses dari BigQuery serta berbagai mesin pemrosesan data open source. Hal ini memusatkan penemuan dan menghilangkan kebutuhan untuk menyinkronkan metadata di antara repositori yang berbeda.
Katalog runtime Lakehouse terintegrasi dengan Knowledge Catalog untuk menyediakan kontrol akses presisi yang terpadu di semua mesin yang didukung. Integrasi ini memungkinkan tata kelola data penuh, termasuk silsilah data, pemantauan kualitas, dan visibilitas.
Jenis tabel
Saat membangun dengan Google Cloud Lakehouse, Anda dapat memilih cara mengelola dan memformat tabel:
Direkomendasikan
- Tabel katalog REST Iceberg lakehouse: Tabel Apache Iceberg yang dibuat dari mesin open source dan disimpan di Cloud Storage. Endpoint ini menawarkan kompatibilitas dan pengelolaan terbuka melalui endpoint REST katalog runtime Lakehouse.
Jenis tabel BigQuery
- Tabel Apache Iceberg: Tabel Apache Iceberg yang dibuat dan dikelola oleh BigQuery. Metadata untuk tabel ini disimpan di katalog BigQuery, sedangkan data tabel dan metadata fisik disimpan di Cloud Storage.
- Tabel native: Tabel yang dikelola sepenuhnya oleh BigQuery yang dapat dihubungkan ke katalog runtime Lakehouse untuk mengaktifkan interoperabilitas dengan mesin open source.
- Tabel eksternal: Tabel di luar katalog runtime Lakehouse tempat data dan metadata dikelola sendiri. Koneksi ini mendukung akses yang didelegasikan melalui koneksi untuk data yang disimpan di Cloud Storage, Amazon S3, atau Azure Blob Storage.
Untuk perbandingan mendetail tentang opsi ini, lihat Ringkasan tabel.