Ringkasan BigLake

BigLake adalah mesin penyimpanan yang menyatukan Google Cloud dan layanan open source untuk membuat antarmuka terpadu bagi analisis dan AI tingkat lanjut. BigLake menyediakan fondasi yang Anda butuhkan untuk membangun lakehouse yang terbuka, terkelola, dan berperforma tinggi dengan pengelolaan data otomatis dan tata kelola bawaan menggunakan Apache Iceberg.

BigLake memungkinkan interoperabilitas di semua mesin yang kompatibel dengan Iceberg seperti Apache Spark atau BigQuery, sehingga Anda mendapatkan tampilan data yang konsisten. BigLake juga memperluas kemampuan pengelolaan Cloud Storage, yang mencakup fitur seperti tingkatan kelas otomatis, enkripsi, dan kunci enkripsi yang dikelola pelanggan di bucket penyimpanan Anda. Selain itu, integrasi bawaan dengan Dataplex Universal Catalog memastikan bahwa kebijakan tata kelola ditetapkan secara terpusat dan diberlakukan secara konsisten di berbagai mesin, sekaligus memungkinkan penelusuran semantik, silsilah data, pembuatan profil, dan pemeriksaan kualitas.

BigLake juga menawarkan opsi pengalaman Iceberg yang terkelola sepenuhnya saat diintegrasikan dengan BigQuery. Dengan memanfaatkan kemampuan pengelolaan metadata real-time BigQuery yang sangat skalabel, Anda mendapatkan yang terbaik dari kedua sisi—keterbukaan dan kepemilikan data bersama dengan analisis, streaming, dan AI berperforma tinggi.

Arsitektur

Lakehouse data yang dibangun dengan BigLake terdiri dari komponen berikut:

  • Kemampuan penyimpanan. Cloud Storage dengan Apache Iceberg sebagai format tabel terbuka yang direkomendasikan.
  • Metastore. Metastore BigLake adalah metastore terpadu, terkelola, serverless, dan skalabel yang menyediakan satu sumber kebenaran untuk mengelola metadata di beberapa mesin.
  • Mesin kueri. BigQuery, Apache Spark, Apache Flink, Trino, dan mesin open source lainnya semuanya kompatibel dengan BigLake.
  • Alat untuk penulisan dan analisis data. BigQuery, Spark, Flink, Trino, dan alat open source lainnya terintegrasi dengan BigLake untuk menyediakan berbagai jalur penulisan dan analisis.

BigLake mengemas semua komponen ini dalam satu pengalaman dengan tata kelola yang seragam. Untuk mengetahui informasi selengkapnya tentang arsitektur dan inovasi BigLake, lihat Evolusi BigLake.

BigLake metastore

BigLake Metastore adalah metastore serverless yang terkelola sepenuhnya untuk lakehouse Anda di Google Cloud. BigLake Metastore menyediakan satu sumber kebenaran untuk metadata dari berbagai sumber dan dapat diakses dari BigQuery dan berbagai mesin pemrosesan data terbuka, sehingga tidak perlu menyalin dan menyinkronkan metadata antara berbagai repositori dengan alat yang disesuaikan.

BigLake Metastore didukung dengan Dataplex Universal Catalog, yang menyediakan kontrol akses terpadu dan presisi di semua mesin yang didukung serta memungkinkan tata kelola menyeluruh yang mencakup kemampuan silsilah, kualitas data, dan visibilitas yang komprehensif.

Format tabel

Saat membangun lakehouse di BigLake, Anda memiliki pilihan berikut untuk format tabel:

  • Tabel BigLake Iceberg di BigQuery adalah tabel Iceberg yang Anda buat dari BigQuery dan disimpan di Cloud Storage. Seperti semua tabel yang menggunakan metastore BigLake, tabel tersebut dapat dibaca oleh mesin open source dan BigQuery. Namun, BigQuery adalah satu-satunya mesin yang dapat menulis langsung ke tabel tersebut. Opsi ini paling cocok jika Anda ingin alur kerja ekstraksi, transformasi, dan pemuatan (ETL) dikelola sepenuhnya oleh BigQuery.
  • Tabel BigLake Iceberg adalah tabel Iceberg yang Anda buat dari mesin open source dan disimpan di Cloud Storage. Seperti semua tabel yang menggunakan metastore BigLake, tabel ini dapat dibaca oleh mesin open source dan BigQuery. Namun, mesin open source yang membuat tabel tersebut adalah satu-satunya mesin yang dapat menulis ke tabel tersebut. Opsi ini paling cocok jika Anda ingin alur kerja ETL dikelola oleh mesin open source.
  • Tabel BigQuery standar dikelola sepenuhnya oleh BigQuery dan memiliki fitur analisis dan pengelolaan data tercanggih. Anda masih dapat menghubungkan tabel ini ke metastore BigLake. Opsi ini paling cocok untuk tabel non-Iceberg.
  • Tabel eksternal adalah tabel yang berada di luar metastore BigLake. Data dan metadata tabel ini dikelola sendiri sepenuhnya, di mana Anda sepenuhnya bergantung pada kemampuan format tabel terbuka (seperti Iceberg, Apache Hudi, atau Delta Lake). BigQuery hanya memiliki kemampuan untuk membaca dari tabel ini. Pilih opsi ini untuk data dan metadata yang ingin Anda kelola sendiri di katalog pihak ketiga.

Gunakan diagram berikut untuk membandingkan opsi format tabel Anda:

Tabel eksternal Tabel Iceberg BigLake Tabel Iceberg BigLake di BigQuery Tabel BigQuery standar
Metastore Metastore eksternal atau yang dihosting sendiri BigLake metastore BigLake metastore BigQuery
Penyimpanan Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Pengoptimalan penyimpanan Dikelola pelanggan atau pihak ketiga Dikelola pelanggan atau pihak ketiga Dikelola Google Dikelola Google
Baca / Tulis Mesin open source (baca/tulis)

BigQuery (hanya baca)
Mesin open source (baca/tulis)

BigQuery (hanya baca)
Mesin open source (hanya baca dengan library Iceberg, interoperabilitas baca/tulis dengan BigQuery Storage API)

BigQuery (baca/tulis)

Mesin open source (interoperabilitas baca/tulis dengan BigQuery Storage API)

BigQuery (baca/tulis)

Use cases Tabel staging untuk pemuatan BigQuery, tabel hanya kueri lama Lakehouse terbuka Lakehouse terbuka dengan penyimpanan berperforma tinggi tingkat perusahaan untuk analisis, streaming, dan AI lanjutan Penyimpanan tingkat perusahaan untuk analisis lanjutan, streaming, dan AI

Langkah berikutnya