Apa yang dimaksud dengan BigLake?

BigLake adalah mesin penyimpanan yang menyatukan Google Cloud dan layanan open source untuk membuat antarmuka terpadu bagi analisis dan AI tingkat lanjut. BigLake menyediakan fondasi untuk membangun lakehouse yang terbuka, terkelola, dan berperforma tinggi dengan pengelolaan data otomatis dan tata kelola bawaan menggunakan Apache Iceberg.

Dengan memisahkan penyimpanan dari komputasi, BigLake memberikan interoperabilitas di semua mesin yang kompatibel dengan Iceberg, seperti Apache Spark, Apache Flink, Apache Hive, Trino, atau BigQuery, yang memastikan tampilan data Anda konsisten.

Manfaat utama

  • Arsitektur Serverless: BigLake menghilangkan kebutuhan akan pengelolaan server atau cluster, sehingga mengurangi biaya operasional dan menskalakan secara otomatis berdasarkan permintaan.
  • Tata kelola dan pengelolaan data terpadu: Integrasi dengan Dataplex Universal Catalog memastikan definisi dan penerapan kebijakan tata kelola secara terpusat di berbagai mesin, serta memungkinkan penelusuran semantik, silsilah data, dan pemeriksaan kualitas.
  • Ekstensi Penyimpanan: BigLake memperluas kemampuan pengelolaan Cloud Storage untuk menyertakan fitur seperti tingkatan Autoclass dan Kunci enkripsi yang dikelola pelanggan (CMEK).
  • Pengalaman yang Terkelola Sepenuhnya: Saat diintegrasikan dengan BigQuery, BigLake menggunakan streaming throughput tinggi dan pengelolaan metadata real-time untuk memberikan pengalaman streaming, analisis, dan AI yang terkelola sepenuhnya.
  • Ketersediaan tinggi dan pemulihan dari bencana: BigLake menawarkan opsi untuk replikasi lintas region dan pemulihan dari bencana (Pratinjau) untuk mendukung ketersediaan tinggi data Anda.

Kasus penggunaan

  • Lakehouse terbuka: Gunakan Cloud Storage sebagai lapisan penyimpanan, dan BigLake menyediakan antarmuka pengelolaan dan tata kelola untuk data Iceberg.
  • Integrasi analitis dan transaksional: Akses tabel Iceberg BigLake analitis langsung dalam AlloyDB untuk PostgreSQL (Pratinjau) untuk menggabungkan data analitis dengan workload transaksional.
  • Akses terpadu: Izinkan mesin yang berbeda (Spark, Flink, BigQuery) berinteraksi dengan tabel Iceberg yang sama dengan metadata yang konsisten.

Antarmuka katalog

Metastore BigLake menyediakan dua antarmuka katalog utama untuk menghubungkan data Anda di Cloud Storage dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Cara kerja BigLake.

  • Katalog REST Apache Iceberg: Menyediakan antarmuka REST standar untuk kompatibilitas yang lebih luas dengan mesin dan alat open source. Ini adalah antarmuka yang direkomendasikan untuk beban kerja baru.

    Pelajari cara mulai menggunakan katalog REST Apache Iceberg ini dengan panduan memulai cepat, Menggunakan metastore BigLake dengan Spark dan BigQuery menggunakan katalog REST Iceberg.

  • Katalog Apache Iceberg Kustom untuk BigQuery: Memungkinkan mesin seperti Spark beroperasi dengan BigQuery. Antarmuka ini didukung untuk workload yang ada.

Antarmuka dan alat

Anda dapat berinteraksi dengan resource BigLake menggunakan alat berikut:

  • KonsolGoogle Cloud : Gunakan konsol untuk membuat katalog, melihat properti katalog, melihat log audit, dan mengonfigurasi izin.
  • SQL BigQuery: Gunakan DDL (Data Definition Language) SQL standar untuk membuat dan mengelola tabel BigLake Iceberg.
  • Mesin open source: Gunakan mesin seperti Apache Spark, Apache Flink, dan Apache Hive dengan metastore BigLake untuk membaca dan menulis data.
  • BigLake Metastore API: Gunakan REST API yang kompatibel dengan spesifikasi katalog REST Iceberg.

Langkah berikutnya