Apa itu Google Cloud Lakehouse?

Google Cloud Lakehouse adalah mesin penyimpanan berperforma tinggi yang dirancang untuk membangun data lakehouse terbuka. Dengan mengintegrasikan format tabel terbuka Apache Iceberg dengan penyimpanan tingkat perusahaan yang terkelola sepenuhnya diGoogle Cloud, platform ini menyediakan antarmuka terpadu untuk analisis dan AI tingkat lanjut.

Dengan memisahkan penyimpanan dari komputasi, Google Cloud Lakehouse memastikan interoperabilitas yang lancar di seluruh sistem analitis dan transaksional. Arsitektur ini memungkinkan beberapa mesin, termasuk Apache Spark, Apache Flink, Apache Hive, Trino, dan BigQuery, mengakses satu sumber tepercaya, sehingga menghilangkan duplikasi data dan memastikan insight yang konsisten.

Manfaat utama

  • Arsitektur serverless: Google Cloud Lakehouse menghilangkan kebutuhan akan pengelolaan server atau cluster, sehingga mengurangi beban operasional dan menskalakan secara otomatis berdasarkan permintaan.
  • Pengelolaan dan tata kelola data terpadu: Integrasi dengan Knowledge Catalog memastikan penetapan dan penerapan kebijakan tata kelola secara terpusat di berbagai mesin, serta memungkinkan penelusuran semantik, silsilah data, dan pemeriksaan kualitas.
  • Ekstensi penyimpanan: Google Cloud Lakehouse memperluas kemampuan pengelolaan Cloud Storage untuk menyertakan fitur seperti tingkatan Autoclass dan Kunci enkripsi yang dikelola pelanggan (CMEK).
  • Pengalaman yang terkelola sepenuhnya: Saat terintegrasi dengan BigQuery, Google Cloud Lakehouse menggunakan streaming throughput tinggi dan pengelolaan metadata real-time untuk memberikan pengalaman streaming, analisis, dan AI yang terkelola sepenuhnya.
  • Ketersediaan tinggi dan pemulihan dari bencana: Google Cloud Lakehouse menawarkan opsi untuk replikasi lintas region dan pemulihan dari bencana (Pratinjau) untuk mendukung ketersediaan tinggi data Anda.

Kasus penggunaan

  • Lakehouse terbuka: Gunakan Cloud Storage sebagai lapisan penyimpanan, dan Google Cloud Lakehouse menyediakan antarmuka pengelolaan dan tata kelola untuk data Apache Iceberg.
  • Integrasi analitis dan transaksional: Akses tabel analitis Apache Iceberg secara langsung dalam AlloyDB untuk PostgreSQL (Pratinjau) untuk menggabungkan data analitis dengan workload transaksional.
  • Akses terpadu: Memungkinkan mesin yang berbeda (Apache Spark, Apache Flink, BigQuery) berinteraksi dengan tabel Apache Iceberg yang sama dengan metadata yang konsisten.

Antarmuka katalog

Katalog runtime lakehouse adalah satu layanan metadata yang menyediakan beberapa antarmuka (endpoint) untuk menghubungkan data Anda di Cloud Storage dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Cara kerja Google Cloud Lakehouse.

  • Endpoint katalog REST Apache Iceberg: Menyediakan antarmuka REST standar untuk kompatibilitas yang luas dengan mesin open source seperti Apache Spark, Apache Flink, dan Trino. Ini adalah antarmuka yang direkomendasikan untuk workload baru dan menawarkan interoperabilitas R/W penuh.

  • Endpoint katalog Apache Iceberg kustom untuk BigQuery: Memungkinkan mesin beroperasi langsung dengan katalog BigQuery. Antarmuka ini digunakan terutama untuk tabel Apache Iceberg yang dikelola BigQuery dan workload yang ada yang bertransisi ke arsitektur Google Cloud Lakehouse.

Antarmuka dan alat

Anda dapat berinteraksi dengan resource Google Cloud Lakehouse menggunakan alat berikut:

  • Google Cloud console: Gunakan konsol untuk membuat katalog, melihat properti katalog, melihat log audit, dan mengonfigurasi izin.
  • SQL BigQuery: Gunakan DDL (Data Definition Language) SQL standar untuk membuat dan mengelola tabel Apache Iceberg dan tabel eksternal yang terintegrasi dengan katalog runtime Lakehouse.
  • Mesin open source: Gunakan mesin seperti Apache Spark, Apache Flink, dan Apache Hive dengan katalog runtime Lakehouse untuk membaca dan menulis data.
  • Lakehouse runtime catalog API: gunakan endpoint katalog REST Apache Iceberg untuk berinteraksi dengan layanan menggunakan alat yang kompatibel dengan spesifikasi REST Apache Iceberg terbuka.

Langkah berikutnya