Lakehouse untuk Apache Iceberg adalah mesin penyimpanan berperforma tinggi yang dirancang untuk membangun data lakehouse terbuka. Dengan mengintegrasikan format tabel terbuka Apache Iceberg dengan penyimpanan tingkat perusahaan yang terkelola sepenuhnya, format ini menyediakan antarmuka terpadu untuk analisis dan AI tingkat lanjut. Google Cloud
Dengan memisahkan penyimpanan dari komputasi, Lakehouse Google Cloud memastikan interoperabilitas yang lancar di seluruh sistem analisis dan transaksional. Arsitektur ini memungkinkan beberapa mesin—termasuk Apache Spark, Apache Flink, Apache Hive, Trino, dan BigQuery—untuk mengakses satu sumber tepercaya, sehingga menghilangkan duplikasi data dan memastikan insight yang konsisten.
Manfaat utama
- Arsitektur serverless: Lakehouse Google Cloud menghilangkan kebutuhan akan pengelolaan server atau cluster, mengurangi overhead operasional, dan menskalakan secara otomatis berdasarkan permintaan.
- Tata kelola dan pengelolaan data terpadu: Integrasi dengan Knowledge Catalog memastikan definisi dan penerapan kebijakan tata kelola terpusat di berbagai mesin, serta memungkinkan penelusuran semantik, silsilah data, dan pemeriksaan kualitas.
- Ekstensi penyimpanan: Lakehouse Google Cloud memperluas kemampuan pengelolaan Cloud Storage untuk menyertakan fitur seperti tingkatan Autoclass dan Kunci enkripsi yang dikelola pelanggan (CMEK).
- Pengalaman yang terkelola sepenuhnya: Saat terintegrasi dengan BigQuery, Lakehouse Google Cloud menggunakan streaming throughput tinggi dan pengelolaan metadata real-time untuk memberikan pengalaman streaming, analisis, dan AI yang terkelola sepenuhnya.
- Ketersediaan tinggi dan pemulihan dari bencana: Lakehouse Google Cloud menawarkan opsi untuk replikasi lintas region dan pemulihan dari bencana (Pratinjau) untuk mendukung ketersediaan data Anda yang tinggi.
Kasus penggunaan
- Lakehouse terbuka: Gunakan Cloud Storage sebagai lapisan penyimpanan, dan Lakehouse Google Cloud menyediakan antarmuka pengelolaan dan tata kelola untuk data Apache Iceberg.
- Integrasi analisis dan transaksional: Akses tabel Apache Iceberg analitis langsung dalam AlloyDB untuk PostgreSQL (Pratinjau) untuk menggabungkan data analitis dengan workload transaksional.
- Akses terpadu: Izinkan mesin yang berbeda (Apache Spark, Apache Flink, BigQuery) berinteraksi dengan tabel Apache Iceberg yang sama dengan metadata yang konsisten.
- Analisis dan AI lintas cloud: Gunakan Lakehouse lintas cloud (Pratinjau) untuk membuat kueri data di penyedia cloud lain langsung dari Google Cloud tanpa memerlukan migrasi data.
- Eksplorasi set data publik: Buat kueri set data publik berkualitas tinggi dengan mudah menggunakan endpoint katalog REST Apache Iceberg tanpa mengelola infrastruktur.
Antarmuka dan alat
Anda dapat berinteraksi dengan resource Lakehouse Google Cloud menggunakan alat berikut:
- Google Cloud konsol: Gunakan konsol untuk membuat katalog, melihat properti katalog, melihat log audit, dan mengonfigurasi izin.
- BigQuery SQL: Gunakan DDL SQL standar (Bahasa Definisi Data) untuk membuat dan mengelola tabel Apache Iceberg dan tabel eksternal yang terintegrasi dengan katalog runtime Lakehouse.
- Mesin open source: Gunakan mesin seperti Apache Spark, Apache Flink, dan Apache Hive dengan katalog runtime Lakehouse untuk membaca dan menulis data.
- Lakehouse runtime catalog API: Gunakan endpoint katalog REST Apache Iceberg untuk berinteraksi dengan layanan menggunakan alat yang kompatibel dengan spesifikasi REST Apache Iceberg terbuka.
Langkah berikutnya
- Memahami arsitektur Lakehouse Google Cloud.