Che cos'è Google Cloud Lakehouse?

Google Cloud Lakehouse è un motore di archiviazione ad alte prestazioni progettato per creare data lakehouse aperti. Integrando il formato di tabella aperto Apache Iceberg con l'archiviazione completamente gestita di livello enterprise suGoogle Cloud, fornisce un'interfaccia unificata per analisi avanzate e AI.

Separando l'archiviazione dal calcolo, Google Cloud Lakehouse garantisce un'interoperabilità perfetta tra sistemi analitici e transazionali. Questa architettura consente a più motori, tra cui Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, di accedere a un'unica fonte attendibile, eliminando la duplicazione dei dati e garantendo approfondimenti coerenti.

Vantaggi principali

  • Architettura serverless: Google Cloud Lakehouse elimina la necessità di gestione di server o cluster, riducendo l'overhead operativo e scalando automaticamente in base alla domanda.
  • Gestione e governance dei dati unificate: l'integrazione con Knowledge Catalog garantisce la definizione e l'applicazione centrali delle policy di governance su più motori e consente la ricerca semantica, la derivazione dei dati e i controlli di qualità.
  • Estensioni di archiviazione:Google Cloud Lakehouse estende le funzionalità di gestione di Cloud Storage per includere funzionalità come il tiering automatico e le chiavi di crittografia gestite dal cliente (CMEK).
  • Esperienza completamente gestita:se integrato con BigQuery, Google Cloud Lakehouse utilizza lo streaming a throughput elevato e la gestione dei metadati in tempo reale per fornire un'esperienza di streaming, analisi e AI completamente gestita.
  • Alta affidabilità e ripristino di emergenza recovery:Google Cloud Lakehouse offre opzioni per la replica tra regioni e ripristino di emergenza (anteprima) per supportare l'alta affidabilità dei tuoi dati.

Casi d'uso

  • Lakehouse aperto:utilizza Cloud Storage come livello di archiviazione e Google Cloud Lakehouse fornisce l'interfaccia di gestione e governance per i dati Apache Iceberg.
  • Integrazione analitica e transazionale:accedi alle tabelle analitiche Apache Iceberg direttamente in AlloyDB per PostgreSQL (anteprima) per combinare i dati analitici con i carichi di lavoro transazionali.
  • Accesso unificato:consente a diversi motori (Apache Spark, Apache Flink, BigQuery) di interagire con le stesse tabelle Apache Iceberg con metadati coerenti.

Interfacce del catalogo

Il catalogo del runtime di Lakehouse è un unico servizio di metadati che fornisce diverse interfacce (endpoint) per connettere i tuoi dati in Cloud Storage e BigQuery. Per saperne di più, consulta Come funziona Google Cloud Lakehouse.

  • Endpoint del catalogo REST di Apache Iceberg: fornisce un'interfaccia REST standard per un'ampia compatibilità con motori open source come Apache Spark, Apache Flink e Trino. Questa è l'interfaccia consigliata per i nuovi workload e offre piena interoperabilità di lettura/scrittura.

  • Catalogo Apache Iceberg personalizzato per l'endpoint BigQuery: consente ai motori di interoperare direttamente con il catalogo BigQuery. Questa interfaccia viene utilizzata principalmente per le tabelle Apache Iceberg gestite da BigQuery e per i workload esistenti che eseguono la transizione all'architettura Google Cloud Lakehouse.

Interfacce e strumenti

Puoi interagire con le risorse Google Cloud Lakehouse utilizzando i seguenti strumenti:

  • Google Cloud Console: utilizza la console per creare cataloghi, visualizzare le proprietà dei cataloghi, visualizzare i log di controllo e configurare le autorizzazioni.
  • BigQuery SQL: utilizza DDL (Data Definition Language) SQL standard per creare e gestire tabelle Apache Iceberg e tabelle esterne integrate con il catalogo di runtime Lakehouse.
  • Motori open source:utilizza motori come Apache Spark, Apache Flink e Apache Hive con il catalogo del runtime Lakehouse per leggere e scrivere dati.
  • API del catalogo del runtime di Lakehouse:utilizza l'endpoint del catalogo REST di Apache Iceberg per interagire con il servizio utilizzando strumenti compatibili con la specifica REST di Apache Iceberg aperta.

Passaggi successivi