Lakehouse for Apache Iceberg è un motore di archiviazione ad alte prestazioni progettato per la creazione di data lakehouse aperti. Integrando il formato di tabella aperto Apache Iceberg con lo spazio di archiviazione completamente gestito di livello enterprise su Google Cloud, fornisce un'interfaccia unificata per l'analisi avanzata e l'AI.
Separando lo spazio di archiviazione dal calcolo, Lakehouse di Google Cloud garantisce un'interoperabilità perfetta tra i sistemi analitici e transazionali. Questa architettura consente a più motori, tra cui Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, di accedere a un'unica fonte di verità, eliminando la duplicazione dei dati e garantendo insight coerenti.
Vantaggi principali
- Architettura serverless: Lakehouse di Google Cloud elimina la necessità di gestire server o cluster, riducendo il sovraccarico operativo e scalando automaticamente in base alla domanda.
- Gestione e governance dei dati unificate: l'integrazione con Knowledge Catalog garantisce la definizione e l'applicazione centralizzate delle policy di governance su più motori e consente la ricerca semantica, la derivazione dei dati e i controlli di qualità.
- Estensioni dello spazio di archiviazione: Lakehouse di Google Cloud estende le funzionalità di gestione di Cloud Storage per includere funzionalità come il tiering Autoclass e le chiavi di crittografia gestite dal cliente (CMEK).
- Esperienza completamente gestita: quando è integrato con BigQuery, Lakehouse di Google Cloud utilizza lo streaming a elevata velocità effettiva e la gestione dei metadati in tempo reale per fornire un'esperienza di streaming, analisi e AI completamente gestita.
- Alta affidabilità e ripristino di emergenza: Lakehouse di Google Cloud offre opzioni per la replica tra regioni e ripristino di emergenza (anteprima) per supportare l'alta affidabilità dei dati.
Casi d'uso
- Lakehouse aperto: utilizza Cloud Storage come livello di archiviazione e Lakehouse di Google Cloud fornisce l'interfaccia di gestione e governance per i dati Apache Iceberg.
- Integrazione analitica e transazionale: accedi alle tabelle Apache Iceberg analitiche direttamente in AlloyDB per PostgreSQL (anteprima) per combinare i dati analitici con i workload transazionali.
- Accesso unificato: consenti a motori diversi (Apache Spark, Apache Flink, BigQuery) di interagire con le stesse tabelle Apache Iceberg con metadati coerenti.
- Analisi e AI cross-cloud: utilizza Cross-cloud Lakehouse (anteprima) per eseguire query sui dati di altri fornitori di servizi cloud direttamente da Google Cloud senza richiedere la migrazione dei dati.
- Esplorazione dei set di dati pubblici: esegui facilmente query sui set di dati pubblici di alta qualità utilizzando l'endpoint del catalogo REST Apache Iceberg senza gestire l'infrastruttura.
Interfacce del catalogo
Il catalogo runtime lakehouse è un singolo servizio di metadati che fornisce diverse interfacce (endpoint) per connettere i dati in Cloud Storage e BigQuery.
Endpoint del catalogo REST Apache Iceberg: fornisce un'interfaccia REST standard per un'ampia compatibilità con i motori open source come Apache Spark, Apache Flink e Trino. Questa è l'interfaccia consigliata per i nuovi workload e offre l'interoperabilità di lettura/scrittura completa.
Endpoint del catalogo Apache Iceberg personalizzato per BigQuery: consente ai motori di interagire direttamente con il catalogo BigQuery. Questa interfaccia viene utilizzata principalmente per le tabelle Apache Iceberg gestite da BigQuery e per i workload esistenti che eseguono la transizione all'architettura Lakehouse di Google Cloud.
Interfacce e strumenti
Puoi interagire con le risorse Lakehouse di Google Cloud utilizzando i seguenti strumenti:
- Google Cloud Console: utilizza la console per creare cataloghi, visualizzare le proprietà dei cataloghi , visualizzare i log di audit e configurare le autorizzazioni.
- SQL BigQuery: utilizza il linguaggio DDL (Data Definition Language) SQL standard per creare e gestire le tabelle Apache Iceberg e le tabelle esterne integrate con il catalogo runtime lakehouse.
- Motori open source: utilizza motori come Apache Spark, Apache Flink e Apache Hive con il catalogo runtime lakehouse per leggere e scrivere dati.
- API del catalogo runtime lakehouse: utilizza l'endpoint del catalogo REST Apache Iceberg per interagire con il servizio utilizzando strumenti compatibili con la specifica REST Apache Iceberg aperta.
Passaggi successivi
- Comprendi l'architettura di Lakehouse di Google Cloud.