A partire dal 20 aprile 2026, BigLake si chiama ora Lakehouse per Apache Iceberg. BigLake Metastore ora si chiama catalogo runtime Lakehouse. Le API, le librerie client, i comandi CLI e i nomi IAM di Lakehouse rimangono invariati e fanno ancora riferimento a BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Che cos'è Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg è un motore di archiviazione ad alte prestazioni progettato per la creazione di data lakehouse aperti. Integrando il formato di tabella aperto Apache Iceberg con lo spazio di archiviazione completamente gestito di livello enterprise su Google Cloud, fornisce un'interfaccia unificata per analisi avanzate e AI.

Per gestire i metadati delle tabelle aperte, Lakehouse for Apache Iceberg utilizza il catalogo del runtime di Lakehouse. Questo servizio di metadati serverless completamente gestito fornisce un'unica fonte di verità tra sistemi disparati, centralizzando l'individuazione ed eliminando la necessità di sincronizzare i metadati tra repository diversi.

Separando lo spazio di archiviazione dal calcolo, Lakehouse di Google Cloud garantisce un'interoperabilità perfetta tra i sistemi analitici e transazionali. Questa architettura consente a più motori, tra cui Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, di accedere a un'unica fonte di verità, eliminando la duplicazione dei dati e garantendo insight coerenti.

Vantaggi principali

Architettura serverless: Lakehouse di Google Cloud elimina la necessità di gestire server o cluster, riducendo il sovraccarico operativo e scalando automaticamente in base alla domanda. Per i carichi di lavoro di calcolo, le sessioni batch e interattive serverless rimuovono la contesa delle risorse tra i job e automatizzano la manutenzione dell'infrastruttura.
Gestione e governance dei dati unificate: l'integrazione con Knowledge Catalog garantisce la definizione e l'applicazione centralizzate delle policy di governance su più motori e consente la ricerca semantica, la derivazione dei dati e i controlli di qualità.
Estensioni di archiviazione: Lakehouse di Google Cloud estende le funzionalità di gestione di Cloud Storage per includere funzionalità come il tiering Autoclass e le chiavi di crittografia gestite dal cliente (CMEK).
Esperienza completamente gestita: quando è integrato con BigQuery, Lakehouse di Google Cloud offre un'esperienza di analisi e AI completamente gestita.
Alta disponibilità e ripristino di emergenza: Lakehouse di Google Cloud offre opzioni per la replica tra regioni e il ripristino di emergenza (anteprima) per supportare l'alta disponibilità dei dati.

Casi d'uso

Lakehouse aperto: utilizza Cloud Storage come livello di archiviazione e Lakehouse di Google Cloud fornisce l'interfaccia di gestione e governance per i dati Apache Iceberg.
Integrazione analitica e transazionale: accedi alle tabelle analitiche Apache Iceberg direttamente in AlloyDB per PostgreSQL (anteprima) per combinare i dati analitici con i carichi di lavoro transazionali.
Accesso unificato: consenti a motori diversi (Apache Spark, Apache Flink, BigQuery) di interagire con le stesse tabelle Apache Iceberg con metadati coerenti.
Analisi e AI cross-cloud: utilizza Lakehouse cross-cloud (anteprima) per sincronizzare i metadati di altri fornitori di servizi cloud, consentendoti di eseguire query sui dati con BigQuery o motori open source esterni tramite l'endpoint del catalogo REST Apache Iceberg, il tutto senza eseguire la migrazione dei dati.
Esplorazione dei set di dati pubblici: esegui facilmente query sui set di dati pubblici di alta qualità utilizzando l'endpoint del catalogo REST Apache Iceberg senza gestire l'infrastruttura.
Hive Metastore: connetti motori open source come Apache Spark e Apache Hive al catalogo del runtime di Lakehouse utilizzando il catalogo Hive catalog (anteprima). In questo modo si elimina il sovraccarico operativo della gestione di un Hive Metastore (HMS) self-hosted, consentendo al contempo la condivisione dei dati e le query dirette sulle tabelle in BigQuery.

Interfacce e strumenti

Puoi interagire con le risorse di Lakehouse di Google Cloud utilizzando i seguenti strumenti:

Google Cloud Console: utilizza la console per creare cataloghi, visualizzare le proprietà dei cataloghi , visualizzare gli audit log e configurare le autorizzazioni.
BigQuery SQL: utilizza DDL (Data Definition Language) SQL standard per creare e gestire tabelle Apache Iceberg e tabelle esterne integrate con il catalogo del runtime di Lakehouse.
Motori open source: utilizza motori come Apache Spark, Apache Flink e Apache Hive con il catalogo del runtime di Lakehouse per leggere e scrivere dati.
IDE e notebook: utilizza i notebook Apache Spark interattivi e le estensioni IDE, come l'estensione Data Agent Kit (DAK) per VS Code, per eseguire l'autenticazione a Google Cloud, creare codice in modo interattivo e gestire le sessioni dei notebook direttamente all'interno dell'ambiente di sviluppo.
Strumenti di orchestrazione e MLOps: integra le pipeline batch serverless e le operazioni del catalogo con i flussi di lavoro di orchestrazione utilizzando Managed Service for Apache Airflow (in precedenza Cloud Composer) e Kubeflow Pipelines in Vertex AI.
API del catalogo del runtime di Lakehouse: utilizza l'endpoint del catalogo REST Apache Iceberg per interagire con il servizio utilizzando strumenti compatibili con la specifica REST Apache Iceberg aperta.
Supporto delle tabelle Apache Iceberg: sono supportate le tabelle Apache Iceberg V2 (disponibilità generale) e V3 (anteprima). Le tabelle Iceberg V1 non sono supportate.

Passaggi successivi

Comprendi l'architettura di Lakehouse di Google Cloud.

Che cos'è Lakehouse for Apache Iceberg? Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Vantaggi principali

Casi d'uso

Interfacce e strumenti

Passaggi successivi

Che cos'è Lakehouse for Apache Iceberg?