Seit dem 20. April 2026 heißt BigLake jetzt „Lakehouse for Apache Iceberg“. BigLake Metastore heißt jetzt Lakehouse-Laufzeitkatalog. Lakehouse-APIs, Clientbibliotheken, CLI-Befehle und IAM-Namen bleiben unverändert und verweisen weiterhin auf BigLake.

Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Was ist Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine zum Erstellen offener Data Lakehouses. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau auf Google Cloud, bietet sie eine einheitliche Schnittstelle für erweiterte Analysen und KI.

Zum Verwalten von Metadaten für offene Tabellen verwendet Lakehouse for Apache Iceberg den Lakehouse-Laufzeitkatalog. Dieser vollständig verwaltete, serverlose Metadatendienst bietet eine einzige Quelle der Wahrheit für unterschiedliche Systeme, zentralisiert die Suche und macht die Synchronisierung von Metadaten zwischen verschiedenen Repositories überflüssig.

Durch die Entkopplung von Speicher und Computing sorgt Lakehouse von Google Cloud für nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht es mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, auf eine einzige Quelle der Wahrheit zuzugreifen. So werden Datenduplizierung vermieden und konsistente Erkenntnisse gewährleistet.

Hauptvorteile

Serverlose Architektur:Mit Lakehouse von Google Cloud sind keine Server- oder Clusterverwaltung erforderlich. So werden die Betriebskosten gesenkt und die Skalierung erfolgt automatisch nach Bedarf. Bei Compute-Arbeitslasten werden durch serverlose Batch- und interaktive Sitzungen Ressourcenkonflikte zwischen Jobs vermieden und die Infrastrukturwartung automatisiert.
Einheitliche Datenverwaltung und Governance: Durch die Integration mit Knowledge Catalog können Governance-Richtlinien zentral für mehrere Engines definiert und erzwungen werden. Außerdem werden semantische Suche, Datenherkunft und Qualitätsprüfungen ermöglicht.
Speichererweiterungen:Lakehouse von Google Cloud erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
Vollständig verwaltet:Bei der Integration mit BigQuery bietet Lakehouse von Google Cloud eine vollständig verwaltete Analyse- und KI-Umgebung.
Hochverfügbarkeit und Notfallwiederherstellung: Lakehouse von Google Cloud bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.

Anwendungsfälle

Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
Cloudübergreifende Analysen und KI: Mit dem cloudübergreifenden Lakehouse (Vorschau) können Sie Metadaten von anderen Cloud-Anbietern synchronisieren. So können Sie Daten mit BigQuery oder externen Open-Source-Engines über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Daten migrieren zu müssen.
Öffentliche Datasets untersuchen:Sie können hochwertige öffentliche Datasets ganz einfach über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Infrastruktur verwalten zu müssen.
Hive Metastore: Verbinden Sie Open-Source-Engines wie Apache Spark und Apache Hive über den Hive Katalog (Vorschau) mit dem Lakehouse-Laufzeitkatalog. So werden die Betriebskosten für die Wartung eines selbst gehosteten Hive Metastore (HMS) vermieden und gleichzeitig die nahtlose gemeinsame Nutzung von Daten und direkte Tabellenabfragen in BigQuery ermöglicht.

Schnittstellen und Tools

Sie können mit den Lakehouse-Ressourcen von Google Cloud mit den folgenden Tools interagieren:

Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften aufrufen, Audit-Logs ansehen und Berechtigungen konfigurieren.
BigQuery SQL:Mit der Standard-SQL-DDL (Data Definition Language) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
Open-Source-Engines:Mit Engines wie Apache Spark, Apache Flink und Apache Hive können Sie mit dem Lakehouse-Laufzeitkatalog Daten lesen und schreiben.
IDEs und Notebooks:Mit interaktiven Apache Spark-Notebooks und IDE-Erweiterungen wie der Data Agent Kit (DAK)-Erweiterung für VS Code können Sie sich bei Google Cloud authentifizieren, Code interaktiv erstellen und Notebook-Sitzungen direkt in Ihrer Entwicklungsumgebung verwalten.
Orchestrierungs- und MLOps-Tools:Binden Sie serverlose Batch-Pipelines und Katalogvorgänge mit Managed Service for Apache Airflow (ehemals Cloud Composer) und Kubeflow Pipelines in Vertex AI in Orchestrierungs-Workflows ein.
Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg REST-Katalogendpunkt, um mit dem Dienst mit Tools zu interagieren, die mit der offenen Apache Iceberg REST-Spezifikation kompatibel sind.
Unterstützung für Apache Iceberg-Tabellen:Apache Iceberg V2-Tabellen (allgemeine Verfügbarkeit) und V3-Tabellen (Vorschau) werden unterstützt. Iceberg V1-Tabellen werden nicht unterstützt.

Nächste Schritte

Machen Sie sich mit der Architektur von Lakehouse von Google Cloud vertraut.

Was ist Lakehouse for Apache Iceberg? Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hauptvorteile

Anwendungsfälle

Schnittstellen und Tools

Nächste Schritte

Was ist Lakehouse for Apache Iceberg?