Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine zum Erstellen offener Data Lakehouses. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau auf Google Cloud, bietet sie eine einheitliche Schnittstelle für erweiterte Analysen und KI.
Zum Verwalten von Metadaten für offene Tabellen verwendet Lakehouse for Apache Iceberg den Lakehouse-Laufzeitkatalog. Dieser vollständig verwaltete, serverlose Metadatendienst bietet eine einzige Quelle der Wahrheit für unterschiedliche Systeme, zentralisiert die Suche und macht die Synchronisierung von Metadaten zwischen verschiedenen Repositories überflüssig.
Durch die Entkopplung von Speicher und Computing sorgt Lakehouse von Google Cloud für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, den Zugriff auf eine einzige Quelle der Wahrheit. So werden Datenduplikate vermieden und konsistente Erkenntnisse gewährleistet.
Hauptvorteile
- Serverlose Architektur:Mit Lakehouse von Google Cloud sind keine Server- oder Clusterverwaltung erforderlich. So werden die Betriebskosten gesenkt und die Skalierung erfolgt automatisch nach Bedarf. Bei Compute-Arbeitslasten werden durch serverlose Batch- und interaktive Sitzungen Ressourcenkonflikte zwischen Jobs vermieden und die Infrastrukturwartung automatisiert.
- Einheitliche Datenverwaltung und Governance: Die Integration mit Knowledge Catalog sorgt für die zentrale Definition und Durchsetzung von Governance-Richtlinien für mehrere Engines und ermöglicht semantische Suche, Datenherkunft und Qualitätsprüfungen.
- Speichererweiterungen:Lakehouse von Google Cloud erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
- Vollständig verwaltete Lösung:Bei der Integration mit BigQuery verwendet Lakehouse von Google Cloud Streaming mit hohem Durchsatz und Metadatenverwaltung in Echtzeit, um eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung zu bieten.
- Hochverfügbarkeit und Notfallwiederherstellung: Lakehouse von Google Cloud bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu gewährleisten.
Anwendungsfälle
- Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
- Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
- Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
- Cloud-übergreifende Analysen und KI: Mit dem Cloud-übergreifenden Lakehouse (Vorschau) können Sie Metadaten von anderen Cloud-Anbietern synchronisieren. So können Sie Daten mit BigQuery oder externen Open-Source-Engines über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Daten migrieren zu müssen.
- Öffentliche Datasets untersuchen:Sie können hochwertige öffentliche Datasets ganz einfach über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Infrastruktur verwalten zu müssen.
- Hive-Metastore : Verbinden Sie Open-Source-Engines wie Apache Spark und Apache Hive über den Hive-Katalog (Vorschau) mit dem Lakehouse-Laufzeitkatalog. So werden die Betriebskosten für die Wartung eines selbst gehosteten Hive-Metastores (HMS) vermieden und gleichzeitig eine nahtlose Datenfreigabe und direkte Tabellenabfragen in BigQuery ermöglicht.
Schnittstellen und Tools
Sie können mit den Lakehouse-Ressourcen von Google Cloud mit den folgenden Tools interagieren:
- Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften aufrufen, Audit-Logs ansehen und Berechtigungen konfigurieren.
- BigQuery SQL:Mit der Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
- Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
- IDEs und Notebooks:Verwenden Sie interaktive Apache Spark-Notebooks und IDE-Erweiterungen wie die Data Agent Kit-Erweiterung (DAK) für VS Code, um sich bei Google Cloud zu authentifizieren, Code interaktiv zu erstellen und Notebook-Sitzungen direkt in Ihrer Entwicklungsumgebung zu verwalten.
- Orchestrierungs- und MLOps-Tools:Binden Sie serverlose Batch-Pipelines und Katalogvorgänge mit Managed Service for Apache Airflow (früher Cloud Composer) und Kubeflow Pipelines in Vertex AI in Orchestrierungs-Workflows ein.
- Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg REST-Katalogendpunkt, um mit dem Dienst mit Tools zu interagieren, die mit der offenen Apache Iceberg REST-Spezifikation kompatibel sind.
- Unterstützung für Apache Iceberg-Tabellen:Es werden nur Apache Iceberg V2-Tabellen unterstützt. Iceberg V1-Tabellen werden nicht unterstützt. Wenn Sie vorhandene Iceberg V1-Tabellen haben, müssen Sie sie auf V2 aktualisieren (z. B. durch Ausführen von
ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2');oder ähnlicher Engine-Vorgänge), bevor Sie sie mit Lakehouse for Apache Iceberg verwenden.
Nächste Schritte
- Machen Sie sich mit der Architektur von Lakehouse von Google Cloud vertraut.