BigLake ist eine Speicher-Engine, die Google Cloud und Open-Source-Dienste vereint, um eine einheitliche Schnittstelle für erweiterte Analysen und KI zu schaffen. Es bietet die Grundlage für die Erstellung eines offenen, verwalteten und leistungsstarken Lakehouse mit automatisierter Datenverwaltung und integrierter Governance mit Apache Iceberg.
Durch die Entkopplung von Speicher und Berechnung bietet BigLake Interoperabilität für alle Iceberg-kompatiblen Engines wie Apache Spark, Apache Flink, Apache Hive, Trino oder BigQuery, was eine einheitliche Ansicht Ihrer Daten gewährleistet.
Hauptvorteile
- Serverlose Architektur:Mit BigLake entfällt die Notwendigkeit der Server- oder Clusterverwaltung. Das reduziert den Betriebsaufwand und die Skalierung erfolgt automatisch je nach Bedarf.
- Einheitliche Datenverwaltung und ‑steuerung:Die Integration in den Dataplex Universal Catalog sorgt für die zentrale Definition und Durchsetzung von Governance-Richtlinien über mehrere Engines hinweg und ermöglicht semantische Suche, Datenherkunft und Qualitätsprüfungen.
- Storage-Erweiterungen:BigLake erweitert die Cloud Storage-Verwaltungsfunktionen um Features wie Autoclass-Tiering und kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
- Vollständig verwaltete Lösung:Bei der Integration in BigQuery nutzt BigLake Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Lösung für Streaming, Analysen und KI zu bieten.
- Hochverfügbarkeit und Notfallwiederherstellung:BigLake bietet Optionen für die regionenübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.
Anwendungsfälle
- Offenes Lakehouse:Cloud Storage wird als Speicherebene verwendet und BigLake bietet die Verwaltungs- und Governance-Schnittstelle für Iceberg-Daten.
- Integration von Analyse- und Transaktionsdaten:Greifen Sie direkt in AlloyDB for PostgreSQL (Preview) auf analytische BigLake Iceberg-Tabellen zu, um Analysedaten mit Transaktionsarbeitslasten zu kombinieren.
- Einheitlicher Zugriff:Verschiedene Engines (Spark, Flink, BigQuery) können mit konsistenten Metadaten auf dieselben Iceberg-Tabellen zugreifen.
Katalogschnittstellen
Der BigLake Metastore bietet zwei primäre Katalogoberflächen, um Ihre Daten in Cloud Storage und BigQuery zu verbinden. Weitere Informationen finden Sie unter Funktionsweise von BigLake.
Apache Iceberg REST Catalog:Bietet eine standardmäßige REST-Schnittstelle für eine bessere Kompatibilität mit Open-Source-Engines und ‑Tools. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten.
In der Kurzanleitung BigLake Metastore mit Spark und BigQuery über den Iceberg REST Catalog verwenden erfahren Sie, wie Sie diesen Apache Iceberg REST Catalog verwenden.
Benutzerdefinierter Apache Iceberg-Katalog für BigQuery:Ermöglicht die Interoperabilität von Engines wie Spark mit BigQuery. Diese Schnittstelle wird für vorhandene Arbeitslasten unterstützt.
Schnittstellen und Tools
Sie können mit den folgenden Tools mit BigLake-Ressourcen interagieren:
- Die Google Cloud Console: Mit der Console können Sie Kataloge erstellen, Katalogattribute und Audit-Logs aufrufen und Berechtigungen konfigurieren.
- BigQuery SQL:Verwenden Sie Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache), um BigLake-Iceberg-Tabellen zu erstellen und zu verwalten.
- Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit BigLake Metastore, um Daten zu lesen und zu schreiben.
- BigLake Metastore API:Verwenden Sie eine REST API, die mit der Iceberg REST-Katalogspezifikation kompatibel ist.
Nächste Schritte
- Architektur verstehen:Lesen Sie den Abschnitt Funktionsweise von BigLake.