Was ist BigLake?

BigLake ist eine Speicher-Engine, die Google Cloud und Open-Source-Dienste vereint, um eine einheitliche Schnittstelle für erweiterte Analysen und KI zu schaffen. Es bietet die Grundlage für die Erstellung eines offenen, verwalteten und leistungsstarken Lakehouse mit automatisierter Datenverwaltung und integrierter Governance mit Apache Iceberg.

Durch die Entkopplung von Speicher und Berechnung bietet BigLake Interoperabilität für alle Iceberg-kompatiblen Engines wie Apache Spark, Apache Flink, Apache Hive, Trino oder BigQuery. So wird eine einheitliche Ansicht Ihrer Daten gewährleistet.

Hauptvorteile

Serverlose Architektur:Mit BigLake entfällt die Notwendigkeit der Server- oder Clusterverwaltung. So wird der operative Aufwand reduziert und die Skalierung erfolgt automatisch je nach Bedarf.
Einheitliche Datenverwaltung und ‑steuerung:Die Integration in Knowledge Catalog ermöglicht die zentrale Definition und Durchsetzung von Governance-Richtlinien für mehrere Engines sowie semantische Suche, Datenherkunft und Qualitätsprüfungen.
Storage-Erweiterungen:BigLake erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und kundenverwaltete Verschlüsselungsschlüssel (CMEK).
Vollständig verwaltete Lösung:Bei der Integration in BigQuery nutzt BigLake Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Lösung für Streaming, Analysen und KI zu bieten.
Hochverfügbarkeit und Notfallwiederherstellung:BigLake bietet Optionen für die regionenübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.

Anwendungsfälle

Offenes Lakehouse:Cloud Storage wird als Speicherebene verwendet und BigLake bietet die Verwaltungs- und Governance-Schnittstelle für Iceberg-Daten.
Integration von Analyse- und Transaktionsdaten:Greifen Sie direkt in AlloyDB for PostgreSQL (Preview) auf analytische BigLake Iceberg-Tabellen zu, um Analysedaten mit Transaktionsarbeitslasten zu kombinieren.
Einheitlicher Zugriff:Verschiedene Engines (Spark, Flink, BigQuery) können mit konsistenten Metadaten auf dieselben Iceberg-Tabellen zugreifen.

Katalogschnittstellen

BigLake Metastore bietet zwei primäre Katalogoberflächen, um Ihre Daten in Cloud Storage und BigQuery zu verbinden. Weitere Informationen finden Sie unter Funktionsweise von BigLake.

Apache Iceberg REST Catalog:Bietet eine standardmäßige REST-Schnittstelle für eine bessere Kompatibilität mit Open-Source-Engines und -Tools. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten.

In der Kurzanleitung BigLake Metastore mit Spark und BigQuery über den Iceberg REST Catalog verwenden erfahren Sie, wie Sie diesen Apache Iceberg REST Catalog verwenden.
Benutzerdefinierter Apache Iceberg-Katalog für BigQuery:Ermöglicht die Interoperabilität von Engines wie Spark mit BigQuery. Diese Schnittstelle wird für vorhandene Arbeitslasten unterstützt.

Schnittstellen und Tools

Sie können mit den folgenden Tools mit BigLake-Ressourcen interagieren:

Die Google Cloud Console: Mit der Console können Sie Kataloge erstellen, Katalogattribute und Audit-Logs aufrufen und Berechtigungen konfigurieren.
BigQuery SQL:Verwenden Sie Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache), um BigLake-Iceberg-Tabellen zu erstellen und zu verwalten.
Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit BigLake Metastore, um Daten zu lesen und zu schreiben.
BigLake Metastore API:Verwenden Sie eine REST API, die mit der Iceberg REST-Katalogspezifikation kompatibel ist.

Nächste Schritte

Architektur verstehen:Lesen Sie den Abschnitt Funktionsweise von BigLake.

Was ist BigLake? Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.