BigLake – Übersicht

BigLake ist eine Speicher-Engine, die Google Cloud und Open-Source-Dienste vereint, um eine einheitliche Schnittstelle für erweiterte Analysen und KI zu schaffen. Es bietet die Grundlage, die Sie benötigen, um mit Apache Iceberg ein offenes, verwaltetes und leistungsstarkes Lakehouse mit automatischer Datenverwaltung und integrierter Governance zu erstellen.

BigLake ermöglicht die Interoperabilität zwischen allen Iceberg-kompatiblen Engines wie Apache Spark oder BigQuery und bietet so eine einheitliche Ansicht Ihrer Daten. Außerdem werden die Cloud Storage-Verwaltungsfunktionen erweitert, z. B. durch Funktionen wie automatische Klassifizierung, Verschlüsselung und von Kunden verwaltete Verschlüsselungsschlüssel für Ihre Speicher-Buckets. Die integrierte Integration mit Dataplex Universal Catalog sorgt dafür, dass Governance-Richtlinien zentral definiert und in mehreren Engines einheitlich durchgesetzt werden. Gleichzeitig werden semantische Suche, Datenherkunft, Profilierung und Qualitätsprüfungen ermöglicht.

BigLake bietet in Kombination mit BigQuery auch die Möglichkeit einer vollständig verwalteten Iceberg-Umgebung. Durch die Nutzung der hochgradig skalierbaren Echtzeit-Metadatenverwaltungsfunktionen von BigQuery erhalten Sie das Beste aus beiden Welten: Offenheit und Datenhoheit in Kombination mit leistungsstarken Analysen, Streaming und KI.

Architektur

Ein Data Lakehouse, das mit BigLake erstellt wurde, besteht aus den folgenden Komponenten:

  • Speicherfunktionen Cloud Storage mit Apache Iceberg als empfohlenes offenes Tabellenformat.
  • Ein Metastore. BigLake Metastore ist ein einheitlicher, verwalteter, serverloser und skalierbarer Metastore, der eine zentrale Quelle für die Verwaltung von Metadaten über mehrere Engines hinweg bietet.
  • Eine Abfrage-Engine. BigQuery, Apache Spark, Apache Flink, Trino und andere Open-Source-Engines sind alle mit BigLake kompatibel.
  • Ein Tool zum Schreiben und Analysieren von Daten: BigQuery, Spark, Flink, Trino und andere Open-Source-Tools lassen sich in BigLake einbinden und bieten so verschiedene Möglichkeiten für Schreibvorgänge und Analysen.

BigLake fasst alle diese Komponenten in einer einzigen Umgebung mit einheitlicher Governance zusammen. Weitere Informationen zur BigLake-Architektur und zu Innovationen finden Sie unter BigLake evolved.

BigLake-Metastore

BigLake Metastore ist ein vollständig verwalteter und serverloser Metastore für Ihr Lakehouse auf Google Cloud. BigLake Metastore bietet eine zentrale Quelle für Metadaten aus mehreren Quellen und ist über BigQuery und verschiedene offene Datenverarbeitungs-Engines zugänglich. So müssen Metadaten nicht mehr mit benutzerdefinierten Tools zwischen verschiedenen Repositorys kopiert und synchronisiert werden.

BigLake Metastore wird vom Dataplex Universal Catalog unterstützt. Dieser bietet einheitliche und detaillierte Zugriffssteuerungen für alle unterstützten Engines und ermöglicht eine End-to-End-Governance, die umfassende Funktionen für Herkunft, Datenqualität und Auffindbarkeit umfasst.

Tabellenformate

Wenn Sie ein Lakehouse in BigLake erstellen, haben Sie die folgenden Optionen für das Format Ihrer Tabellen:

  • BigLake-Iceberg-Tabellen in BigQuery sind Iceberg-Tabellen, die Sie in BigQuery erstellen und in Cloud Storage speichern. Wie alle Tabellen, die den BigLake-Metastore verwenden, können sie von Open-Source-Engines und BigQuery gelesen werden. BigQuery ist jedoch die einzige Engine, die direkt in diese schreiben kann. Diese Option ist am besten geeignet, wenn Sie möchten, dass Ihr ETL-Workflow (Extrahieren, Transformieren und Laden) vollständig von BigQuery verwaltet wird.
  • BigLake-Iceberg-Tabellen sind Iceberg-Tabellen, die Sie mit Open-Source-Engines erstellen und in Cloud Storage speichern. Wie alle Tabellen, die BigLake Metastore verwenden, können sie von Open-Source-Engines und BigQuery gelesen werden. Die Open-Source-Engine, mit der die Tabelle erstellt wurde, ist jedoch die einzige Engine, die in die Tabelle schreiben kann. Diese Option ist am besten geeignet, wenn Sie möchten, dass Ihr ETL-Workflow von der Open-Source-Engine verwaltet wird.
  • Standard-BigQuery-Tabellen werden vollständig von BigQuery verwaltet und bieten die fortschrittlichsten Funktionen für Datenanalyse und ‑verwaltung. Sie können diese Tabellen weiterhin mit BigLake Metastore verbinden. Diese Option eignet sich am besten für Tabellen, die nicht im Iceberg-Format vorliegen.
  • Externe Tabellen sind Tabellen, die sich außerhalb von BigLake Metastore befinden. Die Daten und Metadaten dieser Tabellen werden vollständig selbst verwaltet. Sie sind also vollständig auf die Funktionen offener Tabellenformate wie Iceberg, Apache Hudi oder Delta Lake angewiesen. BigQuery kann nur Daten aus diesen Tabellen lesen. Wählen Sie diese Option für Daten und Metadaten aus, die Sie selbst in einem Drittanbieterkatalog verwalten möchten.

Im folgenden Diagramm können Sie die Optionen für das Tabellenformat vergleichen:

Externe Tabellen BigLake Iceberg-Tabellen BigLake-Iceberg-Tabellen in BigQuery Standard-BigQuery-Tabellen
Metastore Externer oder selbst gehosteter Metastore BigLake-Metastore BigLake-Metastore BigQuery
Speicher Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Speicheroptimierung Verwaltung durch Kunden oder Drittanbieter Verwaltung durch Kunden oder Drittanbieter Von Google verwaltet Von Google verwaltet
Lesen / Schreiben Open-Source-Engines (Lesen/Schreiben)

BigQuery (schreibgeschützt)
Open-Source-Engines (Lesen/Schreiben)

BigQuery (schreibgeschützt)
Open-Source-Engines (nur Lesezugriff mit Iceberg-Bibliotheken, Lese-/Schreibkompatibilität mit BigQuery Storage API)

BigQuery (Lese-/Schreibzugriff)

Open-Source-Engines (Lese-/Schreibkompatibilität mit der BigQuery Storage API)

BigQuery (Lesen/Schreiben)

Anwendungsfälle Staging-Tabellen für BigQuery-Ladevorgänge, Legacy-Tabellen nur für Abfragen Offenes Lakehouse Offenes Lakehouse mit leistungsstarkem Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI

Nächste Schritte