Lakehouse Federation in AlloyDB – Übersicht

Auf dieser Seite wird die Lakehouse Federation in AlloyDB for PostgreSQL vorgestellt, eine einheitliche Lösung für die Datenverwaltung, die die Abfragefunktionen von AlloyDB erweitert. Mit dieser Integration können Sie eine Reihe von BigQuery-Ressourcen nahtlos abfragen, darunter:

Mit der Lakehouse Federation können Sie die Abfrage-Engine von AlloyDB verwenden, um die transaktionsorientierten und analytischen Arbeitslasten Ihrer Anwendung über dieselbe Oberfläche zu verarbeiten. Sie können diese Daten auch in AlloyDB materialisieren oder importieren, um schneller darauf zuzugreifen und sie in Ihren Anwendungen zu verwenden. So können Sie AlloyDB AI und die spaltenbasierte Enginenutzen.

Mit der Lakehouse Federation für AlloyDB können Sie Daten aus BigQuery oder Iceberg in AlloyDB laden und transformieren, um Ihre operativen Anwendungen zu unterstützen oder Verlaufsdaten mit transaktionsorientierten Echtzeitdaten zu verknüpfen. Dieser Anwendungsfall unterstützt einheitliche Analysen und eine vollständige Ansicht Ihres Unternehmens im Kontext Ihrer Anwendung.

Sie können AlloyDB als transaktionsorientierte Datenbank verwenden und große Datenmengen in BigQuery oder BigLake speichern. Ihre Anwendungen werden in der Regel unabhängig in beide Systeme eingebunden, um auf Daten in diesen verschiedenen Google Cloud Diensten zuzugreifen. Mit der Lakehouse Federation können Sie die Unterstützung für föderierte Abfragen von AlloyDB nutzen, die als Foreign Data Wrapper implementiert ist, um über eine SQL-Schnittstelle in AlloyDB auf BigQuery- und AlloyDB-Daten zuzugreifen.

Push-down

Sie können Filter- und Aggregations-Push-down-Techniken verwenden, um Abfragen zu beschleunigen und Kosten zu senken, indem Sie Daten in BigQuery filtern oder zusammenfassen, bevor sie von AlloyDB verschoben oder verarbeitet werden. Dieser Ansatz minimiert den Netzwerkverkehr und die Arbeitsspeichernutzung. So können Sie große Datasets schnell und effizient analysieren, ohne die Ressourcengrenzwerte zu überschreiten.

Filter-Push-down

Filter-Pushdown, auch als Prädikat-Pushdown bezeichnet, ist eine Optimierungstechnik, bei der das Filtern von Daten so nah wie möglich an die Speicherebene verlagert wird. Anstatt eine große Tabelle in den Arbeitsspeicher zu lesen und dann die nicht benötigten Zeilen zu verwerfen, „pusht“ die Datenbank den Filter (mit der WHERE-Klausel) in den ersten Datenscan.

Mit dem Filter-Push-down können Sie SQL-Abfragen mit einer WHERE-Klausel verwenden, um auf eine Teilmenge der Daten aus der Remotetabelle zuzugreifen. Diese Daten können auch in einer lokalen Tabelle materialisiert oder als lokale Partition an eine PostgreSQL-Tabelle angehängt werden.

Unterstützte Filter

Die folgenden Vergleichs- und arithmetischen Operationen werden mit der BigQuery API an BigQuery übertragen, wenn sie in Ausdrücken in der Filterklausel (WHERE) der PostgreSQL-Abfrage vorkommen:

Vergleichsoperatoren

=, >, <, >=, <=, <>, ~~, !~~

Arithmetische Operatoren

+, -, *, /

Aggregations-Push-down

Aggregations-Push-down ist eine erweiterte Datenbankoptimierung, bei der Berechnungen wie SUM, COUNT, AVG oder GROUP BY so nah wie möglich an der Speicherebene ausgeführt werden. Während beim Filter-Push-down nicht benötigte Zeilen entfernt werden, werden beim Aggregations-Push-down benötigte Zeilen zusammengefasst, bevor sie von der Datenbank-Engine weiterverarbeitet werden.

Unterstützte Aggregationen

Die folgenden Aggregationsfunktionen werden mit der BigQuery API an BigQuery übertragen, wenn sie auf die unterstützten Datentypen anwendbar sind:

  • SUMME
  • AVG
  • MIN
  • MAX
  • COUNT

BigQuery-Kosten und -Abrechnung

Der BigQuery Foreign Data Wrapper hängt von Folgendem ab:

  • BigQuery-Compute-Preise
  • BigQuery Storage API – Preise

Weitere Informationen finden Sie unter BigQuery-Preise.

Beschränkungen

  • AlloyDB und BigQuery verwenden möglicherweise unterschiedliche Sortierungen, was zu einer unterschiedlichen Sortierung der Daten zwischen den beiden Systemen führen kann. Für jeden Teil einer Abfrage, die remote in BigQuery ausgeführt wird, folgt die Sortierung den Einstellungen von BigQuery.
  • Abfragen, die nach dem Push-down eine sehr große Datenmenge aus BigQuery zurückgeben, werden nicht optimiert.

Nächste Schritte