Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral da federação de lakehouse no AlloyDB

Esta página apresenta a federação do Lakehouse no AlloyDB para PostgreSQL, uma solução unificada de gerenciamento de dados que estende os recursos de consulta do AlloyDB. Essa integração permite consultar perfeitamente uma variedade de recursos do BigQuery, incluindo:

Tabelas nativas e visualizações materializadas.
Visualizações do BigQuery (visualizações lógicas).
Tabelas externas do BigLake, incluindo aquelas para tabelas gerenciadas do Apache Iceberg.
Tabelas externas padrão.

Com a federação do Lakehouse, é possível usar o mecanismo de consulta do AlloyDB para alimentar as cargas de trabalho transacionais e analíticas do aplicativo na mesma interface. Também é possível materializar ou importar esses dados no AlloyDB para acesso mais rápido para uso nos aplicativos, o que permite usar o AlloyDB AI e o mecanismo colunar.

A federação do Lakehouse para AlloyDB permite carregar e transformar dados do BigQuery ou do Iceberg no AlloyDB para oferecer suporte aos aplicativos operacionais ou unir dados históricos com dados transacionais em tempo real. Esse caso de uso oferece suporte a análises unificadas e uma visão completa dos negócios no contexto do aplicativo.

É possível usar o AlloyDB como um banco de dados transacional e também ter grandes quantidades de dados no BigQuery ou no BigLake. Os aplicativos geralmente são integrados de forma independente a esses dois sistemas para acessar dados em diferentes Google Cloud serviços. A federação do Lakehouse permite usar o suporte a consultas federadas do AlloyDB implementado como um wrapper de dados externos para acessar dados do BigQuery e do AlloyDB usando uma interface SQL no AlloyDB.

Push-down

É possível usar técnicas de push-down de filtro e agregação, que aceleram as consultas e reduzem os custos filtrando ou resumindo dados no BigQuery antes que eles sejam movidos ou processados pelo AlloyDB. Essa abordagem minimiza o tráfego de rede e o uso da memória, permitindo analisar conjuntos de dados enormes de forma rápida e eficiente sem exceder os limites de recursos.

Push-down de filtro

O push-down de filtro, também conhecido como push-down de predicado, é uma técnica de otimização que move a filtragem de dados o mais próximo possível da camada de armazenamento. Em vez de ler uma tabela enorme na memória e descartar as linhas desnecessárias, o banco de dados "envia" o filtro (usando a cláusula WHERE) para a verificação inicial de dados.

Com o push-down de filtro, é possível usar consultas SQL com uma cláusula WHERE para acessar um subconjunto de dados da tabela remota. Esses dados também podem ser materializados em uma tabela local ou anexados como uma partição local a uma tabela do PostgreSQL.

Filtros compatíveis

As seguintes operações de comparação e aritméticas são enviadas ao BigQuery usando a API BigQuery se aparecerem em expressões na cláusula de filtragem (WHERE) da consulta do PostgreSQL:

Operadores de comparação

=, >, <, >=, <=, <>, ~~, !~~

Operadores aritméticos

+, -, *, /

Push-down de agregação

O push-down de agregação é uma otimização avançada de banco de dados que realiza cálculos, por exemplo, SUM, COUNT, AVG ou GROUP BY, o mais próximo possível da camada de armazenamento. Enquanto o push-down de filtro remove linhas desnecessárias, o push-down de agregação resume as linhas necessárias antes que o mecanismo de banco de dados as processe ainda mais.

Agregações compatíveis

As seguintes funções de agregação são enviadas ao BigQuery usando a API BigQuery, quando aplicável aos tipos de dados compatíveis:

SUM
AVG
MIN
MÁXIMO
COUNT

Custo e faturamento do BigQuery

O wrapper de dados externos do BigQuery depende do seguinte:

Preços de computação do BigQuery
Preços da API BigQuery Storage

Para mais informações, consulte Preços do BigQuery.

Limitações

O AlloyDB e o BigQuery podem usar agrupamentos diferentes, o que pode resultar em ordenação de dados diferente entre os dois sistemas. Para qualquer parte de uma consulta executada remotamente no BigQuery, o agrupamento segue as configurações do BigQuery.
As consultas que retornam uma quantidade muito grande de dados do BigQuery, após o push-down, não são otimizadas.