O Lakehouse para Apache Iceberg é um mecanismo de armazenamento de alto desempenho projetado para criar data lakehouses abertos. Ao integrar o formato de tabela aberta do Apache Iceberg com o armazenamento totalmente gerenciado e de nível empresarial no Google Cloud, ele oferece uma interface unificada para análise avançada e IA.
Para gerenciar metadados de tabelas abertas, o Lakehouse para Apache Iceberg usa o catálogo de ambiente de execução do Lakehouse. Esse serviço de metadados sem servidor totalmente gerenciado oferece uma única fonte de verdade em sistemas diferentes, centralizando a descoberta e removendo a necessidade de sincronizar metadados entre repositórios diferentes.
Ao desacoplar o armazenamento da computação, o Lakehouse do Google Cloud garante interoperabilidade perfeita entre sistemas analíticos e transacionais. Essa arquitetura permite que vários mecanismos, incluindo Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, acessem uma única fonte de verdade, eliminando a duplicação de dados e garantindo insights consistentes.
Principais vantagens
- Arquitetura sem servidor:o Lakehouse do Google Cloud elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda. Para cargas de trabalho de computação, as sessões interativas e em lote sem servidor removem a disputa de recursos entre jobs e automatizam a manutenção da infraestrutura.
- Gerenciamento e governança de dados unificados:a integração com o Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos, além de permitir pesquisa semântica, linhagem de dados e verificações de qualidade.
- Extensões de armazenamento:o Lakehouse do Google Cloud amplia os recursos de gerenciamento do Cloud Storage para incluir recursos como escalonamento automático de classes e chaves de criptografia gerenciadas pelo cliente (CMEK).
- Experiência totalmente gerenciada:quando integrado ao BigQuery, o lakehouse do Google Cloud usa streaming de alta capacidade e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
- Alta disponibilidade e recuperação de desastres:o Lakehouse do Google Cloud oferece opções de replicação entre regiões e recuperação de desastres (prévia) para oferecer suporte à alta disponibilidade dos seus dados.
Casos de uso
- Lakehouse aberto:use o Cloud Storage como camada de armazenamento, e o Lakehouse do Google Cloud fornece a interface de gerenciamento e governança para dados do Apache Iceberg.
- Integração analítica e transacional:acesse tabelas analíticas do Apache Iceberg diretamente no AlloyDB para PostgreSQL (pré-lançamento) para combinar dados analíticos com cargas de trabalho transacionais.
- Acesso unificado:permite que diferentes mecanismos (Apache Spark, Apache Flink, BigQuery) interajam com as mesmas tabelas do Apache Iceberg com metadados consistentes.
- Análise e IA entre nuvens:use o Lakehouse entre nuvens (prévia) para sincronizar metadados de outros provedores de nuvem, permitindo consultar dados com o BigQuery ou mecanismos externos de código aberto pelo endpoint do catálogo REST do Apache Iceberg, tudo sem migrar os dados.
- Exploração de conjuntos de dados públicos:consulte facilmente conjuntos de dados públicos de alta qualidade usando o endpoint do catálogo REST do Apache Iceberg sem gerenciar a infraestrutura.
- Metastore do Hive: conecte mecanismos de código aberto, como Apache Spark e Apache Hive, ao catálogo de ambientes de execução do Lakehouse usando o catálogo do Hive (prévia). Isso elimina a sobrecarga operacional de manter um metastore do Hive (HMS) auto-hospedado, permitindo o compartilhamento de dados sem problemas e consultas diretas de tabelas no BigQuery.
Interfaces e ferramentas
É possível interagir com os recursos do data lake do Google Cloud usando as seguintes ferramentas:
- Google Cloud console: use o console para criar catálogos, ver propriedades e registros de auditoria e configurar permissões.
- SQL do BigQuery:use a DDL (linguagem de definição de dados) do SQL padrão para criar e gerenciar tabelas do Apache Iceberg e tabelas externas integradas ao catálogo de tempo de execução do Lakehouse.
- Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o catálogo de ambientes de execução do Lakehouse para ler e gravar dados.
- Ambientes de desenvolvimento integrado (IDEs) e notebooks:use notebooks interativos do Apache Spark e extensões de IDE, como o Data Agent Kit (DAK) para VS Code, para autenticar no Google Cloud, criar código de forma interativa e gerenciar sessões de notebook diretamente no ambiente de desenvolvimento.
- Ferramentas de orquestração e MLOps:integre pipelines de lote sem servidor e operações de catálogo com fluxos de trabalho de orquestração usando o serviço gerenciado para Apache Airflow (antigo Cloud Composer) e o Kubeflow Pipelines na Vertex AI.
- API do catálogo de ambientes de execução do Lakehouse:use o endpoint do catálogo REST do Apache Iceberg para interagir com o serviço usando ferramentas compatíveis com a especificação REST aberta do Apache Iceberg.
- Suporte a tabelas do Apache Iceberg:somente tabelas do Apache Iceberg V2 são aceitas. As tabelas do Iceberg V1 não são compatíveis. Se você tiver tabelas do Iceberg V1, faça upgrade para a V2 (por exemplo, executando
ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2');ou usando operações de mecanismo semelhantes) antes de usá-las com o Lakehouse para Apache Iceberg.
A seguir
- Entenda a arquitetura do Lakehouse do Google Cloud.