¿Qué es BigLake?

BigLake es un motor de almacenamiento que une Google Cloud y servicios de código abierto para crear una interfaz unificada para estadísticas avanzadas y la IA. Proporciona la base para crear un lakehouse abierto, administrado y de alto rendimiento con administración de datos automatizada y administración integrada con Apache Iceberg.

Al desacoplar el almacenamiento del procesamiento, BigLake proporciona interoperabilidad en todos los motores compatibles con Iceberg, como Apache Spark, Apache Flink, Apache Hive, Trino o BigQuery, lo que garantiza una vista coherente de tus datos.

Ventajas clave

  • Arquitectura sin servidores: BigLake elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda.
  • Administración y administración de datos unificadas: La integración con Dataplex Universal Catalog garantiza la definición y la aplicación centralizadas de las políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
  • Extensiones de almacenamiento: BigLake extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
  • Experiencia completamente administrada: Cuando se integra con BigQuery, BigLake usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia completamente administrada de transmisión, estadísticas y IA.
  • Alta disponibilidad y recuperación ante desastres: BigLake ofrece opciones para la replicación entre regiones y la recuperación ante desastres (versión preliminar) para admitir la alta disponibilidad de tus datos.

Casos de uso

  • Open lakehouse: Usa Cloud Storage como la capa de almacenamiento, y BigLake proporciona la interfaz de administración y gobernanza para los datos de Iceberg.
  • Integración analítica y transaccional: Accede a las tablas analíticas de BigLake Iceberg directamente en AlloyDB para PostgreSQL (versión preliminar) para combinar datos analíticos con cargas de trabajo transaccionales.
  • Acceso unificado: Permite que diferentes motores (Spark, Flink, BigQuery) interactúen con las mismas tablas de Iceberg con metadatos coherentes.

Interfaces de catálogo

El metastore de BigLake proporciona dos interfaces de catálogo principales para conectar tus datos en Cloud Storage y BigQuery. Para obtener más información, consulta Cómo funciona BigLake.

  • Catálogo REST de Apache Iceberg: Proporciona una interfaz REST estándar para una mayor compatibilidad con motores y herramientas de código abierto. Esta es la interfaz recomendada para las cargas de trabajo nuevas.

    Aprende a comenzar a usar este catálogo REST de Apache Iceberg con la guía de inicio rápido Usa BigLake Metastore con Spark y BigQuery a través del catálogo REST de Iceberg.

  • Catálogo personalizado de Apache Iceberg para BigQuery: Permite que motores como Spark interoperen con BigQuery. Esta interfaz es compatible con las cargas de trabajo existentes.

Interfaces y herramientas

Puedes interactuar con los recursos de BigLake a través de las siguientes herramientas:

  • La consola deGoogle Cloud : Usa la consola para crear catálogos, ver las propiedades de los catálogos, ver los registros de auditoría y configurar permisos.
  • BigQuery SQL: Usa el DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas de BigLake Iceberg.
  • Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el metastore de BigLake para leer y escribir datos.
  • API de metastore de BigLake: Usa una API de REST que sea compatible con la especificación del catálogo de REST de Iceberg.

¿Qué sigue?