Descripción general de las tablas de BigLake para Apache Iceberg en BigQuery

Las tablas de BigLake para Apache Iceberg en BigQuery (en adelante, tablas de BigLake Iceberg en BigQuery) proporcionan la base para compilar lakehouses de formato abierto en Google Cloud. Las tablas de BigLake Iceberg en BigQuery ofrecen la misma experiencia completamente administrada que las tablas estándar de BigQuery, pero almacenan datos en buckets de almacenamiento que pertenecen al cliente. Las tablas de BigLake Iceberg en BigQuery admiten el formato de tabla de Iceberg abierto para una mejor interoperabilidad con los motores de procesamiento de código abierto y de terceros en una sola copia de los datos.

Descripción general de las funciones

Las tablas de BigLake Iceberg en BigQuery admiten las siguientes funciones:

Arquitectura

Las tablas de BigLake Iceberg en BigQuery brindan la comodidad de la administración de recursos de BigQuery a las tablas que residen en tus propios buckets de nube. Puedes usar BigQuery y motores de procesamiento de código abierto en estas tablas sin mover los datos fuera de los buckets que controlas. Debes configurar un bucket de Cloud Storage antes de comenzar a usar las tablas de BigLake Iceberg en BigQuery.

Las tablas de BigLake Iceberg en BigQuery utilizan BigLake Metastore como el metastore unificado de tiempo de ejecución para todos los datos de Iceberg. BigLake Metastore proporciona una sola fuente de información para administrar los metadatos de varios motores y permite la interoperabilidad entre motores.

En el siguiente diagrama, se muestra la arquitectura de las tablas administradas en un nivel alto:

Diagrama de arquitectura de las tablas de BigLake Iceberg en BigQuery.

Esta administración de tablas tiene las siguientes implicaciones en tu bucket:

  • BigQuery crea archivos de datos nuevos en el bucket en respuesta a solicitudes de escritura y optimizaciones de almacenamiento en segundo plano, como instrucciones DML y transmisión.
  • Cuando borras una tabla administrada en BigQuery, BigQuery recopila los archivos de datos asociados en Cloud Storage después del vencimiento del período de viaje en el tiempo.

Crear una tabla de BigLake Iceberg en BigQuery es similar a crear tablas de BigQuery. Debido a que almacena datos en formatos abiertos en Cloud Storage, debes hacer lo siguiente:

  • Especificar la conexión de recursos de Cloud con WITH CONNECTION para configurar las credenciales de conexión de BigLake y acceder a Cloud Storage.
  • Especifica el formato de archivo del almacenamiento de datos como PARQUET con la instrucción file_format = PARQUET.
  • Especifica el formato de tabla de metadatos de código abierto como ICEBERG con la declaración table_format = ICEBERG.

¿Qué sigue?