Descripción general de las tablas de BigLake

En este documento, se describen los diferentes formatos de tabla disponibles cuando se compila un lakehouse en BigLake y se te ayuda a elegir el adecuado para tus necesidades.

Cuando creas un lakehouse en BigLake, puedes elegir entre varios formatos de tablas que ofrecen diferentes niveles de administración, rendimiento e interoperabilidad. Tu elección dependerá de dónde provienen tus datos, qué motores deseas usar para la escritura y la transformación, y cuánto control necesitas sobre el almacenamiento y los metadatos.

Formatos de tabla

Cuando compilas un lakehouse en BigLake, tienes las siguientes opciones para el formato de tus tablas:

  • Las tablas de BigLake Iceberg son tablas de Iceberg que creas a partir de motores de código abierto y almacenas en Cloud Storage. Al igual que todas las tablas que usan el metastore de BigLake, los motores de código abierto y BigQuery pueden leerlas. Sin embargo, solo los motores de código abierto pueden escribir en él. Esta opción es la mejor si deseas que los motores de código abierto administren tu flujo de trabajo de ETL.
  • Las tablas de BigLake Iceberg en BigQuery son tablas de Iceberg que creas desde BigQuery y almacenas en Cloud Storage. Al igual que todas las tablas que usan el metastore de BigLake, los motores de código abierto y BigQuery pueden leerlas. Sin embargo, BigQuery es el único motor que puede escribir directamente en ellos. Esta opción es la mejor si deseas que BigQuery administre por completo tu flujo de trabajo de extracción, transformación y carga (ETL).
  • Las tablas estándar de BigQuery son completamente administradas por BigQuery y tienen las funciones de administración y análisis de datos más avanzadas. Aún puedes conectar estas tablas a BigLake Metastore. Esta opción es la mejor para las tablas que no son de Iceberg.
  • Las tablas externas son tablas que se encuentran fuera del metastore de BigLake. Los datos y los metadatos de estas tablas se administran por completo, por lo que dependes totalmente de las capacidades de los formatos de tablas abiertas (como Iceberg, Apache Hudi o Delta Lake). BigQuery solo puede leer desde estas tablas. Elige esta opción para los datos y los metadatos que deseas administrar por tu cuenta en un catálogo de terceros.

Usa el siguiente gráfico para comparar las opciones de formato de la tabla:

Tablas externas Tablas de BigLake Iceberg Tablas de BigLake Iceberg en BigQuery Tablas estándar de BigQuery
Metastore Metastore externo o autoalojado BigLake Metastore BigLake Metastore BigQuery
Almacenamiento Cloud Storage, Amazon S3 y Azure Cloud Storage Cloud Storage BigQuery
Optimización del almacenamiento Administrado por el cliente o por terceros Administrado por el cliente o por terceros Administrado por Google Administrado por Google
Lectura y escritura Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (solo lectura con bibliotecas de Iceberg, interoperabilidad de lectura y escritura con la API de BigQuery Storage)

BigQuery (lectura y escritura)

Motores de código abierto (interoperabilidad de lectura y escritura con la API de BigQuery Storage)

BigQuery (lectura y escritura)

Casos de uso Tablas de etapa intermedia para cargas de BigQuery, tablas heredadas de solo consulta Open lakehouse Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para análisis, transmisión y IA avanzados Almacenamiento de nivel empresarial para análisis avanzados, transmisión y la IA