Comprende los tipos y las capacidades de las tablas

Lakehouse para Apache Iceberg admite varios tipos de tablas, lo que ofrece diferentes niveles de administración, rendimiento e interoperabilidad para tu lakehouse enGoogle Cloud. Según el origen de tus datos, los requisitos del motor de escritura y las necesidades de control, puedes elegir formatos de tabla compatibles con el catálogo del tiempo de ejecución de Lakehouse o BigQuery.

Formatos de tabla admitidos

Solo se admiten las tablas de Apache Iceberg V2; no se admiten las tablas de Iceberg V1. Si tienes tablas de Iceberg V1 existentes, debes actualizarlas a la versión V2 (por ejemplo, ejecutando ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); o usando operaciones de motor similares) antes de usarlas con Lakehouse para Apache Iceberg.

Formatos de tabla por catálogo y motor

Selecciona un catálogo o un motor a continuación para obtener información sobre los formatos de tabla compatibles, la configuración del metastore, las capacidades de optimización del almacenamiento y la interoperabilidad del motor.

Catálogo de REST de Iceberg

El catálogo del entorno de ejecución de Lakehouse administra las tablas de Apache Iceberg a través del extremo del catálogo de Iceberg REST, lo que proporciona una interfaz REST estándar para una amplia compatibilidad con motores de código abierto, como Apache Spark, Apache Flink y Trino. Estas tablas se crean a partir de motores de código abierto y se almacenan en Cloud Storage. Esta opción es la mejor si deseas que los motores de código abierto administren tu flujo de trabajo de ETL y solo requieres acceso de lectura desde BigQuery.

Las funciones clave incluyen las siguientes:

  • Metastore: Catálogo de entorno de ejecución de Lakehouse.
  • Almacenamiento: Cloud Storage.
  • Optimización del almacenamiento: La administras tú o un tercero.
  • Acceso de lectura y escritura:
    • Motores de código abierto: Lectura y escritura
    • BigQuery: Solo lectura.
  • Casos de uso: Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para estadísticas avanzadas, transmisión y IA.

Hive Metastore

El catálogo de entorno de ejecución de Lakehouse administra las tablas de Apache Hive a través de un extremo de metastore de Apache Hive (HMS) optimizado para la compatibilidad con Apache Spark ExternalCatalog, lo que te permite compartir datos sin problemas en Apache Spark, Apache Hive y BigQuery. Creas estas tablas a partir de motores de código abierto y las almacenas en Cloud Storage. Esta opción es la mejor si deseas que los motores de código abierto administren tu flujo de trabajo de ETL sin necesidad de un metastore de Hive autohospedado independiente y solo requieres acceso de lectura desde BigQuery.

Las funciones clave incluyen las siguientes:

  • Metastore: Catálogo de entorno de ejecución de Lakehouse (a través de IMetastoreClient personalizado).
  • Almacenamiento: Cloud Storage (admite formatos como Parquet, ORC y Avro).
  • Optimización del almacenamiento: La administras tú o un tercero.
  • Acceso de lectura y escritura:
    • Motores de código abierto (Spark y Hive): Lectura y escritura
    • BigQuery: Solo lectura.
  • Casos de uso: Migrar cargas de trabajo existentes de Spark y Hive a un metastore sin servidores completamente administrado en Google Cloud.

BigQuery

BigQuery admite tablas de Apache Iceberg, tablas nativas y tablas externas.

  • Tablas de Apache Iceberg: Son tablas de Apache Iceberg que creas y administras desde BigQuery, y que se almacenan en Cloud Storage. Si bien los motores de código abierto pueden leerlos, BigQuery es el motor que administra los metadatos y escribe en ellos. Esta opción es la mejor si deseas que BigQuery administre por completo tu flujo de trabajo.

  • Tablas nativas: Son tablas nativas de BigQuery. Están completamente administradas y ofrecen las funciones de administración y análisis más avanzadas. Esta opción es mejor para las cargas de trabajo que no son de Iceberg.

  • Tablas externas: Son construcciones específicas de BigQuery para los datos almacenados en Cloud Storage, Amazon S3 o Azure Blob Storage. Los datos y los metadatos se administran por sí mismos, y BigQuery solo tiene acceso de lectura. Elige esta opción para los datos que quieras administrar directamente en un catálogo o almacenamiento de terceros.

Comparar tipos de tablas

Usa el siguiente gráfico para comparar los tipos de tablas entre el catálogo del entorno de ejecución de Lakehouse y BigQuery.

Lakehouse

Apache Iceberg (GA) Apache Hive (vista previa)
Metastore Catálogo de entorno de ejecución de Lakehouse Catálogo de entorno de ejecución de Lakehouse
Almacenamiento Cloud Storage Cloud Storage
Optimización del almacenamiento Administrado por el cliente o por terceros Administrado por el cliente o por terceros
Lectura y escritura Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Operaciones avanzadas Ninguno Ninguna
Casos de uso Open lakehouse Migrar cargas de trabajo existentes de Spark y Hive a un metastore sin servidores completamente administrado

BigQuery

Iceberg administrado por BigQuery Tablas externas Tablas estándar
Metastore BigQuery Metastore externo o autoalojado BigQuery
Almacenamiento Cloud Storage Cloud Storage, Amazon S3 y Azure BigQuery
Optimización del almacenamiento Administrado por Google Administrado por el cliente o por terceros Administrado por Google
Lectura y escritura Motores de código abierto (solo lectura con bibliotecas de Iceberg, interoperabilidad de lectura y escritura con la API de BigQuery Storage)

BigQuery (lectura y escritura)

Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (interoperabilidad de lectura y escritura con la API de BigQuery Storage)

BigQuery (lectura y escritura)

Operaciones avanzadas Transmisión de alta capacidad de procesamiento con la API de BigQuery Storage Write, la captura de datos modificados (CDC) y las transacciones de varias instrucciones Ninguno Transmisión de alta capacidad de procesamiento con la API de BigQuery Storage Write, la captura de datos modificados (CDC) y las transacciones de varias instrucciones
Casos de uso Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para análisis avanzados, transmisión y IA Tablas de etapa intermedia para cargas de BigQuery, tablas heredadas de solo consulta Almacenamiento de nivel empresarial para análisis avanzados, transmisión y la IA

¿Qué sigue?