Lakehouse para Apache Iceberg admite varios tipos de tablas, lo que ofrece diferentes niveles de administración, rendimiento e interoperabilidad para tu lakehouse enGoogle Cloud. Según el origen de tus datos, los requisitos del motor de escritura y las necesidades de control, puedes elegir formatos de tabla compatibles con el catálogo del tiempo de ejecución de Lakehouse o BigQuery.
Formatos de tabla admitidos
Solo se admiten las tablas de Apache Iceberg V2; no se admiten las tablas de Iceberg V1. Si tienes tablas de Iceberg V1 existentes, debes actualizarlas a la versión V2 (por ejemplo, ejecutando ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); o usando operaciones de motor similares) antes de usarlas con Lakehouse para Apache Iceberg.
Formatos de tabla por catálogo y motor
Selecciona un catálogo o un motor a continuación para obtener información sobre los formatos de tabla compatibles, la configuración del metastore, las capacidades de optimización del almacenamiento y la interoperabilidad del motor.
Catálogo de REST de Iceberg
El catálogo del entorno de ejecución de Lakehouse administra las tablas de Apache Iceberg a través del extremo del catálogo de Iceberg REST, lo que proporciona una interfaz REST estándar para una amplia compatibilidad con motores de código abierto, como Apache Spark, Apache Flink y Trino. Estas tablas se crean a partir de motores de código abierto y se almacenan en Cloud Storage. Esta opción es la mejor si deseas que los motores de código abierto administren tu flujo de trabajo de ETL y solo requieres acceso de lectura desde BigQuery.
Las funciones clave incluyen las siguientes:
- Metastore: Catálogo de entorno de ejecución de Lakehouse.
- Almacenamiento: Cloud Storage.
- Optimización del almacenamiento: La administras tú o un tercero.
- Acceso de lectura y escritura:
- Motores de código abierto: Lectura y escritura
- BigQuery: Solo lectura.
- Casos de uso: Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para estadísticas avanzadas, transmisión y IA.
Hive Metastore
El catálogo de entorno de ejecución de Lakehouse administra las tablas de Apache Hive a través de un extremo de metastore de Apache Hive (HMS) optimizado para la compatibilidad con Apache Spark ExternalCatalog, lo que te permite compartir datos sin problemas en Apache Spark, Apache Hive y BigQuery. Creas estas tablas a partir de motores de código abierto y las almacenas en Cloud Storage. Esta opción es la mejor si deseas que los motores de código abierto administren tu flujo de trabajo de ETL sin necesidad de un metastore de Hive autohospedado independiente y solo requieres acceso de lectura desde BigQuery.
Las funciones clave incluyen las siguientes:
- Metastore: Catálogo de entorno de ejecución de Lakehouse (a través de
IMetastoreClientpersonalizado). - Almacenamiento: Cloud Storage (admite formatos como Parquet, ORC y Avro).
- Optimización del almacenamiento: La administras tú o un tercero.
- Acceso de lectura y escritura:
- Motores de código abierto (Spark y Hive): Lectura y escritura
- BigQuery: Solo lectura.
- Casos de uso: Migrar cargas de trabajo existentes de Spark y Hive a un metastore sin servidores completamente administrado en Google Cloud.
BigQuery
BigQuery admite tablas de Apache Iceberg, tablas nativas y tablas externas.
Tablas de Apache Iceberg: Son tablas de Apache Iceberg que creas y administras desde BigQuery, y que se almacenan en Cloud Storage. Si bien los motores de código abierto pueden leerlos, BigQuery es el motor que administra los metadatos y escribe en ellos. Esta opción es la mejor si deseas que BigQuery administre por completo tu flujo de trabajo.
Tablas nativas: Son tablas nativas de BigQuery. Están completamente administradas y ofrecen las funciones de administración y análisis más avanzadas. Esta opción es mejor para las cargas de trabajo que no son de Iceberg.
Tablas externas: Son construcciones específicas de BigQuery para los datos almacenados en Cloud Storage, Amazon S3 o Azure Blob Storage. Los datos y los metadatos se administran por sí mismos, y BigQuery solo tiene acceso de lectura. Elige esta opción para los datos que quieras administrar directamente en un catálogo o almacenamiento de terceros.
Comparar tipos de tablas
Usa el siguiente gráfico para comparar los tipos de tablas entre el catálogo del entorno de ejecución de Lakehouse y BigQuery.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (vista previa) | |
|---|---|---|
| Metastore | Catálogo de entorno de ejecución de Lakehouse | Catálogo de entorno de ejecución de Lakehouse |
| Almacenamiento | Cloud Storage | Cloud Storage |
| Optimización del almacenamiento | Administrado por el cliente o por terceros | Administrado por el cliente o por terceros |
| Lectura y escritura |
Motores de código abierto (lectura y escritura) BigQuery (solo lectura) |
Motores de código abierto (lectura y escritura) BigQuery (solo lectura) |
| Operaciones avanzadas | Ninguno | Ninguna |
| Casos de uso | Open lakehouse | Migrar cargas de trabajo existentes de Spark y Hive a un metastore sin servidores completamente administrado |
BigQuery
| Iceberg administrado por BigQuery | Tablas externas | Tablas estándar | |
|---|---|---|---|
| Metastore | BigQuery | Metastore externo o autoalojado | BigQuery |
| Almacenamiento | Cloud Storage | Cloud Storage, Amazon S3 y Azure | BigQuery |
| Optimización del almacenamiento | Administrado por Google | Administrado por el cliente o por terceros | Administrado por Google |
| Lectura y escritura |
Motores de código abierto (solo lectura con bibliotecas de Iceberg, interoperabilidad de lectura y escritura con la API de BigQuery Storage) BigQuery (lectura y escritura) |
Motores de código abierto (lectura y escritura) BigQuery (solo lectura) |
Motores de código abierto (interoperabilidad de lectura y escritura con la API de BigQuery Storage) BigQuery (lectura y escritura) |
| Operaciones avanzadas | Transmisión de alta capacidad de procesamiento con la API de BigQuery Storage Write, la captura de datos modificados (CDC) y las transacciones de varias instrucciones | Ninguno | Transmisión de alta capacidad de procesamiento con la API de BigQuery Storage Write, la captura de datos modificados (CDC) y las transacciones de varias instrucciones |
| Casos de uso | Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para análisis avanzados, transmisión y IA | Tablas de etapa intermedia para cargas de BigQuery, tablas heredadas de solo consulta | Almacenamiento de nivel empresarial para análisis avanzados, transmisión y la IA |
¿Qué sigue?
Obtén más información para administrar tablas de Apache Iceberg.
Obtén información para importar tablas externas de Iceberg con Dataflow.
Obtén más información para usar la federación de catálogos con BigQuery.