Importa tablas externas de Iceberg al catálogo de entornos de ejecución de Lakehouse con Dataflow

Formatos de tabla compatibles

Solo se admiten las tablas de Apache Iceberg V2; no se admiten las tablas de Iceberg V1. Si tienes tablas de Iceberg V1 existentes, debes actualizarlas a la V2 (por ejemplo, ejecutando ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); o usando operaciones de motor similares) antes de importarlas al catálogo de entorno de ejecución de Lakehouse.

Es posible que tu caso de uso requiera que conectes una tabla externa del catálogo de REST de Iceberg (IRC) a una tabla existente de Lakehouse para Apache Iceberg. La IU del compilador de trabajos de Dataflow te permite compilar una canalización que migra tus tablas externas del catálogo de Iceberg de código abierto a Lakehouse de forma con poco código o sin código. Este proceso te permite consolidar datos en un formato unificado de Iceberg administrado por Lakehouse para el análisis entre motores.

Usa los siguientes detalles de conexión para importar datos de catálogos externos de Iceberg.

Antes de comenzar

Para importar datos, necesitas lo siguiente:

  1. Información de conexión para el catálogo de REST de Iceberg externo. Por ejemplo: nombre del catálogo, espacio de nombres, nombre de la tabla, URI de la cuenta y rol para acceder al catálogo.
  2. Un catálogo, un espacio de nombres y una tabla de Iceberg de Lakehouse para importar los datos.

Asistencia y limitaciones

La importación de datos de catálogos externos de Iceberg a Lakehouse para Apache Iceberg con Dataflow tiene las siguientes limitaciones:

  • Esta función admite la lectura de proveedores de Iceberg disponibles de forma externa que admiten IRC (catálogo de REST de Iceberg) en Lakehouse. No se admiten otros tipos de catálogos de Iceberg.
  • Esta función admite canalizaciones por lotes y de transmisión.

Importa una tabla externa del catálogo de Iceberg

Para importar una tabla externa del catálogo de Iceberg a Lakehouse para Apache Iceberg, completa los siguientes pasos:

  1. En la Google Cloud consola, ve a la página Metastore de Lakehouse.

    Ir al catálogo de entorno de ejecución de Lakehouse

  2. Selecciona el catálogo, el espacio de nombres y la tabla a los que deseas importar datos.

  3. En la página Detalles de la tabla, haz clic en Importar tabla.

  4. En el cuadro de diálogo Import configuration, selecciona Import a table from an Apache Iceberg REST Catalog into Lakehouse (Batch).

    Se abrirá la página Job builder de Dataflow.

  5. En la sección Fuentes , haz lo siguiente:

    1. Para expandir el panel de origen de la tabla de Iceberg, haz clic en la flecha de expansión.

    2. En el campo Tabla de Iceberg, ingresa el identificador de la tabla de Apache Iceberg.

    3. En el campo Nombre del catálogo, ingresa el nombre del catálogo.

    4. En el campo Filtro, ingresa el filtro de Iceberg que se usará. Por ejemplo, id > 5.

    5. Opcional: Para especificar los cambios en las columnas de la tabla de origen, usa las secciones Conservar columnas o Quitar columnas.

    6. En la lista Tipo de catálogo de la sección Propiedades del catálogo , selecciona el tipo de catálogo.

    7. En el campo URI del catálogo, ingresa el URI del catálogo. Por ejemplo, http://localhost:8181.

    8. En el campo Nombre del almacén, ingresa el nombre del catálogo.

      Para algunos proveedores externos del catálogo de REST de Iceberg, el almacén se abstrae y el nombre del catálogo se proporciona como el nombre del almacén.

    9. En la lista Tipo de autenticación, selecciona el tipo de autenticación. Por ejemplo, OAUTH2.

  6. Opcional: En la sección Transformaciones, agrega transformaciones a los datos de origen.

  7. En la sección Receptor , haz lo siguiente:

    1. Opcional: Revisa el panel del receptor de la tabla de Lakehouse. La información de este panel, como la tabla de Lakehouse, el nombre del catálogo y la ubicación del almacén, suele completarse previamente.
  8. En la sección Opciones de Dataflow, haz clic en Ejecutar trabajo.

¿Qué sigue?