Ingerir datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de receptor de Dataplex Universal Catalog para ingerir datos en cualquiera de los recursos compatibles con Dataplex Universal Catalog.

Antes de empezar

  • Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion 6.6 o versiones posteriores. Para obtener más información, consulta Crear una instancia pública de Cloud Data Fusion.
  • El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se ingieren los datos deben formar parte de un lake de Universal Catalog de Dataplex.
  • Para que se puedan leer datos de entidades de Cloud Storage, Dataproc Metastore debe estar asociado al lago.
  • No se admiten datos CSV en entidades de Cloud Storage.
  • En el proyecto de Dataplex Universal Catalog, habilita el acceso privado de Google en la subred, que normalmente está configurado como default, o configura internal_ip_only como false.

Roles obligatorios

Para obtener los permisos que necesitas para gestionar roles, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en el agente de servicio de Dataproc y en el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Añadir el complemento a tu flujo de trabajo

  1. En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    En esta página puedes gestionar tus instancias.

  2. Para abrir la instancia, haz clic en Ver instancia.

  3. Ve a la página Studio (Estudio), despliega el menú Sink (Receptor) y haz clic en Dataplex.

Configurar el complemento

Después de añadir este complemento a tu canalización en la página Studio, haz clic en el receptor del catálogo universal de Dataplex para configurar y guardar sus propiedades.

Para obtener más información sobre las configuraciones, consulta la referencia de Dataplex Sink.

Opcional: Empezar con una canalización de ejemplo

Hay disponibles flujos de procesamiento de ejemplo, como un flujo de procesamiento de una fuente de SAP a un receptor de Dataplex Universal Catalog y un flujo de procesamiento de una fuente de Dataplex Universal Catalog a un receptor de BigQuery.

Para usar un flujo de procesamiento de ejemplo, abra su instancia en la interfaz de usuario de Cloud Data Fusion, haga clic en Hub > Pipelines y seleccione uno de los flujos de procesamiento de catálogo universal de Dataplex. Se abrirá un cuadro de diálogo para ayudarte a crear la pipeline.

Ejecutar un flujo de procesamiento

  1. Después de desplegar el flujo de procesamiento, ábrelo en la página Studio de Cloud Data Fusion.

  2. Haga clic en Configurar > Recursos.

  3. Opcional: Cambia la CPU del ejecutor y la memoria en función del tamaño general de los datos y del número de transformaciones que se utilicen en tu canalización.

  4. Haz clic en Guardar.

  5. Para iniciar la canalización de datos, haga clic en Ejecutar.

Siguientes pasos