Cómo transferir datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de receptor de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) para ingerir datos en cualquiera de los recursos compatibles con Knowledge Catalog

Antes de comenzar

  • Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior. Para obtener más información, consulta Crea una instancia pública de Cloud Data Fusion.
  • El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se ingieren los datos deben formar parte de un lake de Knowledge Catalog.
  • Para que los datos se lean de las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
  • No se admiten datos CSV en entidades de Cloud Storage.
  • En el proyecto de Knowledge Catalog, habilita el Acceso privado a Google en la subred, que suele establecerse en default, o establece internal_ip_only en false.

Roles obligatorios

Para obtener los permisos que necesitas para administrar roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Agrega el complemento a tu canalización

  1. En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    Esta página te permite administrar tus instancias.

  2. Para abrir tu instancia, haz clic en Ver instancia.

  3. Ve a la página Studio , expande el menú Receptor y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Knowledge Catalog para configurar y guardar sus propiedades.

Para obtener más información sobre las configuraciones, consulta la referencia del receptor de Dataplex.

Opcional: Comienza con una canalización de muestra

Hay canalizaciones de muestra disponibles, incluidas una canalización de origen de SAP a receptor de Knowledge Catalog y una canalización de origen de Knowledge Catalog a receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones de Knowledge Catalog. Se abrirá un diálogo para ayudarte a crear la canalización.

Ejecuta tu canalización

  1. Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.

  2. Haz clic en Configurar > Recursos.

  3. Opcional: Cambia la CPU del ejecutor y la memoria según el tamaño general de los datos y la cantidad de transformaciones usadas en tu canalización.

  4. Haz clic en Guardar.

  5. Para iniciar la canalización de datos, haz clic en Ejecutar.

¿Qué sigue?