Cloud Data Fusion proporciona un complemento de receptor de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) para ingerir datos en cualquiera de los recursos compatibles con Knowledge Catalog
Antes de comenzar
- Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior. Para obtener más información, consulta Crea una instancia pública de Cloud Data Fusion.
- El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se ingieren los datos deben formar parte de un lake de Knowledge Catalog.
- Para que los datos se lean de las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
- No se admiten datos CSV en entidades de Cloud Storage.
- En el proyecto de Knowledge Catalog, habilita el Acceso privado a Google en
la subred, que suele establecerse en
default, o estableceinternal_ip_onlyenfalse.
Roles obligatorios
Para obtener los permisos que
necesitas para administrar roles,
pídele a tu administrador que te otorgue los
siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
- Desarrollador de Dataplex (
roles/dataplex.developer) - Lector de datos de Dataplex (
roles/dataplex.dataReader) - Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser) - Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent) - Lector de metadatos de Dataplex (
roles/dataplex.metadataReader)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Agrega el complemento a tu canalización
En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.
Esta página te permite administrar tus instancias.
Para abrir tu instancia, haz clic en Ver instancia.
Ve a la página Studio , expande el menú Receptor y haz clic en Dataplex.
Cómo configurar el complemento
Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Knowledge Catalog para configurar y guardar sus propiedades.
Para obtener más información sobre las configuraciones, consulta la referencia del receptor de Dataplex.
Opcional: Comienza con una canalización de muestra
Hay canalizaciones de muestra disponibles, incluidas una canalización de origen de SAP a receptor de Knowledge Catalog y una canalización de origen de Knowledge Catalog a receptor de BigQuery.
Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones de Knowledge Catalog. Se abrirá un diálogo para ayudarte a crear la canalización.
Ejecuta tu canalización
Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.
Haz clic en Configurar > Recursos.
Opcional: Cambia la CPU del ejecutor y la memoria según el tamaño general de los datos y la cantidad de transformaciones usadas en tu canalización.
Haz clic en Guardar.
Para iniciar la canalización de datos, haz clic en Ejecutar.
¿Qué sigue?
- Procesa datos con Cloud Data Fusion mediante el complemento de origen de Knowledge Catalog.