A partir del 10 de abril de 2026, Dataplex Universal Catalog ahora se llama Knowledge Catalog. Los nombres de la API, la biblioteca cliente, la CLI y IAM no cambiaron. Para obtener más información, consulta Presentamos Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cómo transferir datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de receptor de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) para ingerir datos en cualquiera de los recursos compatibles con Knowledge Catalog

Antes de comenzar

Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior. Para obtener más información, consulta Crea una instancia pública de Cloud Data Fusion.
El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se ingieren los datos deben formar parte de un lake de Knowledge Catalog.
Para que los datos se lean de las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
No se admiten datos CSV en entidades de Cloud Storage.
En el proyecto de Knowledge Catalog, habilita el Acceso privado a Google en la subred, que suele establecerse en default, o establece internal_ip_only en false.

Roles obligatorios

Para obtener los permisos que necesitas para administrar roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Desarrollador de Dataplex (roles/dataplex.developer)
Lector de datos de Dataplex (roles/dataplex.dataReader)
Usuario de metadatos de Dataproc Metastore (roles/metastore.metadataUser)
Agente de servicio de Cloud Dataplex (roles/dataplex.serviceAgent)
Lector de metadatos de Dataplex (roles/dataplex.metadataReader)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Agrega el complemento a tu canalización

En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.

Ir a Instancias

Esta página te permite administrar tus instancias.
Para abrir tu instancia, haz clic en Ver instancia.
Ve a la página Studio , expande el menú Receptor y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Knowledge Catalog para configurar y guardar sus propiedades.

Para obtener más información sobre las configuraciones, consulta la referencia del receptor de Dataplex.

Opcional: Comienza con una canalización de muestra

Hay canalizaciones de muestra disponibles, incluidas una canalización de origen de SAP a receptor de Knowledge Catalog y una canalización de origen de Knowledge Catalog a receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones de Knowledge Catalog. Se abrirá un diálogo para ayudarte a crear la canalización.

Ejecuta tu canalización

Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.
Haz clic en Configurar > Recursos.
Opcional: Cambia la CPU del ejecutor y la memoria según el tamaño general de los datos y la cantidad de transformaciones usadas en tu canalización.
Haz clic en Guardar.
Para iniciar la canalización de datos, haz clic en Ejecutar.

¿Qué sigue?

Procesa datos con Cloud Data Fusion mediante el complemento de origen de Knowledge Catalog.

Cómo transferir datos con Cloud Data Fusion Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.