Cloud Data Fusion proporciona un complemento de receptor de Dataplex Universal Catalog para ingerir datos en cualquiera de los recursos compatibles con Dataplex Universal Catalog.
Antes de empezar
- Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion 6.6 o versiones posteriores. Para obtener más información, consulta Crear una instancia pública de Cloud Data Fusion.
- El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se ingieren los datos deben formar parte de un lake de Universal Catalog de Dataplex.
- Para que se puedan leer datos de entidades de Cloud Storage, Dataproc Metastore debe estar asociado al lago.
- No se admiten datos CSV en entidades de Cloud Storage.
- En el proyecto de Dataplex Universal Catalog, habilita el acceso privado de Google en la subred, que normalmente está configurado como
default
, o configurainternal_ip_only
comofalse
.
Roles obligatorios
Para obtener los permisos que necesitas para gestionar roles, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en el agente de servicio de Dataproc y en el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Desarrollador de Dataplex (
roles/dataplex.developer
) -
Lector de datos de Dataplex (
roles/dataplex.dataReader
) -
Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lector de metadatos de Dataplex (
roles/dataplex.metadataReader
)
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.
Añadir el complemento a tu flujo de trabajo
En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.
En esta página puedes gestionar tus instancias.
Para abrir la instancia, haz clic en Ver instancia.
Ve a la página Studio (Estudio), despliega el menú Sink (Receptor) y haz clic en Dataplex.
Configurar el complemento
Después de añadir este complemento a tu canalización en la página Studio, haz clic en el receptor del catálogo universal de Dataplex para configurar y guardar sus propiedades.
Para obtener más información sobre las configuraciones, consulta la referencia de Dataplex Sink.
Opcional: Empezar con una canalización de ejemplo
Hay disponibles flujos de procesamiento de ejemplo, como un flujo de procesamiento de una fuente de SAP a un receptor de Dataplex Universal Catalog y un flujo de procesamiento de una fuente de Dataplex Universal Catalog a un receptor de BigQuery.
Para usar un flujo de procesamiento de ejemplo, abra su instancia en la interfaz de usuario de Cloud Data Fusion, haga clic en Hub > Pipelines y seleccione uno de los flujos de procesamiento de catálogo universal de Dataplex. Se abrirá un cuadro de diálogo para ayudarte a crear la pipeline.
Ejecutar un flujo de procesamiento
Después de desplegar el flujo de procesamiento, ábrelo en la página Studio de Cloud Data Fusion.
Haga clic en Configurar > Recursos.
Opcional: Cambia la CPU del ejecutor y la memoria en función del tamaño general de los datos y del número de transformaciones que se utilicen en tu canalización.
Haz clic en Guardar.
Para iniciar la canalización de datos, haga clic en Ejecutar.
Siguientes pasos
- Procesa datos con Cloud Data Fusion mediante el complemento de fuente de Dataplex Universal Catalog.