Crea una canalización de datos
En esta guía de inicio rápido, se muestra cómo hacer lo siguiente:
- Crea una instancia de Cloud Data Fusion.
- Implementa una canalización de muestra que se proporciona con tu instancia de Cloud Data Fusion. La canalización hace lo siguiente:
- Lee un archivo JSON que contiene los datos de bestseller de NYT de Cloud Storage.
- Ejecuta transformaciones en el archivo para analizar y limpiar los datos.
- Carga en BigQuery los libros mejor calificados que se agregaron durante la última semana y que cuestan menos de $25.
Antes de comenzar
Completa los siguientes pasos antes de crear una canalización de datos.
Configura tu proyecto
- Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Roles obligatorios
Para obtener los permisos que
necesitas para crear una instancia de Cloud Data Fusion y administrar canalizaciones,
pídele a tu administrador que te otorgue el rol de IAM de
administrador de Cloud Data Fusion (roles/datafusion.admin)
en el proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Para asegurarte de que la cuenta de servicio predeterminada de Compute Engine tenga los permisos necesarios para ejecutar el trabajo de Dataproc, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio predeterminada de Compute Engine en tu proyecto:
-
Trabajador de Dataproc (
roles/dataproc.worker) -
Ejecutor de Cloud Data Fusion (
roles/datafusion.runner)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Es posible que tu administrador también pueda otorgarle los permisos necesarios a la cuenta de servicio predeterminada de Compute Engine a través de roles personalizados o de otros roles predefinidos.
Cree una instancia de Cloud Data Fusion
- Haga clic en Crear una instancia.
- Ingresa un Nombre de instancia.
- Ingresa una Descripción para tu instancia.
- Ingresa la región en la que se creará la instancia.
- Elige la versión de Cloud Data Fusion que deseas usar.
- Elige la edición de Cloud Data Fusion.
- En las versiones de Cloud Data Fusion 6.2.3 y posteriores, en el campo Autorización, elige la cuenta de servicio de Dataproc para usar en la ejecución de tu canalización de Cloud Data Fusion en Dataproc. Se preselecciona como valor predeterminado la cuenta de Compute Engine.
- Haga clic en Crear. El proceso de creación de la instancia toma hasta 30 minutos en completarse. Mientras Cloud Data Fusion crea la instancia, se muestra una rueda de progreso junto al nombre de la instancia en la página Instances. Cuando se completa, se convierte en una marca de verificación verde y se indica que puedes comenzar a usar la instancia.
Navega por la interfaz web de Cloud Data Fusion
Cuando usas Cloud Data Fusion, usas la Google Cloud consola y la interfaz web independiente de Cloud Data Fusion.
En la consola de Google Cloud , puedes hacer lo siguiente:
- Crea un proyecto de la consola de Google Cloud
- Crea y borra instancias de Cloud Data Fusion
- Consulta los detalles de la instancia de Cloud Data Fusion
En la interfaz web de Cloud Data Fusion, puedes usar varias páginas, como Studio o Wrangler, para usar las funciones de Cloud Data Fusion.
Para navegar por la interfaz de Cloud Data Fusion, sigue estos pasos:
- En la consola de Google Cloud , abre la página Instancias.
- En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia.
- En la interfaz web de Cloud Data Fusion, usa el panel de navegación izquierdo para navegar a la página que necesites.
Implementa una canalización de muestra
Las canalizaciones de muestra están disponibles a través del Centro de noticias de Cloud Data Fusion, que te permite compartir canalizaciones, complementos y soluciones reutilizables de Cloud Data Fusion.
- En la interfaz web de Cloud Data Fusion, haz clic en Hub.
- En el panel izquierdo, haz clic en Canalizaciones.
- Haz clic en la canalización de la Guía de inicio rápido de Cloud Data Fusion.
- Haz clic en Crear.
- En el panel de configuración de inicio rápido de Cloud Data Fusion, haz clic en Finalizar.
Haz clic en Personalizar canalización.
Una representación visual de tu canalización aparece en la página Studio, que es una interfaz gráfica para desarrollar canalizaciones de integración de datos. Los complementos de canalización disponibles se muestran a la izquierda y tu canalización se muestra en el área de lienzo principal. Para explorar tu canalización, mantén el puntero sobre cada nodo de la canalización y haz clic en Propiedades. El menú de propiedades de cada nodo te permite ver los objetos y las operaciones asociados con el nodo.
En el menú de la parte superior derecha, haz clic en Implementar. En este paso, se envía la canalización a Cloud Data Fusion. Ejecutarás la canalización en la siguiente sección de esta guía de inicio rápido.

Visualiza tu canalización
La canalización implementada aparecerá en la vista de detalles de la canalización, donde puedes hacer lo siguiente:
- Ver la estructura y la configuración de la canalización
- Ejecutar la canalización de forma manual o configurar un programa o un activador
- Ver un resumen de las ejecuciones históricas de la canalización, incluidos los registros, las métricas y los tiempos de ejecución

Ejecuta tu canalización
En la vista de detalles de la canalización, haz clic en Ejecutar para ejecutar su canalización.

Cuando se ejecuta una canalización, Cloud Data Fusion hace lo siguiente:
- Aprovisiona un clúster efímero de Dataproc
- Ejecuta la canalización en el clúster con Apache Spark
- Eliminación del clúster
Vea los resultados
Después de unos minutos, la canalización finaliza. El estado de la canalización cambia a Finalizada y se muestra la cantidad de registros que procesa cada nodo.

- Ve a la interfaz web de BigQuery.
Para ver una muestra de los resultados, ve al conjunto de datos
DataFusionQuickstartde tu proyecto, haz clic en la tablatop_rated_inexpensivey, luego, ejecuta una consulta simple. Por ejemplo:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10Reemplaza PROJECT_ID con el ID del proyecto.

Realiza una limpieza
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
- Borra el conjunto de datos de BigQuery en el que tu canalización escribió en esta guía de inicio rápido.
Borra el proyecto (opcional).
- En la Google Cloud consola, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
¿Qué sigue?
- Sigue el instructivo de Cloud Data Fusion
- Obtén información sobre los conceptos de Cloud Data Fusion.