Ejecuta una canalización con el compilador de trabajos
En esta guía de inicio rápido, se muestra cómo ejecutar un trabajo de Dataflow con el Compilador de trabajos de Dataflow. El compilador de trabajos es una IU visual para compilar y ejecutar canalizaciones de Dataflow en la Google Cloud consola, sin escribir ningún código.
En esta guía de inicio rápido, cargarás una canalización de ejemplo en el compilador de trabajos, ejecutarás un trabajo y verificarás que el resultado haya creado el trabajo.
Antes de comenzar
Completa los siguientes pasos antes de ejecutar tu canalización.
Configura tu proyecto
- Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- Crea un bucket de Cloud Storage:
- En la consola de Google Cloud , ve a la página Buckets de Cloud Storage.
- Haz clic en Crear.
- En la página Crear un bucket, ingresa la información de tu bucket. Para ir al paso siguiente, haz clic en Continuar.
- En Asigna un nombre a tu bucket, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
-
En la sección Elige dónde almacenar tus datos, haz lo siguiente:
- Selecciona un tipo de ubicación
- Elige una ubicación en la que se almacenen de forma permanente los datos de tu bucket en el menú desplegable Tipo de ubicación.
- Si seleccionas el tipo de ubicación birregional, también puedes habilitar la replicación turbo con la casilla de verificación correspondiente.
- Para configurar la replicación bucket buckets, selecciona
Agregar replicación entre bucket a través del Servicio de transferencia de almacenamiento y
sigue estos pasos:
Configura la replicación entre buckets
- En el menú Bucket, selecciona un bucket.
En la sección Configuración de replicación, haz clic en Configurar para configurar los parámetros del trabajo de replicación.
Aparecerá el panel Configurar la replicación entre buckets.
- Para filtrar los objetos que se replicarán por prefijo de nombre de objeto, ingresa un prefijo con el que quieras incluir o excluir objetos y, luego, haz clic en Agregar un prefijo.
- Para establecer una clase de almacenamiento para los objetos replicados, selecciona una clase de almacenamiento en el menú Clase de almacenamiento. Si omites este paso, los objetos replicados usarán la clase de almacenamiento del bucket de destino de forma predeterminada.
- Haz clic en Listo.
-
En la sección Elige cómo almacenar tus datos, haz lo siguiente:
- En la sección Establecer una clase predeterminada, selecciona lo siguiente: Estándar.
- Para habilitar el espacio de nombres jerárquico, en la sección Optimizar el almacenamiento para cargas de trabajo con uso intensivo de datos, selecciona Habilitar el espacio de nombres jerárquico en este bucket.
- En la sección Elige cómo controlar el acceso a los objetos, selecciona si tu bucket aplica o no la prevención del acceso público y elige un método de control de acceso para los objetos del bucket.
-
En la sección Elige cómo proteger los datos de objetos, haz lo siguiente:
- Selecciona cualquiera de las opciones de Protección de datos que
desees configurar para tu bucket.
- Para habilitar la eliminación no definitiva, haz clic en la casilla de verificación Política de eliminación no definitiva (para la recuperación de datos) y especifica la cantidad de días que deseas conservar los objetos después de la eliminación.
- Para configurar el control de versiones de objetos, haz clic en la casilla de verificación Control de versiones de objetos (para el control de versión) y especifica la cantidad máxima de versiones por objeto y la cantidad de días después de los cuales vencen las versiones no actuales.
- Para habilitar la política de retención en objetos y buckets, haz clic en la casilla de verificación Retención (para cumplimiento) y, luego, haz lo siguiente:
- Para habilitar el bloqueo de retención de objetos, haz clic en la casilla de verificación Habilitar la retención de objetos.
- Para habilitar el Bloqueo del bucket, haz clic en la casilla de verificación Establecer política de retención del bucket y elige una unidad de tiempo y una duración para tu período de retención.
- Para elegir cómo se encriptarán los datos de tus objetos, expande la sección Encriptación de datos () y selecciona un método de encriptación de datos.
- Selecciona cualquiera de las opciones de Protección de datos que
desees configurar para tu bucket.
- Haz clic en Crear.
Roles obligatorios
Si quieres obtener los permisos que necesitas para ejecutar esta guía de inicio rápido, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
-
Desarrollador de Dataflow (
roles/dataflow.developer) -
Usuario de la cuenta de servicio (
roles/iam.serviceAccountUser)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Para garantizar que las cuentas de servicio tengan los permisos necesarios para ejecutar esta guía de inicio rápido, pídele a tu administrador que otorgue los siguientes roles de IAM a las cuentas de servicio de tu proyecto:
-
Trabajador de Dataflow (
roles/dataflow.worker) -
Administrador de objetos de Storage (
roles/storage.objectAdmin)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Es posible que tu administrador también pueda otorgar a las cuentas de servicio los permisos necesarios a través de roles personalizados o de otros roles predefinidos.
Red de VPC
De forma predeterminada, cada proyecto nuevo comienza con una red predeterminada.
Si la red predeterminada de tu proyecto está inhabilitada o se borró, debes tener una red en tu proyecto para la que tenga tu cuenta de usuario Rol de usuario de la red de Compute (roles/compute.networkUser).
Carga la canalización de ejemplo
En este paso, cargarás una canalización de ejemplo que cuenta las palabras en El rey Lear de Shakespeare.
Ve a la página Trabajos en la consola de Google Cloud .
Haz clic en Crear trabajo a partir de una plantilla.
Haz clic en Compilador de trabajos.
Haz clic en Load Blueprints.
Haz clic en Recuento de palabras. El compilador de trabajos se propaga con una representación gráfica de la canalización.
Para cada paso de la canalización, el compilador de trabajos muestra una tarjeta que especifica los parámetros de configuración de ese paso. Por ejemplo, el primer paso lee archivos de texto desde Cloud Storage. La ubicación de los datos de origen se propaga previamente en el cuadro Ubicación del texto.
Configura la ubicación de salida
En este paso, debes especificar un bucket de Cloud Storage en el que la canalización escribe el resultado.
Busca la tarjeta titulada Nuevo receptor. Es posible que debas desplazarte.
En el cuadro Ubicación del texto, haz clic en Explorar.
Selecciona el nombre del bucket de Cloud Storage que creaste en Antes de comenzar.
Haz clic en Ver recursos secundarios.
En el cuadro Nombre del archivo, ingresa
words.Haz clic en Seleccionar.
Ejecuta el trabajo
Haga clic en Ejecutar trabajo. El compilador de trabajos crea un trabajo de Dataflow y, luego, navega al gráfico del trabajo. Cuando se inicia el trabajo, el gráfico del trabajo muestra una representación gráfica de la canalización, similar a la que se muestra en el compilador de trabajos. A medida que se ejecuta cada paso de la canalización, el estado se actualiza en el gráfico de trabajo.
En el panel Información del trabajo, se muestra el estado general del trabajo. Si el trabajo se completa correctamente, el campo Estado del trabajo se actualizará a Succeeded.
Examina el resultado del trabajo
Cuando se complete el trabajo, realiza los siguientes pasos para ver el resultado de la canalización:
En la Google Cloud consola, ve a la página Buckets de Cloud Storage.
En la lista de buckets, haz clic en el nombre del bucket que creaste en la sección Antes de comenzar.
Haz clic en el archivo llamado
words-00000-of-00001.En la página Detalles del objeto, haz clic en la URL autenticada para ver el resultado de la canalización.
El resultado debería ser similar al siguiente:
brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]
Realiza una limpieza
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el Google Cloud proyecto que creaste para la guía de inicio rápido.
- En la Google Cloud consola, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra los recursos individuales
Si deseas conservar el proyecto Google Cloud que usaste en esta guía de inicio rápido, borra el bucket de Cloud Storage:
- En la Google Cloud consola, ve a la página Buckets de Cloud Storage.
- Haz clic en la casilla de verificación del bucket que deseas borrar.
- Para borrar el bucket, haz clic en Borrar y sigue las instrucciones.