Programa ejecuciones de producción
En esta guía de inicio rápido, se explican los siguientes pasos para programar ejecuciones de producción en Dataform:
- Crea un repositorio de Dataform.
- Otorga los roles necesarios.
Crea una configuración de lanzamiento y una configuración de flujo de trabajo.
Crea una configuración de lanzamiento de
productiony establece la frecuencia con la que se crean los resultados de compilación deproduction. Luego, crea una configuración de flujo de trabajoproduction, selecciona la configuración de versiónproductiony establece una programación para ejecutar los resultados de la compilaciónproduction.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Administrador de Dataform (
roles/dataform.admin) en repositorios -
Editor de Dataform (
roles/dataform.editor) en espacios de trabajo y en invocaciones de flujos de trabajo -
Usuario de la cuenta de servicio (
roles/iam.serviceAccountUser) en la cuenta de servicio personalizada -
Administrador de IAM del proyecto (
roles/resourcemanager.projectIamAdmin) en el proyecto - Editor de datos de BigQuery
(
roles/bigquery.dataEditor) en los proyectos a los que Dataform necesita acceso de lectura y escritura, que suelen incluir el proyecto que aloja tu repositorio de Dataform. - Visualizador de datos de BigQuery
(
roles/bigquery.dataViewer) en los proyectos a los que Dataform necesita acceso de solo lectura - Usuario de trabajo de BigQuery
(
roles/bigquery.jobUser) en el proyecto que aloja tu repositorio de Dataform. - Creador de tokens de cuenta de servicio
(
roles/iam.serviceAccountTokenCreator) - Usuario de cuenta de servicio
(
roles/iam.serviceAccountUser) En la consola de Google Cloud , dirígete a la página IAM.
Haz clic en Otorgar acceso.
En el campo Principales nuevas, ingresa el ID de tu cuenta de servicio personalizada.
En el menú Seleccionar un rol, selecciona los siguientes roles uno por uno con la opción Agregar otro rol para cada rol adicional:
- Editor de datos de BigQuery
- Lector de datos de BigQuery
- Usuario de trabajo de BigQuery
Haz clic en Guardar.
En la consola de Google Cloud , ve a la página Cuentas de servicio.
Selecciona tu cuenta de servicio personalizada.
Ve a Principales con acceso y, luego, haz clic en Otorgar acceso.
En el campo Principales nuevas, ingresa el ID de tu agente de servicio predeterminado de Dataform.
Tu ID del agente de servicio de Dataform predeterminado tiene el siguiente formato:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.comEn la lista Seleccionar un rol, agrega los siguientes roles:
- Service Account User
- Creador de tokens de cuenta de servicio
Haz clic en Guardar.
En la consola de Google Cloud , ve a la página Dataform.
Haz clic en Crear repositorio.
En la página Crear repositorio, haz lo siguiente:
En el campo ID del repositorio, ingresa
quickstart-production.En la lista Región, selecciona
europe-west4.En el campo Cuenta de servicio, haz clic en Ingresar manualmente y, luego, ingresa el nombre de tu cuenta de servicio personalizada. Asegúrate de ingresar tu cuenta de servicio personalizada en este campo.
Haz clic en Crear.
Haz clic en Ir a Repositorios.
En la consola de Google Cloud , ve a la página Dataform.
Haz clic en
quickstart-production.Haz clic en Versiones y programación y, luego, en Crear versión de producción.
En el panel Crear configuración de lanzamiento, establece los siguientes parámetros de configuración:
- En el campo ID de versión, ingresa
production. - En el campo Git commitish, deja el valor predeterminado
main. - En la sección Frecuencia de programación, en el menú Repeticiones, selecciona Personalizada.
- En el campo Programación personalizada, ingresa
0 16 * * *. En el menú Zona horaria, selecciona una zona horaria UTC+1, por ejemplo, Hora estándar de Europa central (CET).
Todos los días a las 4 p.m. (UTC+1), Dataform compila el repositorio
quickstart-productiony aplica la configuración de compilación establecida en esta configuración de lanzamiento para crear resultados de compilaciónproduction.
- En el campo ID de versión, ingresa
Haz clic en Crear.
La configuración de lanzamiento de
productioncrea un resultado de compilación de todo el repositorioquickstart-productiontodos los días a las 4 p.m. (UTC+1).Asegúrate de estar en la pestaña Lanzamientos y programación. Ve a la sección Configuración del flujo de trabajo y haz clic en Crear.
En el panel Crear configuración de flujo de trabajo, establece los siguientes parámetros de configuración:
- En el campo ID de configuración, ingresa
production. - En el menú Configuración de lanzamiento, selecciona
production. - En la sección Frecuencia de programación, en el menú Repeticiones, selecciona Personalizada.
- En el campo Programación personalizada, ingresa
0 17 * * *. En el menú Zona horaria, selecciona una zona horaria UTC+1, por ejemplo, Hora estándar de Europa central (CET).
Todos los días a las 5 p.m. (UTC+1), Dataform ejecuta el resultado de la compilación
productionmás reciente del repositorioquickstart-production.Haz clic en Todas las acciones.
Dataform ejecuta todas las acciones del flujo de trabajo en el resultado de compilación
production.
- En el campo ID de configuración, ingresa
Haz clic en Crear.
La configuración del flujo de trabajo de
productionejecuta el resultado de la compilación más reciente que creó la configuración de lanzamiento de producción todos los días a las 5 p.m. (UTC+1).En la consola de Google Cloud , ve a la página Dataform.
Selecciona el repositorio
quickstart-production.Haz clic en Lanzamientos y programación.
En la sección Configuraciones de lanzamiento, haz clic en
production.En la consola de Google Cloud , ve a la página Dataform.
Selecciona el repositorio
quickstart-production.Haz clic en Registros de ejecución del flujo de trabajo.
Selecciona una ejecución del flujo de trabajo para ver información más detallada, incluido el estado de cada acción y los registros.
En la consola de Google Cloud , ve a la página BigQuery.
En el panel Explorador, expande tu proyecto y selecciona
dataform_production.Haz clic en el menú Acciones y, luego, selecciona Borrar.
En el cuadro de diálogo Borrar conjunto de datos, ingresa borrar y, luego, haz clic en Borrar.
En la consola de Google Cloud , ve a la página Dataform.
Haz clic en
quickstart-production.Haz clic en Lanzamientos y programación y ve a la sección Configuraciones de lanzamiento.
En la configuración de lanzamiento de
production, haz clic en el menú Más y, luego, en Borrar.En el cuadro de diálogo Borrar configuración de lanzamiento, haz clic en Borrar.
En la consola de Google Cloud , ve a la página Dataform.
Haz clic en
quickstart-production.Haz clic en Lanzamientos y programación y ve a la sección Configuración del flujo de trabajo.
En la configuración del flujo de trabajo
production, haz clic en el menú Más y, luego, en Borrar.En el cuadro de diálogo Borrar configuración de lanzamiento, haz clic en Borrar.
En la consola de Google Cloud , ve a la página Dataform.
En
quickstart-production, haz clic en el menú Más y, luego, selecciona Borrar.En la ventana Borrar repositorio, ingresa el nombre del repositorio para confirmar su eliminación.
Para confirmar la acción, haz clic en Borrar.
- Para obtener más información sobre las cuentas de servicio, consulta Acerca de las cuentas de servicio personalizadas y los agentes de servicio de Dataform.
- Para obtener más información sobre el ciclo de vida del código en Dataform, consulta Introducción al ciclo de vida del código en Dataform.
- Si deseas obtener más información sobre las prácticas recomendadas para el ciclo de vida del flujo de trabajo en Dataform, consulta Prácticas recomendadas para el ciclo de vida del flujo de trabajo.
- Para obtener más información sobre las configuraciones de versiones en Dataform, consulta Crea una configuración de versión.
- Para obtener más información sobre la configuración de flujos de trabajo en Dataform, consulta Programa ejecuciones con configuraciones de flujos de trabajo.
Además, selecciona o crea una cuenta de servicio personalizada para ejecutar flujos de trabajo en BigQuery.
Roles obligatorios
Para obtener los permisos que necesitas para realizar todas las tareas de este instructivo, pídele a tu administrador que te otorgue los siguientes roles de IAM:
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Otorga roles necesarios
Para ejecutar flujos de trabajo en BigQuery, puedes usar una cuenta de servicio personalizada o tu Cuenta de Google (versión preliminar). Sin embargo, las credenciales de la cuenta de servicio personalizada son la opción predeterminada para las ejecuciones programadas. No se recomienda usar las credenciales de la cuenta de usuario de la Cuenta de Google para las ejecuciones programadas.
Para ejecutar flujos de trabajo en BigQuery, tu cuenta de servicio personalizada debe tener los siguientes roles obligatorios:
Para permitir que Dataform use tu cuenta de servicio personalizada, el agente de servicio predeterminado de Dataform debe tener los siguientes roles en el recurso de la cuenta de servicio personalizada:
Para otorgar estos roles, sigue estos pasos:
Crea un repositorio de Dataform
Crea una configuración de versión y una configuración de flujo de trabajo
Para crear resultados de compilación de producción del repositorio quickstart-production y programar una ejecución de las tablas production, sigue estos pasos:
Visualiza los resultados de compilaciones de production anteriores
Para ver los resultados de compilaciones de production programadas anteriores, sigue estos pasos:
Cómo ver ejecuciones anteriores del flujo de trabajo de production
Para ver ejecuciones anteriores del flujo de trabajo de production, sigue estos pasos:
Realiza una limpieza
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Borra el conjunto de datos creado en BigQuery
Para evitar que se apliquen cargos por los recursos de BigQuery, sigue estos pasos para borrar el conjunto de datos llamado dataform_production:
Borra la configuración de lanzamiento de Dataform
No hay costos asociados con la creación de configuraciones de lanzamiento de Dataform. Sin embargo, si deseas borrar la configuración de lanzamiento de production, sigue estos pasos:
Borra la configuración del flujo de trabajo de Dataform
Si quieres evitar que se apliquen cargos por los recursos de BigQuery, sigue estos pasos para borrar la configuración del flujo de trabajo production de Dataform:
Borra el repositorio de Dataform
Crear repositorios de Dataform no genera costos. Sin embargo, si deseas borrar un repositorio y todo su contenido, sigue estos pasos: