Para completar los instructivos sobre el caso de uso del linaje, sigue estos pasos de configuración:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Enable the BigQuery, Data lineage , Dataform, BigQuery Data Transfer, and Secret Manager APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.For new projects, the BigQuery API is automatically enabled.
Roles obligatorios
Para obtener los permisos que necesitas para realizar los instructivos sobre casos de uso del linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM en tus proyectos:
- Visualizador de linaje de datos (
roles/datalineage.viewer): En el proyecto en el que se registra y visualiza el linaje. - Visualizador de datos de BigQuery (
roles/bigquery.dataViewer): En el proyecto de almacenamiento de la tabla - Visualizador de recursos de BigQuery (
roles/bigquery.resourceViewer): En el proyecto de procesamiento del trabajo - Visualizador del catálogo de Dataplex (
roles/dataplex.catalogViewer): En el proyecto en el que se almacenan las entradas del catálogo - Editor de Dataform (
roles/dataform.editor): En el proyecto en el que se encuentran tus espacios de trabajo y repositorios
En la siguiente lista, se describen los tipos de proyectos y los servicios asociados con los roles requeridos:
- El proyecto de almacenamiento almacena los conjuntos de datos y las tablas de BigQuery.
- El proyecto de procesamiento calcula tus datos y almacena los metadatos de linaje. Se usa para ejecutar trabajos de BigQuery y transformaciones de datos.
- Las entradas del catálogo contienen metadatos que describen tus tablas, lo que te permite encontrarlas y organizarlas sin acceder a los datos subyacentes.
- El proyecto de linaje registra y visualiza el historial de tus datos y sus transformaciones.
- Dataform es un servicio que se usa para compilar, control de versión y ejecutar canalizaciones de datos basadas en SQL. Transforma los datos sin procesar en conjuntos de datos limpios y documentados.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones. También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Comenzar
Para completar los instructivos, usa el repositorio de casos de uso del linaje de datos. Este repositorio contiene código predefinido para configurar conjuntos de datos y ejecutar transformaciones de datos.
Descripción general de los conjuntos de datos
Cada instructivo utiliza un conjunto de datos del mundo real diferente, como datos de proveedores de atención médica, empleo o empresas, para demostrar el linaje de datos en situaciones realistas.
Configura conjuntos de datos
Para hacer un seguimiento de los cambios en los datos con el linaje de datos, realiza esta configuración única:
- Crea un token de acceso personal y almacénalo en Secret Manager.
- Vincula el repositorio a Dataform.
Después de la configuración, ejecuta las transformaciones de datos para procesar los datos y generar el linaje.