Para concluir os tutoriais de caso de uso da linhagem, siga estas etapas de configuração:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Enable the BigQuery, Data lineage , Dataform, BigQuery Data Transfer, and Secret Manager APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.For new projects, the BigQuery API is automatically enabled.
Funções exigidas
Para receber as permissões necessárias para realizar os tutoriais de caso de uso da linhagem, peça ao administrador para conceder a você os seguintes papéis do IAM nos seus projetos:
- Leitor da linhagem de dados (
roles/datalineage.viewer): no projeto em que a linhagem é registrada e visualizada. - Leitor de dados do BigQuery (
roles/bigquery.dataViewer): no projeto de armazenamento da tabela. - Leitor de recursos do BigQuery (
roles/bigquery.resourceViewer): no projeto de computação do job. - Leitor do Dataplex Catalog (
roles/dataplex.catalogViewer): no projeto em que as entradas do catálogo são armazenadas. - Editor do Dataform (
roles/dataform.editor): no projeto em que seus espaços de trabalho e repositórios estão localizados.
A lista a seguir descreve os tipos de projeto e os serviços associados às funções necessárias:
- O projeto de armazenamento armazena os conjuntos de dados e as tabelas do BigQuery.
- O projeto de computação processa seus dados e armazena os metadados de linhagem. Ele é usado para executar jobs do BigQuery e transformações de dados.
- As entradas do catálogo contêm metadados que descrevem suas tabelas, permitindo que você as encontre e organize sem acessar os dados subjacentes.
- O projeto de linhagem registra e visualiza o histórico dos seus dados e das transformações deles.
- O Dataform é um serviço usado para criar, controlar versões e executar pipelines de dados baseados em SQL. Ele transforma dados brutos em conjuntos de dados limpos e documentados.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações. Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Primeiros passos
Para concluir os tutoriais, use o repositório de casos de uso da linhagem de dados. Esse repositório contém código predefinido para configurar conjuntos de dados e executar transformações de dados.
Visão geral dos conjuntos de dados
Cada tutorial usa um conjunto de dados diferente do mundo real, como dados de prestadores de cuidados de saúde, emprego ou dados da empresa, para demonstrar a linhagem de dados em cenários realistas.
Configurar conjuntos de dados
Para acompanhar as mudanças de dados com a linhagem de dados, faça esta configuração única:
- Crie um token de acesso pessoal e armazene-o no Secret Manager.
- Vincule o repositório ao Dataform.
Após a configuração, execute as transformações de dados para processar os dados e gerar a linhagem.