Gerenciar preparações de dados
Este documento descreve como gerenciar as preparações de dados do BigQuery, incluindo o acesso, o controle de versões, a performance e os metadados. Ele também descreve como realizar tarefas básicas, como visualizar e fazer o download das preparações de dados.
As preparações de dados são BigQuery com tecnologia do Dataform. Para mais informações, consulte Visão geral da preparação de dados do BigQuery.
Antes de começar
- Confirme se você ativou a API Gemini para Google Cloud.
- Para gerenciar os metadados de preparação de dados no Knowledge Catalog, confirme se a API Dataplex está ativada no seu Google Cloud projeto.
Funções exigidas
Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs precisam das permissões concedidas pelas seguintes funções do Identity and Access Management (IAM).
Conseguir acesso do usuário para preparação de dados
Para receber as permissões necessárias para preparar dados no BigQuery, peça ao administrador para conceder a você as seguintes funções do IAM:
-
Usuário do BigQuery Studio (
roles/bigquery.studioUser) no projeto -
Usuário do Gemini para Google Cloud (
roles/cloudaicompanion.user) no projeto -
Acessar as tabelas de origem:
Leitor de dados do BigQuery (
roles/bigquery.dataViewer) na tabela, no conjunto de dados ou no projeto
Para mais informações sobre a concessão de funções, consulte Gerenciar o acesso a projetos, pastas e organizações.
Para mais informações sobre o IAM para conjuntos de dados no BigQuery, consulte Conceder acesso a um conjunto de dados.Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Conseguir acesso para gerenciar metadados
Para receber as permissões necessárias para gerenciar os metadados de preparação de dados no
Knowledge Catalog, confirme se você tem as
funções necessárias do Knowledge Catalog
e a
dataform.repositories.get
permissão.
Conceder acesso à conta de serviço do Dataform
Para garantir que a conta de serviço do Dataform tenha as permissões necessárias para executar preparações de dados no BigQuery, peça ao administrador para conceder as seguintes funções do IAM à conta de serviço do Dataform:
-
Acessar as tabelas de origem:
Leitor de dados do BigQuery (
roles/bigquery.dataViewer) na tabela, no conjunto de dados ou no projeto -
Acessar as tabelas de destino:
Editor de dados do BigQuery (
roles/bigquery.dataEditor) na tabela, no conjunto de dados ou no projeto
A conta de serviço do Dataform pode exigir permissões adicionais, dependendo do pipeline de preparação de dados. Para mais informações, consulte Conceder o acesso necessário ao Dataform.
Visualizar preparações de dados atuais
Para visualizar uma lista de preparações de dados atuais, siga estas etapas:
Acessar a página do BigQuery.
No painel à esquerda, clique em Explorer:

Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.
No painel Explorer, abra projeto.
Clique em Preparações de dados.
Otimizar a preparação de dados processando dados de forma incremental
Para configurar a forma como os dados preparados são gravados em uma tabela de destino, siga estas etapas.
No Google Cloud console, acesse a página BigQuery.
No painel à esquerda, clique em Explorer:

No painel Explorer , clique em Preparações de dados e selecione a preparação de dados.
Na barra de ferramentas da preparação de dados, selecione Mais > Modo de gravação.
Selecione uma das opções. Para mais informações, consulte Modo de gravação.
Clique em Salvar.
Ajude a melhorar as sugestões
Compartilhe com o Google os dados de comandos enviados para os recursos no pré-lançamento para melhorar as sugestões do Gemini. Para compartilhar os dados de comandos, siga estas etapas:
- Abra o editor de preparação de dados no BigQuery.
- Na barra de ferramentas de preparação de dados, clique em settings Mais.
- Selecione Compartilhe dados para aprimorar o Gemini no BigQuery.
As configurações de compartilhamento de dados pessoais se aplicam a todo o projeto e só podem ser definidas por um administrador com as permissões de IAM serviceusage.services.enable e serviceusage.services.list. Para mais
informações sobre o uso de dados no Programa Trusted Tester, consulte
Gemini para o Google Cloud Programa Trusted Tester.
Versões de preparação de dados
É possível criar uma preparação de dados dentro ou fora de um repositório. O controle de versões de preparação de dados é processado de maneira diferente com base em onde a preparação de dados está localizada.
Controle de versões de preparação de dados em repositórios
Os repositórios são repositórios Git que residem no BigQuery ou com um provedor terceirizado. É possível usar espaços de trabalho em repositórios para realizar o controle de versões em preparações de dados. Para mais informações, consulte Usar o controle de versões com um arquivo.
Controle de versões de preparação de dados fora dos repositórios
As preparações de dados do BigQuery que não estão em repositórios não oferecem suporte à visualização, comparação ou restauração de versões de preparação de dados.
Para conferir uma lista de versões de preparação de dados em ordem cronológica, siga estas etapas:
Acessar a página do BigQuery.
No painel à esquerda, clique em Explorer:

No painel Explorer , clique em Preparações de dados e selecione a preparação de dados.
Clique em Histórico de versões.
Fazer o download de uma preparação de dados
Para fazer o download de uma preparação de dados em um arquivo SQLX, siga estas etapas:
No Google Cloud console, acesse a página BigQuery.
No painel à esquerda, clique em Explorer:

No painel Explorer, abra o projeto e clique em Preparações de dados.
Clique no nome da preparação de dados que você quer fazer o download.
Clique em Fazer download. A preparação de dados é salva no formato de arquivo SQLX, por exemplo,
NAME data preparation.dp.sqlx.
Fazer upload de uma preparação de dados
Para fazer o upload de uma preparação de dados de um arquivo SQLX, siga estas etapas:
No Google Cloud console, acesse a página BigQuery.
No painel à esquerda, clique em Explorer:

No painel Explorer, abra projeto.
Clique em Preparações de dados e em more_vert Ver ações > Fazer upload para preparação de dados.
Na caixa de diálogo Fazer upload da preparação de dados , selecione um arquivo para fazer o upload ou insira o URL da preparação de dados.
Insira um nome para a preparação de dados.
Selecione um local de preparação de dados em que os recursos são gerenciados e armazenados.
Clique em Fazer upload.
Gerenciar metadados no Knowledge Catalog
O Knowledge Catalog permite armazenar e gerenciar metadados para preparações de dados. As preparações de dados estão disponíveis no Knowledge Catalog por padrão, sem configuração adicional.
É possível usar o Knowledge Catalog para gerenciar preparações de dados em todos os locais do BigQuery. O gerenciamento de preparações de dados no Knowledge Catalog está sujeito a cotas e limites do Knowledge Catalog e preços do Knowledge Catalog.
O Knowledge Catalog recupera automaticamente os seguintes metadados das preparações de dados:
- Nome do recurso de dados
- Parente do recurso de dados
- Local do recurso de dados
- Tipo de recurso de dados
- Projeto correspondente Google Cloud
O Knowledge Catalog registra preparações de dados como entradas com os seguintes valores de entrada:
- Grupo de entradas do sistema
- O grupo de entradas do sistema
para preparações de dados é
@dataform. Para visualizar os detalhes das entradas de preparação de dados no Knowledge Catalog, é necessário visualizar o grupo de entradas do sistemadataform. Para instruções sobre como visualizar uma lista de todas as entradas em um grupo de entradas, consulte Visualizar detalhes de um grupo de entradas na documentação do Knowledge Catalog. - Tipo de entrada do sistema
- O tipo de entrada do sistema
para preparações de dados é
dataform-code-asset. Para visualizar os detalhes das preparações de dados,é necessário visualizar o tipo de entrada do sistemadataform-code-asset, filtrar os resultados com um filtro baseado em aspectos, e definir o campotypedentro do aspectodataform-code-assetcomoDATA_PREPARATION. Em seguida, selecione uma entrada da preparação de dados selecionada. Para instruções sobre como visualizar detalhes de um tipo de entrada selecionado, consulte Visualizar detalhes de um tipo de entrada na documentação do Knowledge Catalog. Para instruções sobre como visualizar detalhes de uma entrada selecionada, consulte Visualizar detalhes de uma entrada na documentação do Knowledge Catalog. - Tipo de aspecto do sistema
- O tipo de aspecto do sistema
para preparações de dados é
dataform-code-asset. Para fornecer contexto adicional às preparações de dados no Knowledge Catalog anotando entradas de preparação de dados com aspectos, visualize o tipo de aspectodataform-code-asset, filtre os resultados com um filtro baseado em aspectos e defina o campotypedentro do aspectodataform-code-assetcomoDATA_PREPARATION. Para instruções sobre como anotar entradas com aspectos, consulte Gerenciar aspectos e enriquecer metadados na documentação do Knowledge Catalog. - Tipo
- O tipo de telas de dados é
DATA_PREPARATION. Esse tipo permite filtrar preparações de dados no tipo de entrada do sistemadataform-code-assete no tipo de aspectodataform-code-assetusando a consultaaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATIONem um filtro baseado em aspectos.
Para instruções sobre como pesquisar recursos, consulte Pesquisar recursos de dados no Knowledge Catalog na documentação do Knowledge Catalog.
A seguir
- Saiba mais sobre como preparar dados no BigQuery.
- Saiba como executar preparações de dados manualmente ou com uma programação.
- Saiba como criar preparações de dados.