Faça a gestão das preparações de dados

Este documento descreve como gerir a preparação de dados no BigQuery, incluindo a concessão das funções de gestão de identidades e acessos (IAM) necessárias e a gestão de metadados no Dataplex Universal Catalog.

As preparações de dados são recursos do BigQuery baseados no Dataform.

Antes de começar

  1. Certifique-se de que ativou a API Gemini para o Google Cloud.
  2. Para gerir metadados de preparação de dados no Dataplex Universal Catalog, certifique-se de que a API Dataplex está ativada no seu Google Cloud projeto.

Funções necessárias

Os utilizadores que estão a preparar os dados e as contas de serviço do Dataform que estão a executar as tarefas requerem as autorizações concedidas pelas seguintes funções de gestão de identidade e de acesso (IAM).

Obtenha acesso de utilizador para a preparação de dados

Para receber as autorizações de que precisa para preparar dados no BigQuery, peça ao seu administrador para lhe conceder as seguintes funções de IAM:

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Para mais informações sobre a IAM para conjuntos de dados no BigQuery, consulte o artigo Conceda acesso a um conjunto de dados.

Também pode conseguir estas autorizações com funções personalizadas ou outras funções predefinidas.

Obtenha acesso para gerir metadados

Para receber as autorizações necessárias para gerir os metadados de preparação de dados no Dataplex Universal Catalog, certifique-se de que tem as funções do Dataplex Universal Catalog necessárias e a autorização dataform.repositories.get.

Conceda acesso à conta de serviço do Dataform

Para garantir que a conta de serviço do Dataform tem as autorizações necessárias para executar preparações de dados no BigQuery, peça ao seu administrador para conceder à conta de serviço do Dataform as seguintes funções de IAM:

A conta de serviço do Dataform pode exigir autorizações adicionais, consoante o seu pipeline de preparação de dados. Para mais informações, consulte o artigo Conceda acesso necessário ao Dataform.

Veja as preparações de dados existentes

Para ver uma lista das preparações de dados existentes, siga estes passos:

  1. Aceda à página do BigQuery.

    Aceda ao BigQuery

  2. No painel esquerdo, clique em Explorador:

    Botão realçado para o painel do explorador.

    Se não vir o painel do lado esquerdo, clique em Expandir painel do lado esquerdo para o abrir.

  3. No painel Explorador, expanda o seu projeto.

  4. Clique em Preparações de dados.

Otimize a preparação de dados processando-os de forma incremental

Para configurar a forma como os dados preparados são escritos numa tabela de destino, siga estes passos.

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No painel esquerdo, clique em Explorador:

    Botão realçado para o painel do explorador.

  3. No painel Explorador, clique em Preparações de dados e, de seguida, selecione a preparação de dados.

  4. Na barra de ferramentas da preparação de dados, selecione Mais > Modo de escrita.

  5. Selecione uma das opções. Para mais informações, consulte o artigo Modo de escrita.

  6. Clique em Guardar.

Ajude a melhorar as sugestões

Pode ajudar a melhorar as sugestões do Gemini partilhando com a Google os dados de comandos que envia para as funcionalidades em Pré-visualização. Para partilhar os seus dados de comandos, siga estes passos:

  1. Abra o editor de preparação de dados no BigQuery.
  2. Na barra de ferramentas de preparação de dados, clique em definições Mais.
  3. Selecione Partilhar dados para melhorar o Gemini no BigQuery.

As definições de partilha de dados aplicam-se a todo o projeto e só podem ser definidas por um administrador do projeto com as autorizações de IAM serviceusage.services.enable e serviceusage.services.list. Para mais informações sobre a utilização de dados no programa de testadores fidedignos, consulte o artigo Gemini para o Google Cloud programa de testadores fidedignos.

Versões da preparação de dados

Pode optar por criar uma preparação de dados dentro ou fora de um repositório. O controlo de versões da preparação de dados é processado de forma diferente consoante a localização da preparação de dados.

Controlo de versões da preparação de dados nos repositórios

Os repositórios são repositórios Git que residem no BigQuery ou num fornecedor de terceiros. Pode usar espaços de trabalho em repositórios para realizar o controlo de versões nas preparações de dados. Para mais informações, consulte o artigo Use o controlo de versões com um ficheiro.

Controlo de versões da preparação de dados fora dos repositórios

As preparações de dados do BigQuery que não estão em repositórios não suportam a visualização, a comparação nem o restauro de versões de preparação de dados.

Para ver uma lista das versões de preparação de dados por ordem cronológica, siga estes passos:

  1. Aceda à página do BigQuery.

    Aceda ao BigQuery

  2. No painel esquerdo, clique em Explorador:

    Botão realçado para o painel do explorador.

  3. No painel Explorador, clique em Preparações de dados e, de seguida, selecione a preparação de dados.

  4. Clique em Histórico de versões.

Transfira uma preparação de dados

Para transferir uma preparação de dados num ficheiro SQLX, siga estes passos:

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No painel esquerdo, clique em Explorador:

    Botão realçado para o painel do explorador.

  3. No painel Explorador, expanda o projeto e clique em Preparativos de dados.

  4. Clique no nome da preparação de dados que quer transferir.

  5. Clique em Transferir. A preparação de dados é guardada no formato de ficheiro SQLX, por exemplo, NAME data preparation.dp.sqlx.

Carregue uma preparação de dados

Para carregar uma preparação de dados a partir de um ficheiro SQLX, siga estes passos:

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No painel esquerdo, clique em Explorador:

    Botão realçado para o painel do explorador.

  3. No painel Explorador, expanda o seu projeto.

  4. Clique em Preparativos de dados e clique em more_vert Ver ações > Carregar para preparação de dados.

  5. Na caixa de diálogo Preparação de dados de carregamento, selecione um ficheiro para carregar ou introduza o URL da preparação de dados.

  6. Introduza um nome para a preparação de dados.

  7. Selecione uma localização de preparação de dados onde os recursos são geridos e armazenados.

  8. Clique em Carregar.

Faça a gestão de metadados no Dataplex Universal Catalog

O Dataplex Universal Catalog permite-lhe armazenar e gerir metadados para preparações de dados. As preparações de dados estão disponíveis no Dataplex Universal Catalog por predefinição, sem configuração adicional.

Pode usar o Dataplex Universal Catalog para gerir preparações de dados em todas as localizações do BigQuery. A gestão das preparações de dados no Dataplex Universal Catalog está sujeita às quotas e aos limites do Dataplex Universal Catalog e aos preços do Dataplex Universal Catalog.

O Dataplex Universal Catalog obtém automaticamente os seguintes metadados das preparações de dados:

  • Nome do recurso de dados
  • Recurso de dados principal
  • Localização do recurso de dados
  • Tipo de recurso de dados
  • Projeto Google Cloud correspondente

O Dataplex Universal Catalog regista as preparações de dados como entradas com os seguintes valores de entrada:

Grupo de entradas do sistema
O grupo de entradas do sistema para preparações de dados é @dataform. Para ver detalhes das entradas de preparação de dados no Dataplex Universal Catalog, tem de ver o dataform grupo de entradas do sistema. Para ver instruções sobre como ver uma lista de todas as entradas num grupo de entradas, consulte o artigo Ver detalhes de um grupo de entradas na documentação do Dataplex Universal Catalog.
Tipo de entrada do sistema
O tipo de entrada do sistema para preparações de dados é dataform-code-asset. Para ver os detalhes das preparações de dados, tem de ver o tipo de entrada do sistema dataform-code-asset, filtrar os resultados com um filtro baseado em aspetos e definir o campo type no aspeto dataform-code-asset como DATA_PREPARATION. Em seguida, selecione uma entrada da preparação de dados selecionada. Para ver instruções sobre como ver os detalhes de um tipo de entrada selecionado, consulte o artigo Ver detalhes de um tipo de entrada na documentação do catálogo universal do Dataplex. Para ver instruções sobre como ver os detalhes de uma entrada selecionada, consulte a secção Ver detalhes de uma entrada na documentação do Dataplex Universal Catalog.
Tipo de aspeto do sistema
O tipo de aspeto do sistema para preparações de dados é dataform-code-asset. Para fornecer contexto adicional às preparações de dados no Dataplex Universal Catalog anotando as entradas de preparação de dados com aspetos, veja o tipo de aspeto dataform-code-asset, filtre os resultados com um filtro baseado em aspetos e defina o campo type no aspeto dataform-code-asset como DATA_PREPARATION. Para ver instruções sobre como anotar entradas com aspetos, consulte o artigo Gerir aspetos e enriquecer metadados na documentação do catálogo universal do Dataplex.
Tipo
O tipo de telas de dados é DATA_PREPARATION. Este tipo permite-lhe filtrar preparações de dados no dataform-code-assettipo de entrada do sistema e no tipo de aspeto usando a aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATIONconsulta num filtro baseado em aspetos.dataform-code-asset

Para obter instruções sobre como pesquisar recursos, consulte o artigo Pesquise recursos de dados no Dataplex Universal Catalog na documentação do Dataplex Universal Catalog.

O que se segue?