Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral da preparação de dados do BigQuery

É possível reduzir significativamente o tempo e o esforço necessários para tarefas manuais de dados usando a preparação de dados otimizada por IA no BigQuery. A preparação de dados usa o Gemini no BigQuery para analisar seus dados e fornecer sugestões inteligentes para limpar, transformar e enriquecer. O Dataform programa essas preparações de dados.

Vantagens

Você pode reduzir o tempo gasto no desenvolvimento de pipelines de dados com sugestões de transformação geradas pelo Gemini e com reconhecimento de contexto.
É possível validar os resultados gerados em uma prévia e receber sugestões de limpeza e enriquecimento da qualidade dos dados com o mapeamento automático de esquemas.
Com o Dataform, você usa um processo de integração contínua e desenvolvimento contínuo (CI/CD), que oferece suporte à colaboração entre equipes para revisões de código e controle de origem.

Pontos de entrada da preparação de dados

Você pode criar e gerenciar preparações de dados na página do BigQuery Studio (consulte Iniciar uma sessão de preparação de dados).

Quando você abre uma tabela na preparação de dados do BigQuery, um job do BigQuery é executado usando suas credenciais. A execução cria linhas de amostra da tabela escolhida e grava os resultados em uma tabela temporária no mesmo projeto. O Gemini usa os dados de amostra e o esquema para gerar sugestões de preparação de dados mostradas no editor.

Visualizações no editor de preparação de dados

As preparações de dados aparecem como guias na página BigQuery. Cada guia tem uma série de subguias ou visualizações de preparação de dados, em que você desenvolve e gerencia suas preparações de dados.

Visualização de dados

Quando você cria uma nova preparação de dados, uma guia do editor de preparação de dados é aberta, mostrando a visualização de dados, que contém uma amostra representativa da tabela. Para preparações de dados atuais, clique em um nó na visualização de gráfico do pipeline de preparação de dados para acessar a visualização de dados.

Com a visualização de dados, você pode fazer o seguinte:

Interaja com seus dados para criar etapas de preparação de dados.
Aplique as sugestões do Gemini.
Melhore a qualidade das sugestões do Gemini inserindo valores de exemplo nas células.

Em cada coluna da tabela, um perfil estatístico (histograma) mostra a contagem dos principais valores de cada coluna nas linhas de visualização.

Visualização de dados no editor de preparação de dados

Visualização em gráfico

A visualização em gráfico é uma visão geral visual da preparação de dados. Ela aparece como uma guia na página BigQuery do console quando você abre uma preparação de dados. O gráfico mostra nós para todas as etapas do pipeline de preparação de dados. É possível selecionar um nó no gráfico para configurar as etapas de preparação de dados que ele representa.

Visualização de gráfico no editor de preparação de dados

Visualização de esquema

A visualização do esquema de preparação de dados mostra o esquema atual da etapa ativa de preparação de dados. O esquema mostrado corresponde às colunas na visualização de dados.

Na visualização de esquema, é possível realizar operações dedicadas, como remover colunas, o que também cria etapas na lista Etapas aplicadas.

Visualização de esquema no editor de preparação de dados

Sugestões do Gemini

O Gemini oferece sugestões contextuais para ajudar nas seguintes tarefas de preparação de dados:

Aplicar transformações e regras de qualidade de dados
Padronizar e enriquecer dados
Como automatizar o mapeamento de esquema

Cada sugestão aparece em um card na lista de sugestões do editor de preparação de dados. O card contém as seguintes informações:

A categoria de alto nível da etapa, como Manter linhas ou Transformação
Uma descrição da etapa, como Manter linhas se COLUMN_NAME não for NULL
A expressão SQL correspondente usada para executar a etapa.

Você pode visualizar, editar ou aplicar o card de sugestão, além de ajustar a sugestão ou adicionar etapas manualmente. Para mais informações, consulte Preparar dados com o Gemini.

Para refinar as sugestões do Gemini, dê um exemplo do que mudar em uma coluna.

Amostragem de dados

O BigQuery usa a amostragem de dados para fornecer uma prévia da preparação de dados. É possível conferir a amostra na visualização de dados de cada nó.

Quando você adiciona tabelas padrão do BigQuery como uma fonte, os dados são preparados usando uma função TABLESAMPLE do BigQuery. Essa função cria uma amostra de 10 mil registros.

Quando você adiciona uma visualização ou uma tabela externa como fonte, o sistema lê os primeiros 1 milhão de registros. Com base nesses registros, o sistema seleciona uma amostra representativa de 10 mil registros.

Os dados na amostra não são atualizados automaticamente. As tabelas de amostra são armazenadas como resultados de consultas em cache e expiram em aproximadamente 24 horas. Para atualizar manualmente a tabela de amostra, consulte Atualizar exemplos de preparação de dados.

Modo de gravação

Para otimizar os custos e o tempo de processamento, é possível mudar as configurações do modo de gravação para processar incrementalmente os novos dados da origem. Por exemplo, se você tiver uma tabela no BigQuery em que os registros são inseridos diariamente e um painel do Looker que precisa refletir os dados alterados, é possível programar a preparação de dados do BigQuery para ler incrementalmente os novos registros da tabela de origem e propagá-los para a tabela de destino.

Para configurar a forma como a preparação de dados é gravada em uma tabela de destino, consulte Otimizar a preparação de dados processando dados de forma incremental.

Os seguintes modos de gravação são compatíveis:

Opção do modo de gravação	Descrição
Atualização completa	Executa as etapas de preparação de dados em todos os dados de origem e recompila a tabela de destino por completo. A tabela é recriada, não truncada. A atualização completa é o modo padrão ao gravar em uma tabela de destino.
adicionar ao final	Insere todos os dados da preparação como linhas adicionais na tabela de destino.
Incremental	Insere apenas os dados novos ou, dependendo da sua escolha de coluna incremental, alterados na tabela de destino. Com base na sua escolha de coluna incremental, a preparação de dados seleciona o mecanismo ideal de detecção de registros de mudança. Ela escolhe valores máximos para tipos de dados numéricos e de data/hora e únicos para dados categóricos. "Máximo" insere apenas registros em que o valor da coluna especificada é maior que o valor máximo dessa mesma coluna na tabela de destino. "Único" insere apenas registros em que os valores da coluna especificada não estão presentes nos valores existentes da mesma coluna na tabela de destino.
Inserir	Mescla linhas usando as chaves de mesclagem especificadas. Quando uma linha na tabela de destino corresponde às chaves de mesclagem especificadas para um registro de entrada, os valores nessa linha são atualizados na tabela de destino. Caso contrário, uma nova linha será inserida na tabela de destino.

Etapas de preparação de dados compatíveis

O BigQuery é compatível com os seguintes tipos de etapas de preparação de dados:

Tipo de etapa	Descrição
Origem	Adiciona uma origem quando você seleciona uma tabela do BigQuery para leitura ou quando adiciona uma etapa de junção.
Transformação	Limpa e transforma dados usando uma expressão SQL. Você recebe cartões de sugestão para as seguintes expressões: Funções de conversão de tipo, como `CAST` Funções de string, como `SUBSTR`, `CONCAT`, `REPLACE`, `UPPER`, `LOWER` e `TRIM` Funções de data/hora, como `PARSE_DATE`, `TIMESTAMP`, `EXTRACT` e `DATE_ADD` Funções JSON, como `JSON_VALUE` ou `JSON_QUERY` Você também pode usar qualquer expressão SQL válida do BigQuery nas etapas de transformação manual. Por exemplo: Cálculos com números, como conversão de watts-hora em quilowatts-hora Funções de matriz, como `ARRAY_AGG`, `ARRAY_CONCAT` e `UNNEST` Funções de janela, como `ROW_NUMBER`, `LAG`, `LEAD`, `RANK` e `NTILE` Para mais informações, consulte Adicionar uma transformação.
Filtro	Remove linhas usando a sintaxe da cláusula `WHERE`. Ao adicionar uma etapa de filtro, você pode transformá-la em uma etapa de validação. Para mais informações, consulte Filtrar linhas.
Eliminar duplicação	Remove linhas duplicadas dos dados com base nas chaves e na ordenação selecionadas. Para mais informações, consulte Eliminar duplicação de dados.
Validação	Envia para uma tabela de erros as linhas que não atendem aos critérios da regra de validação. Se os dados não passarem na regra de validação e nenhuma tabela de erros estiver configurada, a preparação de dados vai falhar durante a execução. Para mais informações, consulte Configurar a tabela de erros e adicionar uma regra de validação.
Participar	Une valores de duas fontes. As tabelas precisam estar no mesmo local. As colunas de chave de junção precisam ser do mesmo tipo de dados. As preparações de dados são compatíveis com as seguintes operações de junção: Junções internas Mesclagens à esquerda Mesclagens à direita Mesclagens externas completas Correlações (se nenhuma coluna de chave de junção for selecionada, uma correlação será usada) Para mais informações, consulte Adicionar uma operação de junção.
Destino	Define um destino para gerar etapas de preparação de dados. Se você inserir uma tabela de destino que não existe, a preparação de dados vai criar uma tabela usando as informações do esquema atual. Para mais informações, consulte Adicionar ou mudar uma tabela de destino.
Excluir colunas	Exclui colunas do esquema. Você realiza essa etapa na visualização de esquema. Para mais informações, consulte Excluir uma coluna.

Como programar execuções de preparação de dados

Para executar as etapas de preparação de dados e carregar os dados preparados na tabela de destino, crie uma programação. É possível programar preparações de dados no editor de preparação de dados e gerenciá-las na página Programação do BigQuery. Para mais informações, consulte Programar preparações de dados.

Como criar pipelines com tarefas de preparação de dados

É possível criar pipelines do BigQuery compostos por tarefas de preparação de dados, consulta SQL e notebooks. Depois, é possível executar esses pipelines em uma programação. Para mais informações, consulte Introdução aos pipelines do BigQuery.

Como controlar o acesso

Controle o acesso aos preparos de dados usando papéis do Identity and Access Management (IAM), criptografia com chaves do BigQuery e do Dataform Cloud KMS e o VPC Service Controls.

Permissões e papéis do IAM

Os usuários que preparam os dados e as contas de serviço do Dataform que executam os jobs precisam de permissões do IAM. Para mais informações, consulte Papéis obrigatórios e Configurar o Gemini para BigQuery.

Criptografia com chaves do Cloud KMS

Criptografe dados no nível do conjunto de dados ou para envolvidos no projeto usando as chaves padrão do Cloud KMS gerenciadas pelo cliente no BigQuery. Para mais informações, consulte Definir uma chave padrão de conjunto de dados e Definir uma chave padrão de projeto.

É possível criptografar o código do pipeline no nível do projeto por padrão usando uma chave do Cloud KMS do Dataform.

Perímetros do VPC Service Controls

Se você usa o VPC Service Controls, configure o perímetro para proteger o Dataform e o BigQuery. Para mais informações, consulte as limitações do VPC Service Controls para BigQuery e Dataform.

Função concedida ao criar uma preparação de dados

Ao criar uma preparação de dados, o BigQuery concede a você o papel de administrador do Dataform (roles/dataform.admin) nessa preparação. Todos os usuários com o papel de administrador do Dataform concedido no projeto Google Cloud têm acesso de proprietário a todas as preparações de dados criadas no projeto. Para substituir esse comportamento, consulte Conceder um papel específico na criação de recursos.

Limitações

A preparação de dados está disponível com as seguintes limitações:

Todos os conjuntos de dados de origem e destino do BigQuery de uma determinada preparação de dados precisam estar no mesmo local. Saiba mais em Locais.
Durante a edição do pipeline, os dados e as interações são enviados para um data center do Gemini para processamento. Para mais informações, consulte Locais.
O Gemini no BigQuery não é compatível com o Assured Workloads.
As preparações de dados do BigQuery não oferecem suporte à visualização, comparação ou restauração de versões.
As respostas do Gemini são baseadas em uma amostra do conjunto de dados que você fornece ao desenvolver seu pipeline de preparação de dados. Para mais informações, consulte Como o Gemini para Google Cloud usa seus dados e os termos do Programa Trusted Tester do Gemini para Google Cloud .
A preparação de dados do BigQuery não tem uma API própria. Para conferir as APIs necessárias, consulte Configurar o Gemini no BigQuery.

Locais

Seus jobs de tratamento de dados são executados e armazenados no local dos conjuntos de dados de origem. Se um local do repositório for especificado, ele precisará ser o mesmo dos conjuntos de dados de origem.

A região de armazenamento do código de preparação de dados pode ser diferente da região de execução do job.

Todos os novos recursos de código no seu projeto Google Cloud usam uma região padrão. Depois que o recurso é criado, não é possível mudar a região dele.

Para definir a região padrão para novos recursos de código, faça o seguinte:

Acessar a página do BigQuery.

Acessar o BigQuery
No painel à esquerda, clique em Arquivos para abrir o navegador de arquivos:
Ao lado do nome do projeto, clique em Ver ações do painel de arquivos > Mudar região de código.
Selecione a região de código que você quer usar como padrão.
Clique em Salvar.

Para conferir uma lista de regiões compatíveis, consulte Locais do BigQuery Studio.

O processamento de dados do BigQuery durante o desenvolvimento e a execução é sempre realizado no local dos conjuntos de dados de origem. Para saber onde o Gemini no BigQuery processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.

Preços

A execução de preparações de dados e a criação de amostras de prévia de dados usam recursos do BigQuery, que são cobrados conforme as taxas mostradas nos Preços do BigQuery.

A preparação de dados está incluída nos preços do Gemini no BigQuery. Você pode usar a preparação de dados do BigQuery durante a prévia sem custo adicional. Para mais informações, consulte Configurar o Gemini no BigQuery.

A seguir

Saiba como preparar dados com o Gemini no BigQuery.
Saiba como executar preparações de dados manualmente ou com uma programação.