Visão geral da preparação de dados do BigQuery
Este documento descreve a preparação de dados aprimorada por IA no BigQuery. As preparações de dados são BigQuery BigQuery que usam o Gemini no BigQuery para analisar seus dados e fornecer sugestões inteligentes para limpeza, transformação e enriquecimento. É possível reduzir significativamente o tempo e o esforço necessários para tarefas manuais de preparação de dados. A programação de preparações de dados é feita por Dataform.
Benefícios
- É possível reduzir o tempo gasto no desenvolvimento de pipelines de dados com sugestões de transformação geradas pelo Gemini e com reconhecimento de contexto.
- É possível validar os resultados gerados em uma prévia e receber sugestões de limpeza e enriquecimento da qualidade de dados com o mapeamento de esquema automatizado.
- O Dataform permite usar um processo de integração contínua e desenvolvimento contínuo (CI/CD), com suporte à colaboração entre equipes para revisões de código e controle de origem.
Pontos de entrada de preparação de dados
É possível criar e gerenciar preparações de dados na página BigQuery Studio (consulte Iniciar uma sessão de preparação de dados).
Ao abrir uma tabela na preparação de dados do BigQuery, um job do BigQuery é executado usando suas credenciais. A execução cria linhas de amostra da tabela escolhida e grava os resultados em uma tabela temporária no mesmo projeto. O Gemini usa os dados e o esquema de amostra para gerar sugestões de preparação de dados mostradas no editor de preparação de dados.
Visualizações no editor de preparação de dados
As preparações de dados aparecem como guias na página BigQuery. Cada guia tem uma série de subguias ou visualizações de preparação de dados, em que você desenvolve e gerencia suas preparações de dados.
Visualização de dados
Ao criar uma preparação de dados, uma guia do editor de preparação de dados é aberta, mostrando a visualização de dados, que contém uma amostra representativa da tabela. Para preparações de dados atuais, é possível navegar até a visualização de dados clicando em um nó na visualização de gráfico do pipeline de preparação de dados.
A visualização de dados permite que você faça o seguinte:
- Interaja com seus dados para formar etapas de preparação de dados.
- Aplique sugestões do Gemini.
- Melhore a qualidade das sugestões do Gemini inserindo valores de exemplo nas células.
Em cada coluna da tabela, um perfil estatístico (um histograma) mostra a contagem dos principais valores de cada coluna nas linhas de visualização.

Visualização em gráfico
A visualização em gráfico é uma visão geral da preparação de dados. Ela aparece como uma guia na página BigQuery no console, quando você abre uma preparação de dados. O gráfico mostra nós para todas as etapas do pipeline de preparação de dados. É possível selecionar um nó no gráfico para configurar as etapas de preparação de dados que ele representa.

Visualização de esquema
A visualização de esquema de preparação de dados mostra o esquema atual da etapa de preparação de dados ativa. O esquema mostrado corresponde às colunas na visualização de dados.
Na visualização de esquema, é possível realizar operações de esquema dedicadas, como remover colunas, que também cria etapas na lista Etapas aplicadas.

Sugestões do Gemini
O Gemini oferece sugestões com reconhecimento de contexto para ajudar nas seguintes tarefas de preparação de dados:
- Aplicar transformações e regras de qualidade de dados
- Padronizar e enriquecer dados
- Automatizar o mapeamento de esquemas
Cada sugestão aparece em um card na lista de sugestões do editor de preparação de dados. O card contém as seguintes informações:
- A categoria de alto nível da etapa, como Manter linhas ou Transformação
- Uma descrição da etapa, como Manter linhas se
COLUMN_NAMEnão forNULL - A expressão SQL correspondente usada para executar a etapa
É possível visualizar, editar ou aplicar o card de sugestão ou ajustar a sugestão. Também é possível adicionar etapas manualmente. Para mais informações, consulte Preparar dados com o Gemini.
Para ajustar as sugestões do Gemini, dê um exemplo do que mudar em uma coluna.
Amostragem de dados
O BigQuery usa a amostragem de dados para fornecer uma prévia da preparação de dados. É possível visualizar a amostra na visualização de dados de cada nó.
Ao adicionar tabelas padrão do BigQuery como uma fonte, os dados são
preparados usando uma função
TABLESAMPLE do BigQuery. Essa função cria uma amostra de 10 mil registros.
Ao adicionar uma visualização ou uma tabela externa como uma fonte, o sistema lê os primeiros 1 milhão de registros. A partir desses registros, o sistema seleciona uma amostra representativa de 10 mil registros.
Os dados na amostra não são atualizados automaticamente. As tabelas de amostra são armazenadas como resultados de consultas em cache e expiram em aproximadamente 24 horas. Para atualizar manualmente a tabela de amostra, consulte Atualizar amostras de preparação de dados
Modo de gravação
Para otimizar os custos e o tempo de processamento, é possível mudar as configurações do modo de gravação para processar incrementalmente novos dados da fonte. Por exemplo, se você tiver uma tabela no BigQuery em que os registros são inseridos diariamente e um painel do Looker que precisa refletir os dados alterados, é possível programar a preparação de dados do BigQuery para ler incrementalmente os novos registros da tabela de origem e propagá-los para a tabela de destino.
Para configurar a maneira como a preparação de dados é gravada em uma tabela de destino, consulte Otimizar a preparação de dados processando dados incrementalmente.
Os seguintes modos de gravação são aceitos:
| Opção de modo de gravação | Descrição |
|---|---|
| Atualização completa | Executa as etapas de preparação de dados em todos os dados de origem e, em seguida, recria a tabela de destino por completo. A tabela é recriada, não truncada. A atualização completa é o modo padrão ao gravar em uma tabela de destino. |
| adicionar ao final | Insere todos os dados da preparação de dados como linhas adicionais na tabela de destino. |
| Incremental | Insere apenas os dados novos ou, dependendo da escolha da coluna incremental, os dados alterados na tabela de destino. Com base na escolha da coluna incremental, a preparação de dados selecionará o mecanismo ideal de detecção de registro de mudança. Ele escolhe valores máximos para tipos de dados numéricos e de data/hora e exclusivos para dados categóricos. O máximo insere apenas registros em que o valor da coluna especificada é maior que o valor máximo da mesma coluna na tabela de destino. O exclusivo insere apenas registros em que os valores de coluna especificados não estão presentes nos valores atuais da mesma coluna na tabela de destino. |
| Inserir | Mescla linhas usando as chaves de mesclagem especificadas. Quando uma linha atual na tabela de destino corresponde às chaves de mesclagem especificadas para um registro de entrada, os valores nessa linha são atualizados na tabela de destino. Caso contrário, uma nova linha será inserida na tabela de destino. |
Etapas de preparação de dados aceitas
O BigQuery aceita os seguintes tipos de etapas de preparação de dados:
| Tipo de etapa | Descrição |
|---|---|
| Origem | Adiciona uma origem quando você seleciona uma tabela do BigQuery para ler ou quando adiciona uma etapa de mesclagem. |
| Transformação | Limpa e transforma dados usando uma expressão SQL. Você recebe
cards de sugestão para as seguintes expressões:
Também é possível usar qualquer expressão SQL válida do BigQuery em etapas de transformação manual. Por exemplo:
Para mais informações, consulte Adicionar uma transformação. |
| Filtro | Remove linhas usando a sintaxe da cláusula WHERE. Ao adicionar uma etapa de filtro, é possível transformá-la em uma etapa de validação.
Para mais informações, consulte Filtrar linhas. |
| Eliminar duplicação | Remove linhas duplicadas dos dados com base nas chaves e na ordem selecionadas.
Para mais informações, consulte Eliminar duplicação de dados. |
| Validação | Envia linhas que não atendem aos critérios da regra de validação para uma tabela de erros. Se os dados falharem na regra de validação e nenhuma tabela de erros for
configurada, a preparação de dados falhará durante a execução.
Para mais informações, consulte Configurar a tabela de erros e adicionar uma regra de validação. |
| Participar | Mescla valores de duas fontes. As tabelas precisam estar no mesmo local.
As colunas de chave de junção precisam ser do mesmo tipo de dados. As preparações de dados
aceitam as seguintes operações de mesclagem:
Para mais informações, consulte Adicionar uma operação de mesclagem. |
| Destino | Define um destino para gerar etapas de preparação de dados. Se você
inserir uma tabela de destino que não existe, a preparação de dados
criará uma nova tabela usando as informações do esquema atual. Para mais informações, consulte Adicionar ou mudar uma tabela de destino. |
| Excluir colunas | Exclui colunas do esquema. Você realiza
essa etapa na visualização de esquema.
Para mais informações, consulte Excluir uma coluna. |
Como programar execuções de preparação de dados
Para executar as etapas de preparação de dados e carregar os dados preparados na tabela de destino, crie uma programação. É possível programar preparações de dados no editor de preparação de dados e gerenciá-las na página Programação do BigQuery. Para mais informações, consulte Programar preparações de dados.
Como criar pipelines com tarefas de preparação de dados
É possível criar pipelines do BigQuery compostos por tarefas de preparação de dados, consulta SQL e notebooks. Em seguida, é possível executar esses pipelines em uma programação. Para mais informações, consulte Introdução aos pipelines do BigQuery.
Como controlar o acesso
Controle o acesso às preparações de dados usando papéis do Identity and Access Management (IAM), criptografia com chaves do Cloud KMS do BigQuery e do Dataform e VPC Service Controls.
Permissões e papéis do IAM
Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs exigem permissões do IAM. Para mais informações, consulte Papéis necessários e Configurar o Gemini para o BigQuery.
Criptografia com chaves do Cloud KMS
Criptografe dados no nível do conjunto de dados ou do projeto usando as chaves padrão do Cloud KMS gerenciadas pelo cliente no BigQuery. Para mais informações, consulte Definir uma chave padrão do conjunto de dados e Definir uma chave padrão do projeto.
É possível criptografar o código do pipeline no nível do projeto por padrão usando uma chave do Cloud KMS do Dataform.
Perímetros do VPC Service Controls
Se você usar o VPC Service Controls, será necessário configurar o perímetro para proteger o Dataform e o BigQuery. Para mais informações, consulte as limitações do VPC Service Controls para BigQuery e Dataform.
Papel concedido ao criar uma preparação de dados
Ao criar uma preparação de dados, o BigQuery concede a você o
papel de administrador do Dataform
(roles/dataform.admin) nessa preparação de dados. Todos os usuários com o
papel de administrador do Dataform concedido no Google Cloud projeto têm acesso de proprietário a todas
as preparações de dados criadas no projeto. Para substituir esse comportamento, consulte
Conceder um papel específico na criação de recursos.
Limitações
A preparação de dados está disponível com as seguintes limitações:
- Todos os conjuntos de dados de origem e destino da preparação de dados do BigQuery precisam estar no mesmo local. Para mais informações, consulte Locais.
- Durante a edição do pipeline, os dados e as interações são enviados a um data center do Gemini para processamento. Para mais informações, consulte Locais.
- O Gemini no BigQuery não é aceito pelo Assured Workloads.
- As preparações de dados do BigQuery não aceitam a visualização, a comparação ou a restauração de versões de preparação de dados.
- As respostas do Gemini são baseadas em uma amostra do conjunto de dados fornecido ao desenvolver o pipeline de preparação de dados. Para mais informações, consulte Como o Gemini for Google Cloud usa seus dados e os termos do programa Gemini for Google Cloud Trusted Tester.
- A preparação de dados do BigQuery não tem uma API própria. Para APIs necessárias, consulte Configurar o Gemini no BigQuery.
Locais
Os jobs de processamento de dados são executados e armazenados no local dos conjuntos de dados de origem. Se um local de repositório for especificado, ele precisará ser o mesmo dos conjuntos de dados de origem.
A região de armazenamento de código de preparação de dados pode ser diferente da região de execução do job.
Todos os novos recursos de código no seu Google Cloud projeto usam uma região padrão. Depois que o recurso é criado, não é possível mudar a região dele.
Para definir a região padrão para novos recursos de código, faça o seguinte:
Acessar a página do BigQuery.
No painel à esquerda, clique em Arquivos para abrir o navegador de arquivos:
Ao lado do nome do projeto, clique em Ver ações do painel de arquivos > Mudar região de código.
Selecione a região de código que você quer usar como padrão.
Clique em Salvar.
Para conferir uma lista de regiões aceitas, consulte Locais do BigQuery Studio.
O processamento de dados do BigQuery durante o desenvolvimento e o tempo de execução é sempre realizado no local dos conjuntos de dados de origem. Para saber onde o Gemini no BigQuery processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.
Preços
A execução de preparações de dados e a criação de amostras de prévia de dados usam recursos do BigQuery, que são cobrados de acordo com as taxas mostradas em preços do BigQuery.
A preparação de dados está incluída nos preços do Gemini no BigQuery. É possível usar a preparação de dados do BigQuery durante a prévia sem custo adicional. Para mais informações, consulte Configurar o Gemini no BigQuery.
Cotas
Para mais informações, consulte Cotas do Gemini no BigQuery.
A seguir
- Saiba como preparar dados com o Gemini no BigQuery.
- Saiba como executar preparações de dados manualmente ou com uma programação.