Introdução à governança de dados no BigQuery
O BigQuery tem recursos de governança integrados que simplificam a maneira como você descobre, gerencia, monitora, controla e usa seus dados e recursos de IA.
Administradores, gestores de dados, gerentes de governança de dados e administradores de dados podem usar os recursos de governança no BigQuery para fazer o seguinte:
- Descobrir dados.
- Selecionar dados.
- Coletar e enriquecer metadados.
- Gerenciar a qualidade de dados.
- Garantir que os dados sejam usados de forma consistente e em conformidade com as políticas organizacionais.
- Compartilhar dados em escala e de maneira segura.
Os recursos de governança do BigQuery são baseados no Knowledge Catalog, um inventário centralizado de todos os recursos de dados na sua organização. O Knowledge Catalog contém metadados comerciais, técnicos e operacionais de todos os seus dados. Ele ajuda a descobrir relações e semântica nos metadados aplicando inteligência artificial e machine learning.
O metastore do BigLake permite usar vários mecanismos de processamento de dados para consultar uma única cópia de dados com um único esquema, sem duplicação de dados. Os mecanismos de processamento de dados que podem ser usados incluem o BigQuery, o Apache Spark, o Apache Flink e o Apache Hive. Os dados podem ser armazenados em locais como tabelas de armazenamento do BigQuery, tabelas do BigLake para Apache Iceberg no BigQuery ou tabelas externas do BigLake.
O BigQuery oferece suporte a um ciclo de vida de dados completo, da descoberta ao uso de dados. Os recursos de governança também estão disponíveis no Knowledge Catalog.
Descoberta de dados
O BigQuery descobre dados em toda a organização em Google Cloud, estejam eles no BigQuery, Spanner, Cloud SQL, Pub/Sub ou Cloud Storage. Os metadados são extraídos e armazenados automaticamente no Knowledge Catalog. Por exemplo, é possível extrair metadados de dados estruturados e não estruturados do Cloud Storage e criar automaticamente tabelas do BigLake prontas para consulta em grande escala. Isso permite realizar análises com um mecanismo de código aberto sem duplicação de dados.
Também é possível extrair e catalogar metadados de fontes de dados de terceiros usando conectores personalizados.
O BigQuery oferece os seguintes recursos de descoberta de dados:
- Pesquisa. Pesquise dados e recursos de IA em projetos e na organização. No BigQuery no Google Cloud console do, use a pesquisa semântica (prévia) para pesquisar recursos usando linguagem cotidiana. Ou encontre recursos usando a pesquisa por palavras-chave no Knowledge Catalog.
- Descoberta automática de dados do Cloud Storage. Verifique os dados em buckets do Cloud Storage para extrair e catalogar metadados. A descoberta automática cria tabelas para dados estruturados e não estruturados.
- Importação de metadados. Importe metadados em escala de sistemas de terceiros para o Knowledge Catalog. É possível criar conectores personalizados para extrair dados das fontes de dados e executar pipelines de conectividade gerenciada que orquestram o fluxo de trabalho de importação de metadados.
- Exportação de metadados. Exporte metadados em escalonar horizontalmente do Knowledge Catalog. É possível analisar os metadados exportados com o BigQuery ou integrar os metadados em aplicativos personalizados ou fluxos de trabalho de processamento programático.
Curadoria e gestão de dados
Para melhorar a capacidade de descoberta e usabilidade dos dados, os gestores e administradores de dados podem usar o BigQuery para revisar, atualizar e analisar metadados. Os recursos de curadoria e gestão de dados do BigQuery ajudam a garantir que os dados sejam precisos, consistentes e alinhados às políticas da organização.
O BigQuery oferece os seguintes recursos de curadoria e gestão de dados:
- Glossário empresarial. Melhore o contexto, a colaboração e a pesquisa definindo a terminologia da sua organização em um glossário. Identifique os gestores de dados para os termos e anexe termos aos campos de recursos de dados.
- Insights de dados. O Gemini usa metadados para gerar perguntas em linguagem natural sobre a tabela e as consultas SQL para respondê-las. Esses insights de dados ajudam a descobrir padrões, avaliar a qualidade de dados e realizar análises estatísticas.
- Criação de perfil de dados. Identifique características estatísticas comuns das colunas nas tabelas do BigQuery para entender e analisar seus dados com mais eficiência.
- Qualidade de dados. Defina e execute verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage e aplique controles de dados regulares e contínuos em ambientes do BigQuery.
- Linhagem de dados. Acompanhe como os dados se movimentam nos seus sistemas: de onde vêm, para onde vão e quais transformações são aplicadas. O BigQuery oferece suporte à linhagem de dados nos níveis de tabela e coluna.
Próximas etapas para curadoria e gestão de dados
A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de curadoria e gestão de dados:
| Nível de experiência | Programa de aprendizado |
|---|---|
| Novos usuários da nuvem |
|
| Usuários experientes da nuvem |
|
Segurança e controle de acesso
O gerenciamento de acesso aos dados é o processo de definir, aplicar e monitorar as regras e políticas que regem quem tem acesso aos dados. Com o gerenciamento de acesso, os dados só podem ser acessados pelas pessoas autorizadas.
O BigQuery oferece os seguintes recursos de segurança e controle de acesso:
- Identity and Access Management (IAM). Com o IAM, você controla quem tem acesso aos recursos do BigQuery, como projetos, conjuntos de dados, tabelas e visualizações. É possível conceder papéis do IAM a usuários, grupos e contas de serviço. Esses papéis definem o que eles podem fazer com seus recursos.
- Controles de acesso no nível da coluna e controles de acesso no nível da linha. Os controles de acesso no nível da coluna e da linha permitem restringir o acesso a colunas e linhas específicas em uma tabela, com base em atributos do usuário ou valores de dados. Esse controle permite que você implemente acesso refinado para ajudar a proteger dados sensíveis contra acesso não autorizado.
- Gerenciamento da Transferência de dados. Com o VPC Service Controls, é possível criar perímetros em torno dos Google Cloud recursos e controlar o acesso a eles com base nas políticas da organização.
- Registros de auditoria. Os registros de auditoria fornecem um registro detalhado da atividade do usuário e dos eventos do sistema na sua organização. Esses registros ajudam a aplicar políticas de governança de dados e a identificar possíveis riscos de segurança.
- Mascaramento de dados. Com o mascaramento de dados, é possível ocultar dados sensíveis em uma tabela e, ao mesmo tempo, permitir que usuários autorizados acessem os dados próximos. O mascaramento de dados também pode ocultar dados que correspondem a padrões de dados sensíveis, protegendo contra divulgação acidental de dados.
- Criptografia. O BigQuery criptografa automaticamente todos os dados em repouso e em trânsito, além de permitir a personalização das configurações de criptografia para atender aos seus requisitos específicos.
Próximas etapas para segurança e controle de acesso
A tabela a seguir descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de controle de acesso:
| Nível de experiência | Programa de aprendizado |
|---|---|
| Novos usuários da nuvem |
|
| Usuários experientes da nuvem |
|
Dados pessoais compartilhados e insights
O BigQuery permite compartilhar dados e insights em escala dentro e entre limites organizacionais. Ele tem uma estrutura robusta de segurança e privacidade por meio de uma plataforma de troca de dados integrada. Usando o BigQuery Sharing, é possível descobrir, acessar e consumir uma biblioteca de dados selecionada por uma ampla seleção de provedores de dados.
O BigQuery oferece os seguintes recursos de compartilhamento:
- Compartilhe mais do que dados. É possível compartilhar uma ampla variedade de dados e recursos de IA, como conjuntos de dados, tabelas, visualizações, streams em tempo real com tópicos do Pub/Sub, procedimentos armazenados em SQL e modelos do BigQuery ML.
- Acesse conjuntos de dados do Google. Aumente suas iniciativas de análise e ML com conjuntos de dados do Google de tendências de pesquisa, modelos do DeepMind WeatherNext, Plataforma Google Maps, Google Earth Engine e muito mais.
- Integre-se aos princípios de governança de dados. Os proprietários de dados mantêm o controle sobre os dados e têm a capacidade de definir e configurar regras ou políticas para restringir o acesso e o uso.
- Compartilhamento de dados ao vivo e sem cópia. Os dados são compartilhados no local sem integração, movimentação ou replicação de dados, garantindo que a análise seja baseada nas informações mais recentes. Os conjuntos de dados vinculados criados são um ponteiro dinâmico para o recurso compartilhado.
- Melhore a postura de segurança. É possível usar controles de acesso para reduzir o acesso excessivo, incluindo suporte integrado ao VPC Service Controls.
- Aumente a visibilidade com métricas de uso do provedor. Os editores de dados podem visualizar e monitorar o uso de recursos compartilhados, como o número de jobs executados, o total de bytes verificados e os assinantes de cada organização.
- Colabore em dados sensíveis com data clean rooms. As data clean rooms oferecem um ambiente de segurança aprimorada em que várias partes podem compartilhar, mesclar e analisar os próprios recursos de dados sem mover ou revelar os dados subjacentes.
- Criado no BigQuery. É possível aproveitar a escalonabilidade e os recursos de processamento massivo do BigQuery, permitindo colaborações em grande escala.
Próximas etapas para compartilhamento
A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de compartilhamento:
| Nível de experiência | Programa de aprendizado |
|---|---|
| Novos usuários da nuvem | |
| Usuários experientes da nuvem |
|
A seguir
- Saiba mais sobre autenticação no Google.
- Saiba mais sobre a exclusão de dados no Google Cloud.
- Saiba mais sobre as práticas recomendadas do IAM.
- Saiba mais sobre a hierarquia de recursos no Google Cloud.
- Saiba mais sobre o IAM no Google Cloud.