Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Conjuntos de dados do Storage Insights

Este documento explica como os conjuntos de dados do Storage Insights ajudam a gerenciar o ambiente do Cloud Storage, oferecendo visibilidade e insights sobre seus dados.

Os conjuntos de dados do Storage Insights criam um índice consultável de metadados e atividades para seus buckets e objetos do Cloud Storage em toda a organização, pastas, projetos ou buckets específicos. Para consultar o índice de metadados e atividades, é necessário vincular o conjunto de dados ao BigQuery. Em seguida, você pode usar o conjunto de dados vinculado do BigQuery para analisar, consultar e visualizar seus dados. Vincule o conjunto de dados ao BigQuery para ativar a consulta do índice de metadados e atividades.

O conjunto de dados do Storage Insights é um recurso exclusivo disponível com a assinatura do Storage Intelligence. Google Cloud oferece um teste inicial de 30 dias do Storage Intelligence. Ative o teste para ter insights sobre o uso do Cloud Storage e tomar medidas. Para mais informações sobre o teste, consulte Teste inicial de 30 dias do Storage Intelligence.

Visão geral

Um conjunto de dados do Storage Insights fornece um snapshot contínuo de metadados, dados de atividades, erros e eventos para todos os projetos, buckets e objetos no escopo definido. Ao coletar e indexar informações continuamente, o conjunto de dados cria uma visualização abrangente que ajuda você a entender o estado dos dados, monitorar os recursos do Cloud Storage e ter insights para gerenciar e otimizar seu armazenamento.

O conjunto de dados está disponível como um conjunto de dados vinculado do BigQuery, com um conjunto de tabelas que têm os seguintes esquemas:

Metadados: um snapshot de metadados para projetos, buckets e objetos. Para mais detalhes sobre o esquema de metadados, consulte Esquema de metadados do conjunto de dados.
Dados de atividades: registros de mutação e erro para objetos e insights de atividades agregadas para seus buckets e projetos. Para mais detalhes sobre o esquema de dados de atividades, consulte Esquema de dados de atividades do conjunto de dados.
Erros e eventos: informações sobre eventos e erros de processamento de snapshots. Para mais detalhes sobre o esquema de erros e eventos, consulte Esquema de eventos e erros do conjunto de dados.

Casos de uso para conjuntos de dados do Storage Insights

Os conjuntos de dados do Storage Insights fornecem visualizações para ter insights granulares e em toda a organização sobre seus dados. As seções a seguir descrevem casos de uso para conjuntos de dados.

Entenda seu armazenamento

Você pode ter insights sobre seus dados visualizando metadados de projetos, buckets e objetos. As visualizações de metadados ajudam você com as seguintes tarefas:

Detectar anomalias, como dados em uma região inesperada.
Identificar oportunidades de otimização, como localizar arquivos temporários ou duplicados.
Consultar insights específicos, como objetos criados nas últimas 24 horas ou a contagem total de arquivos PDF.
Detalhar os objetos em que você quer agir extraindo uma lista de prefixos de um conjunto de objetos com base nos resultados da consulta. Para saber como realizar operações em bilhões de objetos de maneira sem servidor, consulte Operações em lote de armazenamento.

Analisar padrões de atividades

Usando a visualização de atividades do bucket, a visualização de atividades do projeto e a visualização de eventos de objetos, você pode fazer o seguinte:

Analisar padrões operacionais e identificar buckets inativos.
Monitorar operações nos seus objetos para ver como seu armazenamento está mudando ao longo do tempo.
Mapear seus projetos, buckets e prefixos mais ativos.

Entender a atividade regional do bucket

A visualização de atividades regionais do bucket mostra campos como bytes de solicitação e resposta, o que ajuda a identificar as regiões que interagem com frequência com o bucket. Analise a atividade regional do bucket para determinar se a realocação do bucket é necessária:

Confira o tráfego de saída e entrada total de um bucket em uma região para identificar buckets mais adequados para uma classe regional do que multirregional.
Avalie o tráfego total de dados em todas as regiões.

Avaliar o status de segurança

Você pode usar metadados de bucket e objeto para identificar objetos expostos publicamente, tipos de criptografia ativos e cronogramas de validade para retenção de dados. As seções a seguir descrevem como os conjuntos de dados do Storage Insights ajudam a avaliar possíveis vulnerabilidades de segurança.

Identificar objetos acessíveis publicamente

Você pode usar conjuntos de dados do Storage Insights para identificar objetos acessíveis publicamente. O status de acesso público dos seus objetos ajuda a governar os dados de armazenamento e mitigar os riscos de exfiltração de dados, permitindo que você identifique os objetos expostos à Internet pública.

O esquema de metadados de objetos fornece o status de acesso público, uma métrica calculada que ajuda a simplificar a análise de segurança. Para determinar o status de acesso público de um objeto, os conjuntos de dados do Storage Insights validam todas as seguintes configurações:

Os metadados de bucket e objeto, que incluem as seguintes configurações:
As políticas da organização, que incluem as seguintes configurações:
- Restrições de política, como prevenção de acesso público
- Políticas de negação do IAM
- Políticas do IAM com tags anexadas

Para ajudar a identificar a configuração específica que concede acesso público, os conjuntos de dados do Storage Insights incluem informações quando um objeto é legível ou gravável publicamente. Para objetos legíveis publicamente, essas informações indicam se a permissão se origina no objeto, no bucket ou na pasta gerenciada. Para objetos graváveis publicamente, ele fornece detalhes sobre se o acesso é concedido por uma ACL de objeto, uma ACL de bucket ou uma política do IAM.

Você pode consultar o status de acesso público de objetos usando o BigQuery e, em seguida, monitorar esses objetos usando painéis do Looker para listar todos os objetos legíveis ou graváveis publicamente. Para mais informações sobre os campos de status de acesso público, consulte securityInsights no esquema de metadados de objetos.

Auditar configurações de criptografia

Você pode usar visualizações de metadados de bucket e objeto para auditar configurações de criptografia. Essas visualizações incluem informações de criptografia no nível do bucket e do objeto, com campos como encryption nos metadados do bucket e encryptionType nos metadados do objeto. Você pode usar essas informações para fazer o seguinte:

Verificar se os buckets têm a criptografia padrão configurada verificando encryption.defaultEncryptionType e encryption.defaultKmsKeyName.
Validar a conformidade com as políticas de aplicação de criptografia verificando encryptionType para saber se os objetos usam chaves de criptografia gerenciadas pelo Google, gerenciadas pelo cliente ou fornecidas pelo cliente.
Identificar todos os objetos criptografados com uma chave específica do Cloud Key Management Service ou chaves de criptografia fornecidas pelo cliente.

Monitorar políticas de retenção de dados

Você pode usar visualizações de metadados de bucket e objeto para monitorar políticas de retenção de dados. Essas visualizações incluem campos como retentionExpirationTime nos metadados do objeto e softDeletePolicy nos metadados do bucket. Você pode usar esses campos para fazer o seguinte:

Acompanhar objetos que estão se aproximando da expiração da retenção.
Identificar buckets com a exclusão reversível ativada e monitorar a duração da retenção.
Identificar objetos em um estado de exclusão reversível verificando softDeleteTime.

Acelerar a solução de problemas

A visualização object_events_view contém informações de erro que podem ajudar na solução de problemas. Você pode usar essa visualização para inspecionar operações que resultaram em erros, identificar motivos de erro e detectar projetos e buckets com altas taxas de erro. Por exemplo, você pode resolver problemas de erros 429 identificando o bucket afetado, o projeto e a causa raiz, como cota de recursos ou limites de largura de banda.

Analisar dados e metadados de objetos usando o BigQuery

Você pode analisar os dados nos conjuntos de dados do Storage Insights usando as funções ObjectRef do BigQuery. Por exemplo, é possível criar consultas para ajudar a detectar informações sensíveis em documentos ou gerar descrições de imagens.

Para analisar o conteúdo do objeto, use a ref coluna das tabelas de metadados do objeto com funções ObjectRef. Para mais detalhes, consulte Analisar dados e metadados de objetos usando o BigQuery.

Benefícios dos conjuntos de dados do Storage Insights

Os conjuntos de dados do Storage Insights fornecem metadados e informações de atividades sobre seu armazenamento em um formato consultável no BigQuery. Confira a seguir os benefícios de usar conjuntos de dados do Storage Insights:

Analise seu armazenamento em um escopo personalizável para ter insights em toda a organização ou especifique pastas, projetos ou buckets para análise.
Com os dados disponíveis no BigQuery, use consultas SQL e de linguagem natural com o Gemini para analisar seus dados. Para mais detalhes, consulte Analisar dados com a ajuda do Gemini.
Você pode visualizar seus dados conectando-se a um painel do Looker. É possível usar o painel do Storage Intelligence como um modelo que fornece um exemplo dos insights que podem ser derivados de conjuntos de dados. Você pode usar o modelo para se conectar aos conjuntos de dados ou adicionar gráficos personalizados. Para informações sobre como usar o modelo, consulte Instruções de conexão do painel do Storage Intelligence.

Como os conjuntos de dados do Storage Insights funcionam

Para usar conjuntos de dados do Storage Insights, primeiro configure um conjunto de dados em um projeto. Especifique a organização, as pastas ou os projetos para os quais você quer rastrear dados. Após a criação, conceda as permissões necessárias ao agente de serviço para gerar o conjunto de dados. Em seguida, você pode vincular o conjunto de dados a BigQuery para consulta. Depois de configurado, o serviço coleta e ingere automaticamente snapshots diários de metadados de objetos, metadados de buckets, operações e erros em uma instância do BigQuery de propriedade do Cloud Storage. Os dados são retidos de acordo com o período de armazenamento configurado e armazenados de maneira otimizada para minimizar os custos de armazenamento e análise.

Na configuração do conjunto de dados, você define quais dados são coletados, onde são armazenados e como são gerenciados.

A tabela a seguir descreve as principais propriedades que você precisa definir ao configurar um conjunto de dados:

Propriedade	Descrição	Detalhes e limites
Escopo do conjunto de dados	Especifica os recursos (organizações, projetos ou pastas) que contêm os buckets e objetos que você quer incluir no conjunto de dados.	É possível especificar projetos ou pastas individualmente ou usando um arquivo CSV Cada configuração permite apenas um escopo de conjunto de dados. Você pode especificar até `10,000` projetos ou pastas.
Filtros de bucket	Filtros usados para incluir ou excluir buckets específicos do conjunto de dados.	É possível filtrar por nome do bucket usando expressões regulares ou filtrar por local do bucket.
Período de armazenamento do conjunto de dados	O número de dias em que o conjunto de dados captura e retém metadados e dados de atividades, incluindo a data de criação do conjunto de dados. Para tabelas de dados de atividades, é possível substituir o período de armazenamento de dados usando a propriedade Período de armazenamento de dados de atividades.	Esse período de armazenamento é uma janela contínua e pode ser de até `90` dias. Os conjuntos de dados são atualizados com novos metadados a cada `24` horas. O sistema exclui automaticamente os dados capturados fora da janela de retenção. Por exemplo, se você criar um conjunto de dados em 1º de outubro de 2023, com uma janela de retenção definida como `30` dias. Em 30 de outubro, o conjunto de dados reflete os últimos `30` dias de dados (1º de outubro a 30 de outubro). Em 31 de outubro, o conjunto de dados reflete os dados de 2 a 31 de outubro. Você pode modificar a janela de retenção a qualquer momento. Por padrão, o período de armazenamento se aplica às tabelas de metadados e também às tabelas de dados de atividades quando o período de armazenamento de dados de atividades não é especificado.
Período de armazenamento dos dados de atividades	O número de dias em que o conjunto de dados captura e retém dados de atividades. Quando definido, esse valor substitui o Período de armazenamento do conjunto de dados.	O período de armazenamento pode ser de até `365 days`. O período de armazenamento dos dados de atividades é aplicável a tabelas de dados de atividades.
Local	O local do BigQuery usado para armazenar o conjunto de dados e os dados associados a ele.	Precisa ser um local com suporte do BigQuery, como `us-central1`. Recomendamos selecionar o local das tabelas do BigQuery se você tiver tabelas do BigQuery.
Tipo de agente de serviço	Determina o escopo do agente de serviço que lê e grava dados para a configuração do conjunto de dados. Pode ser um agente de serviço com escopo de configuração ou um agente de serviço com escopo de projeto.	Os agentes de serviço com escopo de projeto podem acessar e gravar conjuntos de dados para todas as configurações de conjuntos de dados no projeto. Por exemplo, se você tiver várias configurações de conjuntos de dados em um projeto, só precisará conceder as permissões necessárias ao agente de serviço com escopo de projeto uma vez. Isso permite que ele leia e grave conjuntos de dados para todas as configurações de conjuntos de dados no projeto. Quando uma configuração de conjunto de dados é excluída, o agente de serviço com escopo de projeto não é excluído. Os agentes de serviço com escopo de configuração só podem acessar e gravar o conjunto de dados gerado pela configuração específica do conjunto de dados. Isso significa que, se você tiver várias configurações de conjuntos de dados, precisará conceder as permissões necessárias a cada agente de serviço com escopo de configuração. Quando uma configuração de conjunto de dados é excluída, o agente de serviço com escopo de configuração é excluído.

Depois de especificar as propriedades de configuração e conceder as permissões necessárias ao agente de serviço, vincule o conjunto de dados ao BigQuery para consulta.

Para mais detalhes sobre as propriedades definidas ao criar ou atualizar uma configuração de conjunto de dados, consulte o recurso DatasetConfigs na documentação da API JSON.

Após a configuração, o serviço coleta e ingere dados automaticamente em uma instância do BigQuery de propriedade do Cloud Storage. O cronograma de preenchimento de dados nos conjuntos de dados é o seguinte:

O carregamento inicial do conjunto de dados e os dados de atividades para buckets ou objetos recém-adicionados podem levar de 24 a 48 horas para aparecer como um conjunto de dados vinculado no BigQuery.
Os dados de atividades normalmente são incluídos em até quatro horas após a atividade (a latência pode ser maior ocasionalmente).
Os snapshots de metadados (para projetos, buckets e objetos) são atualizados a cada 24 horas.

Considerações

Considere o seguinte para configurações de conjuntos de dados:

Ao renomear uma pasta em um bucket com o namespace hierárquico ativado, os nomes dos objetos nesse bucket são atualizados. Quando o conjunto de dados vinculado ingere esses snapshots de objetos, eles são considerados novas entradas.
As somas de verificação CRC32C e os hashes MD5 não estão disponíveis na tabela object metadata para objetos criptografados com chaves de criptografia gerenciadas pelo cliente (CMEK).
Os conjuntos de dados são compatíveis apenas com os seguintes locais do BigQuery:
- EU
- US
- asia-south1
- asia-south2
- asia-southeast1
- europe-west1
- us-central1
- us-east1
- us-east4
As seguintes limitações se aplicam ao determinar o status de acesso público para objetos usando conjuntos de dados do Storage Insights:
- O status de acesso público não está disponível para objetos em pastas gerenciadas.
- Os conjuntos de dados do Storage Insights não consideram o VPC Service Controls ou a filtragem de IP do bucket ao determinar o status de acesso público de um objeto.