Conjuntos de dados do Storage Insights

Este documento explica como os conjuntos de dados do Storage Insights ajudam você a gerenciar seu ambiente do Cloud Storage, oferecendo visibilidade e insights sobre seus dados.

Os conjuntos de dados do Storage Insights criam um índice consultável de metadados e atividades para seus buckets e objetos do Cloud Storage em toda a organização, pastas, projetos ou buckets específicos. Para consultar os metadados e o índice de atividade, vincule o conjunto de dados ao BigQuery. Em seguida, use o conjunto de dados vinculado do BigQuery para analisar, consultar e visualizar seus dados. Vincule o conjunto de dados ao BigQuery para ativar a consulta do índice de metadados e atividades.

O conjunto de dados do Storage Insights é um recurso exclusivo disponível com a assinatura do Storage Intelligence. Google Cloud oferece um teste inicial de 30 dias do Storage Intelligence. Ative o teste para receber insights sobre seu uso do Cloud Storage e tomar medidas. Para mais informações sobre o teste, consulte Teste inicial de 30 dias do Storage Intelligence.

Visão geral

Um conjunto de dados do Storage Insights fornece um snapshot contínuo de metadados, dados de atividade, erros e eventos de todos os projetos, buckets e objetos no escopo definido. Ao coletar e indexar informações continuamente, o conjunto de dados cria uma visão abrangente que ajuda você a entender o estado dos seus dados, monitorar os recursos do Cloud Storage e receber insights para gerenciar e otimizar seu patrimônio de armazenamento.

O conjunto de dados está disponível como um conjunto de dados vinculado do BigQuery, com um conjunto de tabelas que têm os seguintes esquemas:

Casos de uso para conjuntos de dados do Storage Insights

Os conjuntos de dados do Storage Insights oferecem visualizações para gerar insights granulares e em toda a organização sobre seus dados. As seções a seguir descrevem casos de uso para conjuntos de dados.

Entender seu patrimônio de armazenamento

É possível receber insights sobre seus dados ao visualizar metadados de projetos, buckets e objetos. As visualizações de metadados ajudam você com as seguintes tarefas:

  • Detectar anomalias, como dados em uma região inesperada.
  • Identifique oportunidades de otimização, como localizar arquivos temporários ou duplicados.
  • Consulte insights específicos, como objetos criados nas últimas 24 horas ou o número total de arquivos PDF.
  • Detalhe os objetos que você quer usar extraindo uma lista de prefixos de um conjunto de objetos com base nos resultados da consulta. Para saber como realizar operações em bilhões de objetos sem servidor, consulte operações em lote do Cloud Storage.

Analisar padrões de atividade

Usando as visualizações de atividade do bucket, do projeto e de eventos do objeto, é possível fazer o seguinte:

  • Analise padrões operacionais e identifique intervalos inativos.

  • Monitore as operações nos seus objetos para ver como seu patrimônio de armazenamento está mudando ao longo do tempo.

  • Mapeie seus projetos, buckets e prefixos mais ativos.

Entender a atividade de buckets regionais

A visualização de atividade regional do bucket mostra campos como bytes de solicitação e resposta, o que ajuda a identificar as regiões que interagem com frequência com seu bucket. Analise a atividade do bucket regional para determinar se a realocação do bucket é necessária:

  • Confira o total de saída e entrada de um bucket em uma região para identificar aqueles que podem ser mais adequados para uma classe regional em vez de multirregional.

  • Avalie o tráfego total de dados em todas as regiões.

Acelere a solução de problemas

Ao analisar as informações de erro na visualização de eventos de objeto, é possível inspecionar operações nos objetos que causaram erros, analisar o motivo do erro e acelerar a solução do problema. Também é possível detectar projetos e intervalos com o maior número de erros para determinar as taxas de sucesso e erro. Por exemplo, é possível resolver problemas de erros 429 identificando o bucket e o projeto afetados, além da causa raiz, como cota de recursos ou limites de largura de banda.

Benefícios dos conjuntos de dados do Storage Insights

Os conjuntos de dados do Storage Insights fornecem metadados e informações de atividade sobre seu patrimônio de armazenamento em um formato consultável no BigQuery. Confira os benefícios de usar conjuntos de dados do Storage Insights:

  • Analise seu patrimônio de armazenamento em um escopo personalizável para receber insights em toda a organização ou especifique pastas, projetos ou buckets para análise.

  • Com os dados disponíveis no BigQuery, use consultas em SQL e linguagem natural com o Gemini para analisar seus dados. Para mais detalhes, consulte Analisar dados com a ajuda do Gemini.

  • Você pode visualizar seus dados conectando-se a um painel do Looker. Você pode usar o painel de inteligência de armazenamento como um modelo que fornece um exemplo dos insights que podem ser derivados de conjuntos de dados. É possível usar o modelo para se conectar aos seus conjuntos de dados ou adicionar gráficos personalizados. Para informações sobre como usar o modelo, consulte Instruções de conexão do painel do Storage Intelligence.

Como funcionam os conjuntos de dados do Storage Insights

Para usar os conjuntos de dados do Storage Insights, primeiro configure um conjunto de dados em um projeto. Especifique a organização, as pastas ou os projetos para os quais você quer rastrear dados. Depois da criação, conceda as permissões necessárias ao agente de serviço para gerar o conjunto de dados. Em seguida, vincule o conjunto de dados ao BigQuery para fazer consultas. Depois de configurado, o serviço coleta e processa automaticamente snapshots diários de metadados de objetos, metadados de buckets, operações e erros em uma instância do BigQuery pertencente ao Cloud Storage. Os dados são retidos de acordo com o período de armazenamento configurado e armazenados de maneira otimizada para minimizar os custos de armazenamento e análise.

Na configuração do conjunto de dados, você define quais dados são coletados, onde são armazenados e como são gerenciados.

A tabela a seguir descreve as principais propriedades que você precisa definir ao configurar um conjunto de dados:

Propriedade Descrição Detalhes e limites
Escopo do conjunto de dados Especifica os recursos (organizações, projetos ou pastas) que contêm os buckets e objetos que você quer incluir no conjunto de dados. É possível especificar projetos ou pastas individualmente ou usando um arquivo CSV. Cada configuração permite apenas um escopo de conjunto de dados. Você pode especificar até 10,000 projetos ou pastas.
Filtros de bucket Filtros usados para incluir ou excluir buckets específicos do conjunto de dados.Você pode filtrar por nome do bucket usando expressões regulares ou por local do bucket.
Período de retenção do conjunto de dados O número de dias em que o conjunto de dados captura e retém metadados e dados de atividade, incluindo a data de criação do conjunto de dados. Para tabelas de dados de atividade, é possível substituir o período de retenção de dados usando a propriedade Período de retenção para dados de atividade. Esse período de armazenamento é uma janela de rolagem e pode durar até 90 dias. Os conjuntos de dados são atualizados com novos metadados a cada 24 horas. O sistema exclui automaticamente os dados capturados fora da janela de retenção. Por exemplo, se você criar um conjunto de dados em 1º de outubro de 2023 com uma janela de retenção definida como 30 dias. Em 30 de outubro, o conjunto de dados reflete os últimos 30 dias de dados (1º a 30 de outubro). Em 31 de outubro, o conjunto de dados reflete os dados de 2 a 31 de outubro. É possível mudar a janela de retenção a qualquer momento. Por padrão, o período de armazenamento se aplica às tabelas de metadados e às tabelas de dados de atividade quando o período de armazenamento dos dados de atividade não é especificado.
Período de retenção dos dados de atividade O número de dias em que o conjunto de dados captura e retém dados de atividade. Quando definido, esse valor substitui o Período de retenção do conjunto de dados. O período de armazenamento pode ser de até 365 days. O período de armazenamento dos dados de atividade se aplica às tabelas de dados de atividade.
Local O local do BigQuery usado para armazenar o conjunto de dados e os dados associados a ele. Precisa ser um local compatível com o BigQuery, como us-central1. Recomendamos selecionar o local das tabelas do BigQuery se você já tiver tabelas desse tipo.
Tipo de agente de serviço Determina o escopo do agente de serviço que lê e grava dados para a configuração do conjunto de dados. Pode ser um agente de serviço com escopo de configuração ou de projeto. Os agentes de serviço no escopo do projeto podem acessar e gravar conjuntos de dados para todas as configurações de conjunto de dados no projeto. Por exemplo, se você tiver várias configurações de conjunto de dados em um projeto, só precisará conceder as permissões necessárias ao agente de serviço no escopo do projeto uma vez. Isso permite que ele leia e grave conjuntos de dados para todas as configurações de conjuntos de dados no projeto. Quando uma configuração de conjunto de dados é excluída, o agente de serviço no escopo do projeto não é excluído.Os agentes de serviço no

escopo da configuração só podem acessar e gravar o conjunto de dados gerado pela configuração específica. Isso significa que, se você tiver várias configurações de conjunto de dados, precisará conceder as permissões necessárias a cada agente de serviço no escopo da configuração. Quando uma configuração de conjunto de dados é excluída, o agente de serviço no escopo da configuração também é excluído.

Depois de especificar as propriedades de configuração e conceder as permissões necessárias ao agente de serviço, vincule o conjunto de dados ao BigQuery para fazer consultas.

Para detalhes sobre as propriedades definidas ao criar ou atualizar uma configuração de conjunto de dados, consulte o recurso DatasetConfigs na documentação da API JSON.

Após a configuração, o serviço coleta e ingere dados automaticamente em uma instância do BigQuery pertencente ao Cloud Storage. Confira o cronograma de inclusão de dados nos conjuntos de dados:

  • O carregamento inicial do conjunto de dados e os dados de atividade dos novos intervalos ou objetos podem levar de 24 a 48 horas para aparecer como um conjunto de dados vinculado no BigQuery.

  • Os dados de atividade geralmente são incluídos em até quatro horas após a atividade (a latência pode ser maior ocasionalmente).

  • Os instantâneos de metadados (para projetos, buckets e objetos) são atualizados a cada 24 horas.

Considerações

Considere o seguinte para configurações de conjunto de dados:

  • Quando você renomeia uma pasta em um bucket com o namespace hierárquico ativado, os nomes dos objetos nesse bucket são atualizados. Quando o conjunto de dados vinculado ingere esses snapshots de objetos, eles são considerados novas entradas.

  • As somas de verificação CRC32C e os hashes MD5 não estão disponíveis na tabela object metadata para objetos criptografados com chaves de criptografia gerenciadas pelo cliente (CMEK).

  • Os conjuntos de dados são compatíveis apenas nos seguintes locais do BigQuery:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4

A seguir