Set di dati di Storage Insights

Questo documento spiega in che modo i set di dati di Storage Insights ti aiutano a gestire il tuo ambiente Cloud Storage fornendo visibilità e approfondimenti sui tuoi dati.

I set di dati di Storage Insights creano un indice interrogabile di metadati e attività per i bucket e gli oggetti Cloud Storage in tutta l'organizzazione, nelle cartelle, nei progetti o in bucket specifici. Per eseguire query sull'indice di metadati e attività, devi collegare il set di dati a BigQuery. Puoi quindi utilizzare il set di dati BigQuery collegato per analizzare, eseguire query e visualizzare i dati. Collega il set di dati a BigQuery per consentire l'esecuzione di query sull'indice di metadati e attività.

Il set di dati Storage Insights è una funzionalità esclusiva disponibile con l'abbonamento a Storage Intelligence. Google Cloud offre una prova introduttiva di 30 giorni per Storage Intelligence. Puoi attivare la prova per ottenere informazioni dettagliate sull'utilizzo di Cloud Storage e intraprendere azioni. Per saperne di più sulla prova, consulta Prova introduttiva di 30 giorni per Storage Intelligence.

Panoramica

Un set di dati di Storage Insights fornisce uno snapshot continuo di metadati, dati di attività, errori ed eventi per tutti i progetti, i bucket e gli oggetti all'interno dell'ambito definito. Raccogliendo e indicizzando continuamente le informazioni, il set di dati crea una visualizzazione completa che ti aiuta a comprendere lo stato dei tuoi dati, monitorare le tue risorse Cloud Storage e ottenere informazioni per gestire e ottimizzare il tuo spazio di archiviazione.

Il set di dati è disponibile come set di dati collegato a BigQuery, con un insieme di tabelle che hanno gli schemi seguenti:

Casi d'uso per i set di dati Storage Insights

I set di dati di Storage Insights forniscono visualizzazioni per ottenere insight granulari e a livello di organizzazione sui tuoi dati. Le sezioni seguenti descrivono i casi d'uso per i set di dati.

Informazioni sul tuo spazio di archiviazione

Puoi ottenere approfondimenti sui tuoi dati visualizzando i metadati di progetti, bucket e oggetti. Le visualizzazioni dei metadati ti aiutano a svolgere le seguenti attività:

  • Individua anomalie, ad esempio dati in una regione imprevista.
  • Identifica le opportunità di ottimizzazione, ad esempio la localizzazione di file temporanei o duplicati.
  • Esegui query per insight specifici, ad esempio oggetti creati nelle ultime 24 ore o il conteggio totale dei file PDF.
  • Visualizza in dettaglio gli oggetti su cui vuoi intervenire estraendo un elenco di prefissi di un insieme di oggetti in base ai risultati della query. Per scoprire come eseguire operazioni su miliardi di oggetti in modalità serverless, consulta operazioni batch di archiviazione.

Analizzare i pattern di attività

Utilizzando la visualizzazione dell'attività del bucket, la visualizzazione dell'attività del progetto e la visualizzazione degli eventi degli oggetti, puoi:

  • Analizza i pattern operativi e identifica i bucket inattivi.

  • Monitora le operazioni sugli oggetti per vedere come cambia nel tempo il tuo spazio di archiviazione.

  • Mappa i tuoi progetti, bucket e prefissi più attivi.

Comprendere l'attività dei bucket regionali

La visualizzazione dell'attività regionale del bucket mostra campi come i byte di richiesta e risposta, che ti aiutano a vedere le regioni che interagiscono spesso con il tuo bucket. Analizza l'attività del bucket regionale per determinare se è necessario il trasferimento del bucket:

  • Visualizza l'uscita e l'entrata totali per un bucket in una regione per identificare i bucket più adatti a una classe regionale anziché multiregionale.

  • Valuta il traffico di dati totale all'interno e tra tutte le regioni.

Velocizza la risoluzione dei problemi

Analizzando le informazioni sugli errori nella visualizzazione degli eventi degli oggetti, puoi esaminare le operazioni sugli oggetti che hanno generato errori, analizzare il motivo dell'errore e accelerare la risoluzione del problema. Puoi anche rilevare progetti e bucket con il maggior numero di errori per determinare i tassi di successo ed errore. Ad esempio, puoi risolvere i problemi relativi agli errori 429 identificando il bucket, il progetto e la causa principale interessati, ad esempio la quota di risorse o i limiti di larghezza di banda.

Vantaggi dei set di dati di Storage Insights

I set di dati di Storage Insights forniscono metadati e informazioni sull'attività del tuo spazio di archiviazione in un formato interrogabile in BigQuery. Di seguito sono riportati i vantaggi dell'utilizzo dei set di dati Storage Insights:

  • Analizza il tuo spazio di archiviazione in un ambito personalizzabile per ottenere insight a livello di organizzazione o specifica cartelle, progetti o bucket per l'analisi.

  • Con i dati disponibili in BigQuery, utilizza query SQL e in linguaggio naturale con Gemini per analizzare i tuoi dati. Per maggiori dettagli, vedi Analizzare i dati con l'aiuto di Gemini.

  • Puoi visualizzare i dati collegandoti a una dashboard di Looker. Puoi utilizzare la dashboard Storage Intelligence come modello che fornisce un esempio degli approfondimenti che puoi ricavare dai set di dati. Puoi utilizzare il modello per connetterti ai tuoi set di dati o aggiungere grafici personalizzati. Per informazioni su come utilizzare il modello, vedi Istruzioni per la connessione alla dashboard Storage Intelligence.

Come funzionano i set di dati di Storage Insights

Per utilizzare i set di dati Storage Insights, configura prima un set di dati all'interno di un progetto. Specifica l'organizzazione, le cartelle o i progetti per cui vuoi monitorare i dati. Dopo la creazione, concedi le autorizzazioni necessarie al service agent per generare il set di dati. Puoi quindi collegare il set di dati a BigQuery per l'esecuzione di query. Una volta configurato, il servizio raccoglie e importa automaticamente snapshot giornalieri di metadati degli oggetti, metadati dei bucket, operazioni ed errori in un'istanza BigQuery di proprietà di Cloud Storage. I dati vengono conservati in base al periodo di conservazione configurato e archiviati in modo ottimizzato per ridurre al minimo i costi di archiviazione e analisi.

Nella configurazione del set di dati, definisci quali dati vengono raccolti, dove vengono archiviati e come vengono gestiti.

La tabella seguente descrive le proprietà chiave che devi definire quando configuri un set di dati:

Proprietà Descrizione Dettagli e limiti
Ambito del set di dati Specifica le risorse (organizzazioni, progetti o cartelle) che contengono i bucket e gli oggetti da includere nel set di dati. Puoi specificare progetti o cartelle singolarmente o utilizzando un file CSV. Ogni configurazione consente un solo ambito del set di dati. Puoi specificare fino a 10,000 progetti o cartelle.
Filtri dei bucket Filtri utilizzati per includere o escludere bucket specifici dal set di dati.Puoi filtrare per nome del bucket utilizzando le espressioni regolari o filtrare per posizione del bucket.
Periodo di conservazione per il set di dati Il numero di giorni in cui il set di dati acquisisce e conserva i metadati e i dati delle attività, inclusa la data di creazione del set di dati. Per le tabelle dei dati delle attività, puoi ignorare il periodo di conservazione dei dati utilizzando la proprietà Periodo di conservazione dei dati delle attività. Questo periodo di conservazione è una finestra scorrevole e può durare fino a 90 giorni. I set di dati vengono aggiornati con nuovi metadati ogni 24 ore. Il sistema elimina automaticamente i dati acquisiti al di fuori della finestra di conservazione. Ad esempio, se crei un set di dati il 1° ottobre 2023 con una finestra di conservazione impostata su 30 giorni. Il 30 ottobre, il set di dati riflette i dati degli ultimi 30 giorni (dal 1° al 30 ottobre). Il 31 ottobre, il set di dati riflette i dati dal 2 al 31 ottobre. Puoi modificare il periodo di conservazione in qualsiasi momento. Per impostazione predefinita, il periodo di conservazione si applica alle tabelle dei metadati e anche alle tabelle dei dati delle attività quando il periodo di conservazione dei dati delle attività non è specificato.
Periodo di conservazione dei dati delle attività Il numero di giorni in cui il set di dati acquisisce e conserva i dati delle attività. Se definito, questo valore sostituisce il periodo di conservazione per il set di dati. Il periodo di conservazione può durare fino a 365 days. Il periodo di conservazione dei dati delle attività è applicabile alle tabelle di dati delle attività.
Località La località BigQuery utilizzata per archiviare il set di dati e i relativi dati associati. Deve essere una località supportata da BigQuery, ad esempio us-central1. Ti consigliamo di selezionare la posizione delle tue tabelle BigQuery se ne hai già.
Tipo di service agent Determina l'ambito del service agent che legge e scrive i dati per la configurazione del set di dati. Può trattarsi di un agente di servizio con ambito a livello di configurazione o di un agente di servizio con ambito a livello di progetto. Gli agenti di servizio con ambito progetto possono accedere e scrivere set di dati per tutte le configurazioni dei set di dati nel progetto. Ad esempio, se hai più configurazioni di set di dati all'interno di un progetto, devi concedere le autorizzazioni richieste all'agente di servizio con ambito progetto una sola volta. In questo modo, può leggere e scrivere set di dati per tutte le configurazioni dei set di dati all'interno del progetto. Quando viene eliminata una configurazione del set di dati, l'agente di servizio con ambito progetto non viene eliminato.

Gli agenti di servizio con ambito configurazione possono accedere e scrivere solo nel set di dati generato dalla particolare configurazione del set di dati.
Ciò significa che se hai più configurazioni di set di dati, devi concedere le autorizzazioni richieste a ogni agente di servizio con ambito di configurazione. Quando viene eliminata una configurazione del set di dati, viene eliminato l'agente di servizio con ambito a livello di configurazione.

Dopo aver specificato le proprietà di configurazione e concesso le autorizzazioni necessarie all'agente di servizio, collega il set di dati a BigQuery per l'esecuzione di query.

Per informazioni dettagliate sulle proprietà che imposti durante la creazione o l'aggiornamento di una configurazione del set di dati, consulta la risorsa DatasetConfigs nella documentazione dell'API JSON.

Dopo la configurazione, il servizio raccoglie e importa automaticamente i dati in un'istanza BigQuery di proprietà di Cloud Storage. La cronologia del popolamento dei dati nei set di dati è la seguente:

  • Il caricamento iniziale del set di dati e dei dati di attività per i bucket o gli oggetti appena aggiunti potrebbe richiedere 24-48 ore prima di essere visualizzati come set di dati collegato in BigQuery.

  • I dati sull'attività vengono in genere inclusi entro quattro ore dall'attività (la latenza potrebbe occasionalmente essere superiore).

  • Gli snapshot dei metadati (per progetti, bucket e oggetti) vengono aggiornati ogni 24 ore.

Considerazioni

Considera quanto segue per le configurazioni dei set di dati:

  • Quando rinomini una cartella in un bucket con lo spazio dei nomi gerarchico abilitato, i nomi degli oggetti in quel bucket vengono aggiornati. Quando il set di dati collegato inserisce questi snapshot degli oggetti, vengono considerati nuove voci.

  • I checksum CRC32C e gli hash MD5 non sono disponibili nella tabella object metadata per gli oggetti criptati con chiavi di crittografia gestite dal cliente (CMEK).

  • I set di dati sono supportati solo nelle seguenti località BigQuery:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4

Passaggi successivi