Questo documento mostra come configurare i set di dati Storage Insights.
Prima di iniziare
Prima di configurare un set di dati, completa i seguenti passaggi.
Ottenere i ruoli richiesti
Per ottenere le autorizzazioni necessarie per configurare i set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM nei progetti di origine:
-
Per configurare un set di dati:
Storage Insights Admin (
roles/storageinsights.admin) -
Per collegare un set di dati:
-
Storage Insights Analyst (
roles/storageinsights.analyst) -
BigQuery Admin (
roles/bigquery.admin)
-
Storage Insights Analyst (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per configurare i set di dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per configurare i set di dati sono necessarie le seguenti autorizzazioni:
-
Configura un set di dati:
-
storageinsights.datasetConfigs.create -
storage.buckets.getObjectInsights
-
-
Link al set di dati BigQuery:
storageinsights.datasetConfigs.linkDataset
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Abilita l'API Storage Insights
Console
Riga di comando
Per abilitare l'API Storage Insights nel tuo progetto attuale, esegui il comando gcloud services enable:
gcloud services enable storageinsights.googleapis.com
Per saperne di più sull'attivazione dei servizi per un progetto Google Cloud , consulta Attivazione e disattivazione dei servizi.
Configura Storage Intelligence
Assicurati che Storage Intelligence sia configurato per il progetto, la cartella o l'organizzazione che vuoi analizzare con i set di dati.
Crea una configurazione del set di dati
Per creare una configurazione del set di dati: Per ulteriori informazioni sui campi che puoi specificare per la configurazione del set di dati, consulta Proprietà di configurazione del set di dati.
Console
- Nella console Google Cloud , vai alla pagina Storage Insights in Cloud Storage.
Fai clic su Configura set di dati.
Nella sezione Assegna un nome al set di dati, inserisci un nome per il set di dati. (Facoltativo) Inserisci una descrizione del set di dati. I nomi identificano le configurazioni dei set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.
Nella sezione Definisci ambito del set di dati, segui questi passaggi:
Seleziona una delle seguenti opzioni:
Per ottenere i metadati di archiviazione per tutti i progetti dell'organizzazione corrente, seleziona Includi l'organizzazione.
Per ottenere i metadati di archiviazione per tutti i progetti nelle cartelle selezionate, seleziona Includi cartelle (organizzazione secondaria/reparti). Per informazioni su come ottenere gli ID cartella, consulta Visualizzazione o elenco di cartelle e progetti. Per aggiungere cartelle:
- Nel campo Cartella 1, inserisci l'ID cartella.
- (Facoltativo) Per aggiungere più ID cartella, fai clic su + Aggiungi un'altra cartella.
Per ottenere i metadati di archiviazione per i progetti selezionati, seleziona Includi progetti specificando i numeri di progetto. Per scoprire come trovare i numeri di progetto, consulta Trovare il nome, il numero e l'ID del progetto. Per aggiungere progetti:
- Nel campo Progetto 1, inserisci il numero del progetto.
- (Facoltativo) Per aggiungere più numeri di progetto, fai clic su + Aggiungi un altro progetto.
Per aggiungere progetti o cartelle collettivamente, seleziona Carica un elenco di progetti/cartelle tramite un file CSV. Il file CSV deve contenere i numeri di progetto o gli ID cartella da includere nel set di dati. Puoi specificare fino a 10.000 progetti o cartelle in una configurazione del set di dati.
Specifica se includere automaticamente i bucket futuri nella risorsa selezionata.
(Facoltativo) Per specificare i filtri sui bucket in base alle regioni e ai prefissi dei bucket, espandi la sezione Filtri (facoltativo). I filtri vengono applicati in modo cumulativo ai bucket.
Puoi includere o escludere i bucket da regioni specifiche. Ad esempio, puoi escludere i bucket nelle regioni
me-central1eme-central2. Puoi anche includere o escludere i bucket in base al prefisso. Ad esempio, per escludere i bucket che iniziano conmy-bucket, inserisci il prefissomy-bucket*.
Fai clic su Continua.
Nella sezione Seleziona periodo di conservazione, seleziona un periodo di conservazione per i dati nel set di dati.
I dati delle attività sono inclusi nel set di dati per impostazione predefinita e ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, seleziona Specifica un periodo di conservazione per i dati delle attività, quindi seleziona il numero di giorni per cui conservare i dati delle attività. Per disattivare i dati delle attività, imposta il periodo di conservazione su
0giorni.Nella sezione Seleziona la località in cui archiviare il set di dati configurato, seleziona una località in cui archiviare il set di dati. Ad esempio
us-central1.Nella sezione Seleziona account di servizio account, seleziona un tipo di service agent per il tuo set di dati. Scegli un agente di servizio con ambito a livello di configurazione o di progetto per il tuo set di dati.
Fai clic su Configura.
Riga di comando
Per creare una configurazione del set di dati, esegui il comando
gcloud storage insights dataset-configs createcon i flag richiesti:gcloud storage insights dataset-configs create DATASET_CONFIG_ID \ --location=LOCATION \ --organization=SOURCE_ORG_NUMBER \ --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \ (SCOPE_FLAG)
Sostituisci:
DATASET_CONFIG_IDcon il nome della configurazione del set di dati. I nomi identificano le configurazioni dei set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.LOCATIONcon la posizione in cui archiviare il set di dati. Ad esempious-central1.SOURCE_ORG_NUMBERcon l'ID dell'organizzazione a cui appartengono i progetti di origine. Per trovare l'ID organizzazione, vedi Recuperare l'ID risorsa dell'organizzazione.DATASET_RETENTION_PERIOD_DAYScon il periodo di conservazione per i dati nel set di dati.SCOPE_FLAGcon uno qualsiasi dei seguenti flag che definiscono l'ambito dei dati da raccogliere:--enable-organization-scope: consente al set di dati di raccogliere insight da tutti i bucket dell'organizzazione.--source-folders=[SOURCE_FOLDER_NUMBERS,...]: Specifica un elenco di numeri di cartelle da includere nel set di dati. Per scoprire come trovare un numero di cartella, consulta Elenco di tutti i progetti e le cartelle nella gerarchia.--source-folders-file=FILE_PATH: Specifica più numeri di cartella caricando un file CSV in un bucket.--source-projects=[SOURCE_PROJECT_NUMBERS,...]: Specifica un elenco di numeri di progetto da includere nel set di dati. Ad esempio,464036093014. Per trovare il numero del progetto, consulta Trovare il nome, il numero e l'ID del progetto.--source-projects-file=FILE_PATH: Specifica più numeri di progetto caricando un file CSV in un bucket.
(Facoltativo) Utilizza i seguenti flag aggiuntivi per configurare il set di dati:
Utilizza
--include-buckets=BUCKET_NAMES_OR_REGEXper includere bucket specifici in base al nome o all'espressione regolare. Non puoi utilizzare questo flag con--exclude-buckets.Utilizza
--exclude-buckets=BUCKET_NAMES_OR_REGEXper escludere bucket specifici in base al nome o all'espressione regolare. Non puoi utilizzare questo flag con--include-buckets.Utilizza
--project=DESTINATION_PROJECT_IDper specificare un progetto per archiviare la configurazione del set di dati e il set di dati generato. Se non utilizzi questo flag, il progetto di destinazione è il tuo progetto attivo. Per saperne di più sugli ID progetto, consulta la pagina Creare e gestire progetti.Utilizza
--auto-add-new-bucketsper includere automaticamente tutti i bucket aggiunti in futuro ai progetti di origine.Utilizza
--skip-verificationper ignorare i controlli e gli errori della procedura di verifica, che include i controlli delle autorizzazioni IAM richieste. Se utilizzi questo flag, alcuni o tutti i bucket potrebbero essere esclusi dal set di dati.Utilizza
--identity=IDENTITY_TYPEper specificare l'ambito del service agent creato con la configurazione del set di dati. I valori sonoIDENTITY_TYPE_PER_CONFIGoIDENTITY_TYPE_PER_PROJECT. Se non specificato, il valore predefinito èIDENTITY_TYPE_PER_CONFIG. Per maggiori dettagli, vedi Tipo di agente di servizio.Utilizza
--description=DESCRIPTIONper aggiungere una descrizione per la configurazione del set di dati.Utilizza
--activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYSper specificare il periodo di conservazione dei dati delle attività nel set di dati. Per impostazione predefinita, i dati delle attività sono inclusi nel set di dati e ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, specifica il numero di giorni per cui conservare i dati delle attività. Per escludere i dati sull'attività, imposta ACTIVITY_RETENTION_PERIOD_DAYS su0.
Il seguente esempio crea una configurazione del set di dati denominata
my-datasetnella regioneus-central1, per l'organizzazione con l'ID123456789, con un periodo di conservazione di30giorni e un ambito limitato ai progetti987654321e123123123:gcloud storage insights dataset-configs create my-dataset \ --location=us-central1 \ --organization=123456789 \ --retention-period-days=30 \ --source-projects=987654321,123123123
API JSON
Avere gcloud CLI installata e inizializzata, il che ti consente di generare un token di accesso per l'intestazione
Authorization.Crea un file JSON contenente le seguenti informazioni:
{ "sourceProjects": { "project_numbers": ["PROJECT_NUMBERS", ...] }, "retentionPeriodDays": "RETENTION_PERIOD_DAYS", "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS", "identity": { "type": "IDENTITY_TYPE" } }
Sostituisci:
PROJECT_NUMBERScon i numeri dei progetti che vuoi includere nel set di dati. Puoi specificare uno o più progetti. I progetti devono essere specificati come elenco di stringhe.In alternativa, puoi aggiungere un'organizzazione o una o più cartelle che contengono bucket e oggetti per i quali vuoi aggiornare i metadati. Per includere cartelle o organizzazioni, utilizza i campi
sourceFoldersoorganizationScope. Per saperne di più, consulta ilDatasetConfigriferimento.RETENTION_PERIOD_DAYScon il numero di giorni di dati da acquisire nello snapshot del set di dati. Ad esempio,90.ACTIVITY_DATA_RETENTION_PERIOD_DAYScon il numero di giorni di dati sull'attività da acquisire nello snapshot del set di dati. Per impostazione predefinita, i dati delle attività sono inclusi nel set di dati ed ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, specifica il numero di giorni per cui conservare i dati delle attività. Per escludere i dati sull'attività, imposta ACTIVITY_RETENTION_PERIOD_DAYS su0.IDENTITY_TYPEcon il tipo di service account che viene creato insieme alla configurazione del set di dati. I valori sonoIDENTITY_TYPE_PER_CONFIGoIDENTITY_TYPE_PER_PROJECT. Per maggiori dettagli, vedi Tipo di agente di servizio.
Per creare la configurazione del set di dati, utilizza
cURLper chiamare l'API JSON con una richiestaCreateDatasetConfig:curl -X POST --data-binary @JSON_FILE_NAME \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
Sostituisci:
JSON_FILE_NAMEcon il percorso del file JSON che hai creato nel passaggio precedente. In alternativa, puoi passare un'istanza diDatasetConfignel corpo della richiesta.PROJECT_IDcon l'ID del progetto a cui apparterranno la configurazione e il set di dati.LOCATIONcon la posizione in cui risiederanno il set di dati e la configurazione del set di dati. Ad esempious-central1.DATASET_CONFIG_IDcon il nome della configurazione del set di dati. I nomi identificano le configurazioni dei set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.SERVICE_ACCOUNTcon il account di servizio. Ad esempio,test-service-account@test-project.iam.gserviceaccount.com.
Per risolvere i problemi di elaborazione degli snapshot registrati in
error_attributes_view, consulta Errori del set di dati Storage Insights.
Concedi le autorizzazioni richieste al service agent
Google Cloud crea un agente di servizio con ambito a livello di configurazione o progetto quando crei una configurazione del set di dati. L'agente di servizio
segue il formato di denominazione
service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com e viene visualizzato nella
pagina IAM della console Google Cloud
quando selezioni la casella di controllo Includi concessioni di ruoli fornite da Google.
Puoi anche trovare il nome dell'agente di servizio
visualizzando la risorsa DatasetConfig utilizzando l'API JSON.
Per consentire a Storage Insights di generare e scrivere set di dati, chiedi all'amministratore di concedere all'agente di servizio il ruolo Storage Insights Collector Service (roles/storage.insightsCollectorService) nell'organizzazione che contiene i progetti di origine.
Devi concedere questo ruolo a ogni agente di servizio con ambito di configurazione
creato per ogni configurazione del set di dati da cui vuoi estrarre i dati. Se utilizzi
un service agent con ambito progetto, devi concedere questo ruolo una sola volta al service agent per leggere e scrivere set di dati
per tutte le configurazioni dei set di dati all'interno del progetto.
Per istruzioni sulla concessione dei ruoli per i progetti, consulta Gestire l'accesso.
Collegare un set di dati
Per collegare un set di dati a BigQuery:
Console
- Nella console Google Cloud , vai alla pagina Storage Insights in Cloud Storage.
Fai clic sul nome della configurazione del set di dati che ha generato il set di dati che vuoi collegare.
Nella sezione Set di dati collegato a BigQuery, fai clic su Collega set di dati per collegare il tuo set di dati.
Riga di comando
Per collegare un set di dati a BigQuery, esegui il comando
gcloud storage insights dataset-configs create-link:gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
Sostituisci:
DATASET_CONFIG_IDcon il nome della configurazione del set di dati che ha generato il set di dati da collegare.LOCATIONcon la posizione del tuo set di dati. Ad esempio:us-central1.
Puoi anche specificare un percorso di configurazione completo del set di dati. Ad esempio:
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
Sostituisci:
DESTINATION_PROJECT_IDcon l'ID del progetto che contiene la configurazione del set di dati. Per saperne di più sugli ID progetto, consulta la pagina Creare e gestire progetti.DATASET_CONFIG_IDcon il nome della configurazione del set di dati che ha generato il set di dati da collegare.LOCATIONcon la posizione del tuo set di dati e la configurazione del set di dati. Ad esempio:us-central1.
API JSON
Avere gcloud CLI installata e inizializzata, il che ti consente di generare un token di accesso per l'intestazione
Authorization.Utilizza
cURLper chiamare l'API JSON con una richiestalinkDatasetDatasetConfig:curl -X POST \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"Sostituisci:
JSON_FILE_NAMEcon il percorso del file JSON che hai creato.PROJECT_IDcon l'ID del progetto a cui appartiene la configurazione del set di dati.LOCATIONcon la posizione in cui si trovano il set di dati e la configurazione del set di dati. Ad esempious-central1.DATASET_CONFIG_IDcon il nome della configurazione del set di dati che ha generato il set di dati da collegare.SERVICE_ACCOUNTcon il account di servizio. Ad esempio,test-service-account@test-project.iam.gserviceaccount.com.
Passaggi successivi
- Visualizza i set di dati collegati.
- Esegui una query su un set di dati collegato.
- Analizza i dati archiviati con Gemini Cloud Assist.
- Gestisci le configurazioni dei set di dati, inclusi aggiornamento, visualizzazione, elenco ed eliminazione.