Configura i set di dati Storage Insights

Questo documento mostra come configurare i set di dati Storage Insights.

Prima di iniziare

Prima di configurare un set di dati, completa i seguenti passaggi.

Ottenere i ruoli richiesti

Per ottenere le autorizzazioni necessarie per configurare i set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM nei progetti di origine:

Per configurare un set di dati: Storage Insights Admin (roles/storageinsights.admin)
Per collegare un set di dati:
- Storage Insights Analyst (roles/storageinsights.analyst)
- BigQuery Admin (roles/bigquery.admin)

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per configurare i set di dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per configurare i set di dati sono necessarie le seguenti autorizzazioni:

Configura un set di dati:
- storageinsights.datasetConfigs.create
- storage.buckets.getObjectInsights
Link al set di dati BigQuery: storageinsights.datasetConfigs.linkDataset

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Abilita l'API Storage Insights

Console

Abilita l'API storageinsights.googleapis.com

Riga di comando

Per abilitare l'API Storage Insights nel tuo progetto attuale, esegui il comando gcloud services enable:

gcloud services enable storageinsights.googleapis.com

Per saperne di più sull'attivazione dei servizi per un progetto Google Cloud , consulta Attivazione e disattivazione dei servizi.

Configura Storage Intelligence

Assicurati che Storage Intelligence sia configurato per il progetto, la cartella o l'organizzazione che vuoi analizzare con i set di dati.

Crea una configurazione del set di dati

Per creare una configurazione del set di dati: Per ulteriori informazioni sui campi che puoi specificare per la configurazione del set di dati, consulta Proprietà di configurazione del set di dati.

Console

Nella console Google Cloud , vai alla pagina Storage Insights in Cloud Storage.

Vai a Storage Insights
Fai clic su Configura set di dati.
Nella sezione Assegna un nome al set di dati, inserisci un nome per il set di dati. (Facoltativo) Inserisci una descrizione del set di dati. I nomi identificano le configurazioni del set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.
Nella sezione Definisci ambito del set di dati, segui questi passaggi:
- Seleziona una delle seguenti opzioni:
  - Per ottenere i metadati di archiviazione per tutti i progetti dell'organizzazione corrente, seleziona Includi l'organizzazione.
  - Per ottenere i metadati di archiviazione per tutti i progetti nelle cartelle selezionate, seleziona Includi cartelle (organizzazione secondaria/reparti). Per informazioni su come ottenere gli ID cartella, consulta Visualizzazione o elenco di cartelle e progetti. Per aggiungere cartelle:
    1. Nel campo Cartella 1, inserisci l'ID cartella.
    2. (Facoltativo) Per aggiungere più ID cartella, fai clic su + Aggiungi un'altra cartella.
  - Per ottenere i metadati di archiviazione per i progetti selezionati, seleziona Includi progetti specificando i numeri di progetto. Per scoprire come trovare i numeri di progetto, consulta Trovare il nome, il numero e l'ID del progetto. Per aggiungere progetti:
    1. Nel campo Progetto 1, inserisci il numero di progetto.
    2. (Facoltativo) Per aggiungere più numeri di progetto, fai clic su + Aggiungi un altro progetto.
  - Per aggiungere progetti o cartelle collettivamente, seleziona Carica un elenco di progetti/cartelle tramite un file CSV. Il file CSV deve contenere i numeri di progetto o gli ID cartella da includere nel set di dati. Puoi specificare fino a 10.000 progetti o cartelle in una configurazione del set di dati.
- Specifica se includere automaticamente i bucket futuri nella risorsa selezionata.
- (Facoltativo) Per specificare i filtri sui bucket in base alle regioni e ai prefissi dei bucket, espandi la sezione Filtri (facoltativo). I filtri vengono applicati in modo additivo ai bucket.
  
  Puoi includere o escludere i bucket da regioni specifiche. Ad esempio, puoi escludere i bucket nelle regioni me-central1 e me-central2. Puoi anche includere o escludere i bucket in base al prefisso. Ad esempio, per escludere i bucket che iniziano con my-bucket, inserisci il prefisso my-bucket*.
Fai clic su Continua.
Nella sezione Seleziona periodo di conservazione, seleziona un periodo di conservazione per i dati nel set di dati.
I dati delle attività sono inclusi nel set di dati per impostazione predefinita e ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, seleziona Specifica un periodo di conservazione per i dati delle attività, quindi seleziona il numero di giorni per cui conservare i dati delle attività. Per disattivare i dati delle attività, imposta il periodo di conservazione su 0 giorni.
Nella sezione Seleziona la località in cui archiviare il set di dati configurato, seleziona una località in cui archiviare il set di dati. Ad esempio us-central1.
Nella sezione Seleziona account di servizio account, seleziona un tipo di service agent per il tuo set di dati. Scegli un agente di servizio con ambito a livello di configurazione o di progetto per il tuo set di dati.
Fai clic su Configura.

Riga di comando

Per creare una configurazione del set di dati, esegui il comando gcloud storage insights dataset-configs create con i flag richiesti:
```
gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
  --location=LOCATION \
  --organization=SOURCE_ORG_NUMBER \
  --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
  (SCOPE_FLAG)
```
Sostituisci:
- DATASET_CONFIG_ID con il nome della configurazione del set di dati. I nomi identificano le configurazioni del set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.
- LOCATION con la posizione in cui archiviare il set di dati. Ad esempio us-central1.
- SOURCE_ORG_NUMBER con l'ID dell'organizzazione a cui appartengono i progetti di origine. Per trovare l'ID organizzazione, vedi Recuperare l'ID risorsa dell'organizzazione.
- DATASET_RETENTION_PERIOD_DAYS con il periodo di conservazione per i dati nel set di dati.
- SCOPE_FLAG con uno qualsiasi dei seguenti flag che definiscono l'ambito dei dati da raccogliere:
  - --enable-organization-scope: consente al set di dati di raccogliere insight da tutti i bucket dell'organizzazione.
  - --source-folders=[SOURCE_FOLDER_NUMBERS,...]: Specifica un elenco di numeri di cartelle da includere nel set di dati. Per scoprire come trovare un numero di cartella, consulta Elenco di tutti i progetti e le cartelle nella gerarchia.
  - --source-folders-file=FILE_PATH: Specifica più numeri di cartella caricando un file CSV in un bucket.
  - --source-projects=[SOURCE_PROJECT_NUMBERS,...]: Specifica un elenco di numeri di progetto da includere nel set di dati. Ad esempio, 464036093014. Per trovare il numero del progetto, consulta Trovare il nome, il numero e l'ID del progetto.
  - --source-projects-file=FILE_PATH: Specifica più numeri di progetto caricando un file CSV in un bucket.
(Facoltativo) Utilizza i seguenti flag aggiuntivi per configurare il set di dati:
- Utilizza --include-buckets=BUCKET_NAMES_OR_REGEX per includere bucket specifici in base al nome o all'espressione regolare. Non puoi utilizzare questo flag con --exclude-buckets.
- Utilizza --exclude-buckets=BUCKET_NAMES_OR_REGEX per escludere bucket specifici in base al nome o all'espressione regolare. Non puoi utilizzare questo flag con --include-buckets.
- Utilizza --project=DESTINATION_PROJECT_ID per specificare un progetto per archiviare la configurazione del set di dati e il set di dati generato. Se non utilizzi questo flag, il progetto di destinazione è il tuo progetto attivo. Per saperne di più sugli ID progetto, consulta la pagina Creare e gestire progetti.
- Utilizza --auto-add-new-buckets per includere automaticamente tutti i bucket aggiunti ai progetti di origine in futuro.
- Utilizza --skip-verification per ignorare i controlli e gli errori della procedura di verifica, che include i controlli delle autorizzazioni IAM richieste. Se utilizzi questo flag, alcuni o tutti i bucket potrebbero essere esclusi dal set di dati.
- Utilizza --identity=IDENTITY_TYPE per specificare l'ambito del service agent creato con la configurazione del set di dati. I valori sono IDENTITY_TYPE_PER_CONFIG o IDENTITY_TYPE_PER_PROJECT. Se non specificato, il valore predefinito è IDENTITY_TYPE_PER_CONFIG. Per maggiori dettagli, vedi Tipo di agente di servizio.
- Utilizza --description=DESCRIPTION per aggiungere una descrizione per la configurazione del set di dati.
- Utilizza --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS per specificare il periodo di conservazione dei dati delle attività nel set di dati. Per impostazione predefinita, i dati delle attività sono inclusi nel set di dati e ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, specifica il numero di giorni per cui conservare i dati delle attività. Per escludere i dati sull'attività, imposta ACTIVITY_RETENTION_PERIOD_DAYS su 0.
Il seguente esempio crea una configurazione del set di dati denominata my-dataset nella regione us-central1, per l'organizzazione con l'ID 123456789, con un periodo di conservazione di 30 giorni e un ambito limitato ai progetti 987654321 e 123123123:
```
gcloud storage insights dataset-configs create my-dataset \
--location=us-central1 \
--organization=123456789 \
--retention-period-days=30 \
--source-projects=987654321,123123123
```

API JSON

Avere gcloud CLI installata e inizializzata , il che ti consente di generare un token di accesso per l'intestazione Authorization.

Crea un file JSON contenente le seguenti informazioni:
```
{
  "sourceProjects": {
    "project_numbers": ["PROJECT_NUMBERS", ...]
  },
  "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
  "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
  "identity": {
    "type": "IDENTITY_TYPE"
  }
}
```
Sostituisci:
- PROJECT_NUMBERS con i numeri dei progetti che vuoi includere nel set di dati. Puoi specificare uno o più progetti. I progetti devono essere specificati come elenco di stringhe.
  
  In alternativa, puoi aggiungere un'organizzazione o una o più cartelle che contengono bucket e oggetti per i quali vuoi aggiornare i metadati. Per includere cartelle o organizzazioni, utilizza i campi sourceFolders o organizationScope. Per saperne di più, consulta il DatasetConfig di riferimento.
- RETENTION_PERIOD_DAYS con il numero di giorni di dati da acquisire nello snapshot del set di dati. Ad esempio, 90.
- ACTIVITY_DATA_RETENTION_PERIOD_DAYS con il numero di giorni di dati sull'attività da acquisire nello snapshot del set di dati. Per impostazione predefinita, i dati delle attività sono inclusi nel set di dati ed ereditano il periodo di conservazione del set di dati. Per ignorare il periodo di conservazione del set di dati, specifica il numero di giorni per cui conservare i dati delle attività. Per escludere i dati sull'attività, imposta ACTIVITY_RETENTION_PERIOD_DAYS su 0.
- IDENTITY_TYPE con il tipo di service account che viene creato insieme alla configurazione del set di dati. I valori sono IDENTITY_TYPE_PER_CONFIG o IDENTITY_TYPE_PER_PROJECT. Per maggiori dettagli, vedi Tipo di agente di servizio.
Per creare la configurazione del set di dati, utilizza cURL per chiamare l'API JSON con una richiesta Create DatasetConfig:
```
curl -X POST --data-binary @JSON_FILE_NAME \
"https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
  --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
  --header "Accept: application/json" \
  --header "Content-Type: application/json"
```
Sostituisci:
- JSON_FILE_NAME con il percorso del file JSON che hai creato nel passaggio precedente. In alternativa, puoi passare un'istanza di DatasetConfig nel corpo della richiesta.
- PROJECT_ID con l'ID del progetto a cui apparterranno la configurazione e il set di dati.
- LOCATION con la posizione in cui risiederanno il set di dati e la configurazione del set di dati. Ad esempio us-central1.
- DATASET_CONFIG_ID con il nome della configurazione del set di dati. I nomi identificano le configurazioni del set di dati e sono immutabili. Il nome può contenere fino a 128 caratteri, tra cui lettere, numeri e trattini bassi, e deve iniziare con una lettera.
- SERVICE_ACCOUNT con il account di servizio. Ad esempio, test-service-account@test-project.iam.gserviceaccount.com.

Per risolvere i problemi di elaborazione degli snapshot registrati in error_attributes_view, consulta Errori del set di dati Storage Insights.

Concedi le autorizzazioni richieste al service agent

Google Cloud crea un agente di servizio con ambito a livello di configurazione o progetto quando crei una configurazione del set di dati. L'agente di servizio segue il formato di denominazione service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com e viene visualizzato nella pagina IAM della console Google Cloud quando selezioni la casella di controllo Includi concessioni di ruoli fornite da Google. Puoi anche trovare il nome dell'agente di servizio visualizzando la risorsa DatasetConfig utilizzando l'API JSON.

Per consentire a Storage Insights di generare e scrivere set di dati, chiedi all'amministratore di concedere all'agente di servizio il ruolo Storage Insights Collector Service (roles/storage.insightsCollectorService) nell'organizzazione che contiene i progetti di origine. Devi concedere questo ruolo a ogni agente di servizio con ambito di configurazione creato per ogni configurazione del set di dati da cui vuoi estrarre i dati. Se utilizzi un service agent con ambito progetto, devi concedere questo ruolo una sola volta al service agent per leggere e scrivere set di dati per tutte le configurazioni dei set di dati all'interno del progetto.

Per istruzioni sulla concessione dei ruoli per i progetti, consulta Gestire l'accesso.

Collegare un set di dati

Per collegare un set di dati a BigQuery:

Console

Nella console Google Cloud , vai alla pagina Storage Insights in Cloud Storage.

Vai a Storage Insights
Fai clic sul nome della configurazione del set di dati che ha generato il set di dati che vuoi collegare.
Nella sezione Set di dati collegato a BigQuery, fai clic su Collega set di dati per collegare il tuo set di dati.

Riga di comando

Per collegare un set di dati a BigQuery, esegui il comando gcloud storage insights dataset-configs create-link:
```
gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
```
Sostituisci:
- DATASET_CONFIG_ID con il nome della configurazione del set di dati che ha generato il set di dati da collegare.
- LOCATION con la posizione del tuo set di dati. Ad esempio: us-central1.
Puoi anche specificare un percorso di configurazione completo del set di dati. Ad esempio:
```
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
```
Sostituisci:
- DESTINATION_PROJECT_ID con l'ID del progetto che contiene la configurazione del set di dati. Per saperne di più sugli ID progetto, consulta la pagina Creare e gestire progetti.
- DATASET_CONFIG_ID con il nome della configurazione del set di dati che ha generato il set di dati da collegare.
- LOCATION con la posizione del tuo set di dati e la configurazione del set di dati. Ad esempio: us-central1.

API JSON

Avere gcloud CLI installata e inizializzata , il che ti consente di generare un token di accesso per l'intestazione Authorization.

Utilizza cURL per chiamare l'API JSON con una richiesta linkDataset DatasetConfig:
```
curl -X POST \
  "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
    --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
    --header "Accept: application/json" \
    --header "Content-Type: application/json"
```
Sostituisci:
- JSON_FILE_NAME con il percorso del file JSON che hai creato.
- PROJECT_ID con l'ID del progetto a cui appartiene la configurazione del set di dati.
- LOCATION con la posizione in cui si trovano il set di dati e la configurazione del set di dati. Ad esempio us-central1.
- DATASET_CONFIG_ID con il nome della configurazione del set di dati che ha generato il set di dati da collegare.
- SERVICE_ACCOUNT con il account di servizio. Ad esempio, test-service-account@test-project.iam.gserviceaccount.com.

Passaggi successivi

Visualizza i set di dati collegati.
Esegui una query su un set di dati collegato.
Analizza i dati archiviati con Gemini Cloud Assist.
Gestisci le configurazioni dei set di dati, inclusi aggiornamento, visualizzazione, elenco ed eliminazione.

Configura i set di dati Storage Insights Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

Ottenere i ruoli richiesti

Autorizzazioni obbligatorie

Abilita l'API Storage Insights

Console

Riga di comando

Configura Storage Intelligence

Crea una configurazione del set di dati

Console

Riga di comando

API JSON

Concedi le autorizzazioni richieste al service agent

Collegare un set di dati

Console

Riga di comando

API JSON

Passaggi successivi

Configura i set di dati Storage Insights