Gestire le preparazioni dei dati

Questo documento descrive come gestire le preparazioni dei dati di BigQuery, inclusi la gestione dell'accesso, il controllo delle versioni, le prestazioni e i metadati. Descrive inoltre come eseguire attività di base, come visualizzare e scaricare le preparazioni dei dati.

Le preparazioni dei dati sono BigQuery basate su Dataform. Per saperne di più, consulta Panoramica della preparazione dei dati di BigQuery.

Prima di iniziare

  1. Assicurati di aver abilitato l' API Gemini for Google Cloud.
  2. Per gestire i metadati di preparazione dei dati in Knowledge Catalog, assicurati che l'API Dataplex sia abilitata nel tuo Google Cloud progetto.

Ruoli obbligatori

Gli utenti che preparano i dati e i service account Dataform che eseguono i job richiedono le autorizzazioni concesse dai seguenti ruoli Identity and Access Management (IAM).

Ottenere l'accesso utente per la preparazione dei dati

Per ottenere le autorizzazioni necessarie per preparare i dati in BigQuery, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Per saperne di più su IAM per i set di dati in BigQuery, consulta Concedere l'accesso a un set di dati.

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Ottenere l'accesso per gestire i metadati

Per ottenere le autorizzazioni necessarie per gestire i metadati di preparazione dei dati in Knowledge Catalog, assicurati di disporre dei ruoli Knowledge Catalog richiesti e dell' dataform.repositories.get autorizzazione.

Concedere l'accesso al account di servizio Dataform

Per assicurarti che il account di servizio Dataform disponga delle autorizzazioni necessarie per eseguire le preparazioni dei dati in BigQuery, chiedi all'amministratore di concedere i seguenti ruoli IAM al account di servizio Dataform:

  • Accedere alle tabelle di origine: Visualizzatore dati BigQuery (roles/bigquery.dataViewer) sulla tabella, sul set di dati o sul progetto
  • Accedere alle tabelle di destinazione: Editor dati BigQuery (roles/bigquery.dataEditor) sulla tabella, sul set di dati o sul progetto

Il account di servizio Dataform potrebbe richiedere autorizzazioni aggiuntive, a seconda della pipeline di preparazione dei dati. Per saperne di più, consulta Concedere l'accesso richiesto a Dataform.

Visualizzare le preparazioni dei dati esistenti

Per visualizzare un elenco delle preparazioni dei dati esistenti:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

    Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.

  3. Nel riquadro Spazio di esplorazione, espandi il progetto.

  4. Fai clic su Preparazioni dei dati.

Ottimizzare la preparazione dei dati elaborando i dati in modo incrementale

Per configurare la modalità di scrittura dei dati preparati in una tabella di destinazione:

  1. Nella Google Cloud console, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Spazio di esplorazione, fai clic su Preparazioni dei dati, quindi seleziona la preparazione dei dati.

  4. Nella barra degli strumenti della preparazione dei dati, seleziona Altro > Modalità di scrittura.

  5. Seleziona una delle opzioni. Per saperne di più, consulta Modalità di scrittura.

  6. Fai clic su Salva.

Contribuisci a migliorare i suggerimenti

Puoi contribuire a migliorare i suggerimenti di Gemini condividendo con Google i dati dei prompt che invii alle funzionalità in Anteprima. Per condividere i dati dei prompt, segui questi passaggi:

  1. Apri l'editor di preparazione dei dati in BigQuery.
  2. Nella barra degli strumenti di preparazione dei dati, fai clic su settings Altro.
  3. Seleziona Condividi i dati per migliorare Gemini in BigQuery.

Le impostazioni di condivisione dei dati si applicano all'intero progetto e possono essere impostate solo da un amministratore del progetto con le autorizzazioni IAM serviceusage.services.enable e serviceusage.services.list. Per ulteriori informazioni sull'utilizzo dei dati nel programma Trusted Tester, vedi Programma Trusted Tester di Gemini per Google Cloud .

Versioni di preparazione dei dati

Puoi scegliere di creare una preparazione dei dati all'interno o all'esterno di un repository. Il controllo delle versioni della preparazione dei dati viene gestito in modo diverso a seconda della posizione della preparazione dei dati.

Controllo delle versioni della preparazione dei dati nei repository

I repository sono repository Git che risiedono in BigQuery o con un fornitore di terze parti. Puoi utilizzare spazi di lavoro nei repository per eseguire il controllo delle versioni sulle preparazioni dei dati. Per saperne di più, consulta Utilizzare il controllo delle versioni con un file.

Controllo delle versioni della preparazione dei dati al di fuori dei repository

Le preparazioni dei dati di BigQuery che non si trovano nei repository non supportano la visualizzazione, il confronto o il ripristino delle versioni di preparazione dei dati.

Per visualizzare un elenco delle versioni di preparazione dei dati in ordine cronologico:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Spazio di esplorazione, fai clic su Preparazioni dei dati, quindi seleziona la preparazione dei dati.

  4. Fai clic su Cronologia delle versioni.

Scaricare una preparazione dei dati

Per scaricare una preparazione dei dati in un file SQLX:

  1. Nella Google Cloud console, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Spazio di esplorazione, espandi il progetto e fai clic su Preparazioni dei dati.

  4. Fai clic sul nome della preparazione dei dati che vuoi scaricare.

  5. Fai clic su Scarica. La preparazione dei dati viene salvata nel formato di file SQLX, ad esempio, NAME data preparation.dp.sqlx.

Caricare una preparazione dei dati

Per caricare una preparazione dei dati da un file SQLX:

  1. Nella Google Cloud console, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

  3. Nel riquadro Spazio di esplorazione, espandi il progetto.

  4. Fai clic su Preparazioni dei dati e poi su more_vert Visualizza azioni > Carica nella preparazione dei dati.

  5. Nella finestra di dialogo Carica preparazione dei dati , seleziona un file da caricare o inserisci l'URL della preparazione dei dati.

  6. Inserisci un nome per la preparazione dei dati.

  7. Seleziona una località di preparazione dei dati in cui le risorse vengono gestite e archiviate.

  8. Fai clic su Carica.

Gestire i metadati in Knowledge Catalog

Knowledge Catalog consente di archiviare e gestire i metadati per le preparazioni dei dati. Le preparazioni dei dati sono disponibili in Knowledge Catalog per impostazione predefinita, senza configurazioni aggiuntive.

Puoi utilizzare Knowledge Catalog per gestire le preparazioni dei dati in tutte le località BigQuery. La gestione delle preparazioni dei dati in Knowledge Catalog è soggetta a quote e limiti di Knowledge Catalog e ai prezzi di Knowledge Catalog.

Knowledge Catalog recupera automaticamente i seguenti metadati dalle preparazioni dei dati:

  • Nome dell'asset di dati
  • Asset di dati padre
  • Località dell'asset di dati
  • Tipo di asset di dati
  • Progetto corrispondente Google Cloud

Knowledge Catalog registra le preparazioni dei dati come voci con i seguenti valori di voce:

Gruppo di voci di sistema
Il gruppo di voci di sistema per le preparazioni dei dati è @dataform. Per visualizzare i dettagli delle voci di preparazione dei dati in Knowledge Catalog, devi visualizzare il gruppo di voci di sistema dataform. Per istruzioni su come visualizzare un elenco di tutte le voci in un gruppo di voci, consulta Visualizzare i dettagli di un gruppo di voci nella documentazione di Knowledge Catalog.
Tipo di voce di sistema
Il tipo di voce di sistema per le preparazioni dei dati è dataform-code-asset. Per visualizzare i dettagli delle preparazioni dei dati,devi visualizzare il tipo di voce di sistema dataform-code-asset, filtrare i risultati con un filtro basato sugli aspetti, e impostare il campo type all'interno dell'aspetto dataform-code-asset su DATA_PREPARATION. Seleziona quindi una voce della preparazione dei dati selezionata. Per istruzioni su come visualizzare i dettagli di un tipo di voce selezionato, consulta Visualizzare i dettagli di un tipo di voce nella documentazione di Knowledge Catalog. Per istruzioni su come visualizzare i dettagli di una voce selezionata, consulta Visualizzare i dettagli di una voce nella documentazione di Knowledge Catalog.
Tipo di aspetto di sistema
Il tipo di aspetto di sistema per le preparazioni dei dati è dataform-code-asset. Per fornire un contesto aggiuntivo alle preparazioni dei dati in Knowledge Catalog annotando le voci di preparazione dei dati con gli aspetti, visualizza il tipo di aspetto dataform-code-asset, filtra i risultati con un filtro basato sugli aspetti e imposta il campo type all'interno dell'aspetto dataform-code-asset su DATA_PREPARATION. Per istruzioni su come annotare le voci con gli aspetti, consulta Gestire gli aspetti e arricchire i metadati nella documentazione di Knowledge Catalog.
Tipo
Il tipo per le canvas di dati è DATA_PREPARATION. Questo tipo consente di filtrare le preparazioni dei dati nel tipo di voce di sistema dataform-code-asset e nel tipo di aspetto dataform-code-asset utilizzando la aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION query in un filtro basato sugli aspetti.

Per istruzioni su come cercare gli asset, consulta Cercare gli asset di dati in Knowledge Catalog nella documentazione di Knowledge Catalog.

Passaggi successivi