Gestire le preparazioni dei dati
Questo documento descrive come gestire le preparazioni dei dati di BigQuery, inclusi la gestione dell'accesso, il controllo delle versioni, le prestazioni e i metadati. Descrive inoltre come eseguire attività di base, come visualizzare e scaricare le preparazioni dei dati.
Le preparazioni dei dati sono BigQuery basate su Dataform. Per saperne di più, consulta Panoramica della preparazione dei dati di BigQuery.
Prima di iniziare
- Assicurati di aver abilitato l' API Gemini for Google Cloud.
- Per gestire i metadati di preparazione dei dati in Knowledge Catalog, assicurati che l'API Dataplex sia abilitata nel tuo Google Cloud progetto.
Ruoli obbligatori
Gli utenti che preparano i dati e i service account Dataform che eseguono i job richiedono le autorizzazioni concesse dai seguenti ruoli Identity and Access Management (IAM).
Ottenere l'accesso utente per la preparazione dei dati
Per ottenere le autorizzazioni necessarie per preparare i dati in BigQuery, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Utente BigQuery Studio (
roles/bigquery.studioUser) sul progetto -
Gemini for Google Cloud User (
roles/cloudaicompanion.user) sul progetto -
Accedere alle tabelle di origine:
Visualizzatore dati BigQuery (
roles/bigquery.dataViewer) sulla tabella, sul set di dati o sul progetto
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Per saperne di più su IAM per i set di dati in BigQuery, consulta Concedere l'accesso a un set di dati.Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Ottenere l'accesso per gestire i metadati
Per ottenere le autorizzazioni necessarie per gestire i metadati di preparazione dei dati in
Knowledge Catalog, assicurati di disporre dei
ruoli Knowledge Catalog richiesti
e dell'
dataform.repositories.get
autorizzazione.
Concedere l'accesso al account di servizio Dataform
Per assicurarti che il account di servizio Dataform disponga delle autorizzazioni necessarie per eseguire le preparazioni dei dati in BigQuery, chiedi all'amministratore di concedere i seguenti ruoli IAM al account di servizio Dataform:
-
Accedere alle tabelle di origine:
Visualizzatore dati BigQuery (
roles/bigquery.dataViewer) sulla tabella, sul set di dati o sul progetto -
Accedere alle tabelle di destinazione:
Editor dati BigQuery (
roles/bigquery.dataEditor) sulla tabella, sul set di dati o sul progetto
Il account di servizio Dataform potrebbe richiedere autorizzazioni aggiuntive, a seconda della pipeline di preparazione dei dati. Per saperne di più, consulta Concedere l'accesso richiesto a Dataform.
Visualizzare le preparazioni dei dati esistenti
Per visualizzare un elenco delle preparazioni dei dati esistenti:
Vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.
Nel riquadro Spazio di esplorazione, espandi il progetto.
Fai clic su Preparazioni dei dati.
Ottimizzare la preparazione dei dati elaborando i dati in modo incrementale
Per configurare la modalità di scrittura dei dati preparati in una tabella di destinazione:
Nella Google Cloud console, vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Nel riquadro Spazio di esplorazione, fai clic su Preparazioni dei dati, quindi seleziona la preparazione dei dati.
Nella barra degli strumenti della preparazione dei dati, seleziona Altro > Modalità di scrittura.
Seleziona una delle opzioni. Per saperne di più, consulta Modalità di scrittura.
Fai clic su Salva.
Contribuisci a migliorare i suggerimenti
Puoi contribuire a migliorare i suggerimenti di Gemini condividendo con Google i dati dei prompt che invii alle funzionalità in Anteprima. Per condividere i dati dei prompt, segui questi passaggi:
- Apri l'editor di preparazione dei dati in BigQuery.
- Nella barra degli strumenti di preparazione dei dati, fai clic su settings Altro.
- Seleziona Condividi i dati per migliorare Gemini in BigQuery.
Le impostazioni di condivisione dei dati si applicano all'intero progetto e possono essere impostate solo da un amministratore del progetto con le autorizzazioni IAM serviceusage.services.enable e serviceusage.services.list. Per ulteriori
informazioni sull'utilizzo dei dati nel programma Trusted Tester, vedi
Programma Trusted Tester di Gemini per Google Cloud .
Versioni di preparazione dei dati
Puoi scegliere di creare una preparazione dei dati all'interno o all'esterno di un repository. Il controllo delle versioni della preparazione dei dati viene gestito in modo diverso a seconda della posizione della preparazione dei dati.
Controllo delle versioni della preparazione dei dati nei repository
I repository sono repository Git che risiedono in BigQuery o con un fornitore di terze parti. Puoi utilizzare spazi di lavoro nei repository per eseguire il controllo delle versioni sulle preparazioni dei dati. Per saperne di più, consulta Utilizzare il controllo delle versioni con un file.
Controllo delle versioni della preparazione dei dati al di fuori dei repository
Le preparazioni dei dati di BigQuery che non si trovano nei repository non supportano la visualizzazione, il confronto o il ripristino delle versioni di preparazione dei dati.
Per visualizzare un elenco delle versioni di preparazione dei dati in ordine cronologico:
Vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Nel riquadro Spazio di esplorazione, fai clic su Preparazioni dei dati, quindi seleziona la preparazione dei dati.
Fai clic su Cronologia delle versioni.
Scaricare una preparazione dei dati
Per scaricare una preparazione dei dati in un file SQLX:
Nella Google Cloud console, vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Nel riquadro Spazio di esplorazione, espandi il progetto e fai clic su Preparazioni dei dati.
Fai clic sul nome della preparazione dei dati che vuoi scaricare.
Fai clic su Scarica. La preparazione dei dati viene salvata nel formato di file SQLX, ad esempio,
NAME data preparation.dp.sqlx.
Caricare una preparazione dei dati
Per caricare una preparazione dei dati da un file SQLX:
Nella Google Cloud console, vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Nel riquadro Spazio di esplorazione, espandi il progetto.
Fai clic su Preparazioni dei dati e poi su more_vert Visualizza azioni > Carica nella preparazione dei dati.
Nella finestra di dialogo Carica preparazione dei dati , seleziona un file da caricare o inserisci l'URL della preparazione dei dati.
Inserisci un nome per la preparazione dei dati.
Seleziona una località di preparazione dei dati in cui le risorse vengono gestite e archiviate.
Fai clic su Carica.
Gestire i metadati in Knowledge Catalog
Knowledge Catalog consente di archiviare e gestire i metadati per le preparazioni dei dati. Le preparazioni dei dati sono disponibili in Knowledge Catalog per impostazione predefinita, senza configurazioni aggiuntive.
Puoi utilizzare Knowledge Catalog per gestire le preparazioni dei dati in tutte le località BigQuery. La gestione delle preparazioni dei dati in Knowledge Catalog è soggetta a quote e limiti di Knowledge Catalog e ai prezzi di Knowledge Catalog.
Knowledge Catalog recupera automaticamente i seguenti metadati dalle preparazioni dei dati:
- Nome dell'asset di dati
- Asset di dati padre
- Località dell'asset di dati
- Tipo di asset di dati
- Progetto corrispondente Google Cloud
Knowledge Catalog registra le preparazioni dei dati come voci con i seguenti valori di voce:
- Gruppo di voci di sistema
- Il gruppo di voci di sistema
per le preparazioni dei dati è
@dataform. Per visualizzare i dettagli delle voci di preparazione dei dati in Knowledge Catalog, devi visualizzare il gruppo di voci di sistemadataform. Per istruzioni su come visualizzare un elenco di tutte le voci in un gruppo di voci, consulta Visualizzare i dettagli di un gruppo di voci nella documentazione di Knowledge Catalog. - Tipo di voce di sistema
- Il tipo di voce di sistema
per le preparazioni dei dati è
dataform-code-asset. Per visualizzare i dettagli delle preparazioni dei dati,devi visualizzare il tipo di voce di sistemadataform-code-asset, filtrare i risultati con un filtro basato sugli aspetti, e impostare il campotypeall'interno dell'aspettodataform-code-assetsuDATA_PREPARATION. Seleziona quindi una voce della preparazione dei dati selezionata. Per istruzioni su come visualizzare i dettagli di un tipo di voce selezionato, consulta Visualizzare i dettagli di un tipo di voce nella documentazione di Knowledge Catalog. Per istruzioni su come visualizzare i dettagli di una voce selezionata, consulta Visualizzare i dettagli di una voce nella documentazione di Knowledge Catalog. - Tipo di aspetto di sistema
- Il tipo di aspetto di sistema
per le preparazioni dei dati è
dataform-code-asset. Per fornire un contesto aggiuntivo alle preparazioni dei dati in Knowledge Catalog annotando le voci di preparazione dei dati con gli aspetti, visualizza il tipo di aspettodataform-code-asset, filtra i risultati con un filtro basato sugli aspetti e imposta il campotypeall'interno dell'aspettodataform-code-assetsuDATA_PREPARATION. Per istruzioni su come annotare le voci con gli aspetti, consulta Gestire gli aspetti e arricchire i metadati nella documentazione di Knowledge Catalog. - Tipo
- Il tipo per le canvas di dati è
DATA_PREPARATION. Questo tipo consente di filtrare le preparazioni dei dati nel tipo di voce di sistemadataform-code-assete nel tipo di aspettodataform-code-assetutilizzando laaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATIONquery in un filtro basato sugli aspetti.
Per istruzioni su come cercare gli asset, consulta Cercare gli asset di dati in Knowledge Catalog nella documentazione di Knowledge Catalog.
Passaggi successivi
- Scopri di più sulla preparazione dei dati in BigQuery.
- Scopri come eseguire le preparazioni dei dati manualmente o con una pianificazione.
- Scopri come creare preparazioni dei dati.