"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Abilita la derivazione dei dati Hive

Questo documento mostra come attivare e utilizzare data lineage per i job Hive di Managed Service for Apache Spark.

Attiva la derivazione dei dati per i job Hive di Managed Service for Apache Spark utilizzando un'azione di inizializzazione quando crei un cluster.

Quando attivi la derivazione dei dati Hive su un cluster, i job Hive che invii al cluster acquisiscono eventi di derivazione dei dati e li pubblicano in Knowledge Catalog.

Visualizzare le informazioni sulla derivazione

Un grafico della lineage dei dati mostra le relazioni tra le risorse del progetto e i processi che le hanno create. Puoi accedere ai grafici della lineage utilizzando Knowledge Catalog, BigQuery Studio e Vertex AI nella console Google Cloud .

Prezzi

La lineage dei dati Hive di Managed Service for Apache Spark è offerta durante l'anteprima senza costi aggiuntivi. Si applicano i prezzi di Managed Service for Apache Spark standard.

Prima di iniziare

Nella console Google Cloud , nella pagina di selezione del progetto, seleziona il progetto che contiene il cluster Managed Service for Apache Spark per cui vuoi monitorare la derivazione.

Vai al selettore di progetti
Abilitare l'API Data Lineage e l'API Dataplex.

Abilita le API

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per utilizzare la derivazione dei dati in Managed Service for Apache Spark, chiedi all'amministratore di concederti i seguenti ruoli IAM sul service account VM del cluster Managed Service for Apache Spark:

Visualizza la derivazione dei dati in Knowledge Catalog o utilizza l'API Data Lineage: Data Lineage Viewer (roles/datalineage.viewer)
Produci la derivazione dei dati manualmente utilizzando l'API: Data Lineage Events Producer (roles/datalineage.producer)
Modifica la derivazione dei dati utilizzando l'API: Data Lineage Editor (roles/datalineage.editor)
Esegui tutte le operazioni sulla derivazione dei dati: Amministratore di Data Lineage (roles/datalineage.admin)

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Abilita la derivazione dei dati Hive

Per attivare la derivazione dei dati Hive su un cluster, specifica l'hive-lineage.sh azione di inizializzazione quando crei un cluster Managed Service for Apache Spark. Questa azione di inizializzazione è archiviata in bucket regionali in Cloud Storage.

Esempio di creazione di cluster gcloud CLI:

gcloud dataproc clusters create CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --image-version IMAGE_VERSION \
    --initialization-actions gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh

Sostituisci quanto segue:

CLUSTER_NAME: il nome del cluster.
PROJECT_ID: l'ID progetto Google Cloud . Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
REGION: la regione di Compute Engine in cui si trova il cluster.
IMAGE_VERSION La versione dell'immagine prevista per il cluster.
--initialization-actions: specifica un'azione di installazione che si trova in una località regionale di Cloud Storage, che attiva la provenienza dei dati Hive.
- (Facoltativo) Aggiungi l'azione di inizializzazione del connettore Hive-BigQuery. Se vuoi integrare le tabelle BigQuery con i carichi di lavoro Hive, devi installare il connettore Hive-BigQuery sul cluster. Consulta l'esempio di lineage dei dati Hive con BigQuery, che esegue un'azione di inizializzazione del connettore per installare il connettore Hive-BigQuery sul cluster.

Invia un job Hive

Quando invii un job Hive a un cluster Managed Service for Apache Spark creato con la derivazione dei dati Hive abilitata, Managed Service for Apache Spark acquisisce e segnala le informazioni sulla derivazione dei dati a Knowledge Catalog.

Esempio di invio di job Hive della gcloud CLI:

gcloud dataproc jobs submit hive \
    --cluster=CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --properties=hive.openlineage.namespace=CUSTOM_NAMESPACE \
    --execute HIVE_QUERY

Sostituisci quanto segue:

CLUSTER_NAME: il nome del cluster.
PROJECT_ID: l'ID progetto Google Cloud . Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
REGION: la regione Compute Engine in cui si trova il cluster.
CUSTOM_NAMESPACE: uno spazio dei nomi Hive personalizzato facoltativo che puoi specificare per identificare il job Hive.
HIVE_QUERY: la query Hive da inviare al cluster. Anziché specificare una query, puoi sostituire il flag --execute HIVE_QUERY con un flag --file SQL_FILE per specificare la posizione di un file che contiene la query.

Visualizza la derivazione in Knowledge Catalog

Un grafico di derivazione mostra le relazioni tra le risorse del progetto e i processi che le hanno create. Puoi visualizzare le informazioni sulla derivazione dei dati nella console Google Cloud o recuperarle dall'API Data Lineage sotto forma di dati JSON.

Lignaggio dei dati Hive con esempio BigQuery

L'esempio in questa sezione è costituito dai seguenti passaggi:

Crea un cluster Managed Service for Apache Spark con la derivazione dei dati Hive abilitata e il connettore Hive-BigQuery installato sul cluster.
Esegui una query Hive sul cluster per copiare i dati tra le tabelle Hive.
Visualizza il grafico della derivazione dei dati generato in BigQuery Studio.

Crea un cluster Managed Service for Apache Spark

Esegui il comando seguente in una finestra del terminale locale o in Cloud Shell per creare un cluster Managed Service for Apache Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --image-version IMAGE_VERSION \
    --initialization-actions gs://goog-dataproc-initialization-actions-REGION/connectors/connectors.sh, gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh \
    --metadata hive-bigquery-connector-version=HIVE_BQ_VERSION

Note:

CLUSTER_NAME: il nome del cluster.
PROJECT_ID: l'ID progetto Google Cloud . Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
REGION: la regione di Compute Engine in cui si trova il cluster.
IMAGE_VERSION La versione dell'immagine prevista per il cluster.
--initialization-actions: queste azioni di installazione, che si trovano in Cloud Storage, installano il connettore Hive-BigQuery e attivano la provenienza dei dati Hive.
HIVE_BQ_VERSION: specifica la versione del connettore Hive-BigQuery. Il flag --metadata passa la versione all'connectors.sh azione di inizializzazione per installare il connettore Hive-BigQuery sul cluster.

Eseguire una query Hive

Esegui una query Hive per eseguire le seguenti azioni:

Crea una tabella esterna us_states con input di dati di esempio da gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout.
Crea una tabella gestita us_states_copy nel set di dati BigQuery specificato.
Copia tutti i dati da us_states a us_states_copy.

Per eseguire la query:

In una finestra del terminale locale o in Cloud Shell, utilizza un editor di testo, ad esempio vi o nano, per copiare l'istruzione della query Hive riportata di seguito in un file hive-example.sql, quindi salva il file nella directory corrente.
Invia il file hive-example.sql al cluster Managed Service for Apache Spark creato in precedenza sostituendo il flag --execute HIVE_QUERY con un flag --file SQL_FILE per specificare la posizione del file hive-example.sql salvato. Tieni presente che le variabili PROJECT e BQ_DATASET devono essere compilate.

Hive BigQueryStorageHandler

CREATE EXTERNAL TABLE us_states (
    name STRING,
    post_abbr STRING
)
STORED AS PARQUET
LOCATION 'gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout';

CREATE TABLE us_states_copy (
    name STRING,
    post_abbr STRING
)
STORED BY 'com.google.cloud.hive.bigquery.connector.BigQueryStorageHandler'
TBLPROPERTIES (
  'bq.table'='PROJECT.BQ_DATASET.us_states_copy'
);

INSERT INTO us_states_copy SELECT * FROM us_states;

Visualizzare il grafico della derivazione dei dati

Al termine del job Hive, visualizza la derivazione dei dati in BigQuery Studio nella console Google Cloud :

Grafico di derivazione Hive

Per informazioni sulla visualizzazione dei grafici in BigQuery Studio, vedi Visualizzare la derivazione in BigQuery. Per informazioni su come interpretare i grafici, consulta Modello informativo della lineage dei dati.

Passaggi successivi

Scopri di più sulla derivazione dei dati.

Abilita la derivazione dei dati Hive Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Visualizzare le informazioni sulla derivazione

Prezzi

Prima di iniziare

Ruoli obbligatori

Abilita la derivazione dei dati Hive

Invia un job Hive

Visualizza la derivazione in Knowledge Catalog

Lignaggio dei dati Hive con esempio BigQuery

Crea un cluster Managed Service for Apache Spark

Eseguire una query Hive

Visualizzare il grafico della derivazione dei dati

Passaggi successivi

Abilita la derivazione dei dati Hive