Pianifica workload

Le attività di BigQuery fanno in genere parte di workload più grandi, con attività esterne che attivano e vengono attivate dalle operazioni di BigQuery. La pianificazione dei workload aiuta gli amministratori, gli analisti e gli sviluppatori di dati a organizzare e ottimizzare questa catena di azioni, creando una connessione perfetta tra risorse e processi di dati. I metodi e gli strumenti di pianificazione aiutano a progettare, creare, implementare e monitorare questi workload di dati complessi.

Scegli un metodo di pianificazione

Per selezionare un metodo di pianificazione, devi identificare se i tuoi workload sono basati su eventi, basati sul tempo o entrambi. Un evento è definito come una modifica dello stato, ad esempio una modifica dei dati in un database o un file aggiunto a un sistema di archiviazione. Nella pianificazione basata su eventi, un'azione su un sito web potrebbe attivare un'attività di dati oppure un oggetto che arriva in un determinato bucket potrebbe dover essere elaborato immediatamente all'arrivo. Nella pianificazione basata sul tempo, i nuovi dati potrebbero dover essere caricati una volta al giorno o con una frequenza sufficiente per generare report orari. Puoi utilizzare la pianificazione basata su eventi e sul tempo negli scenari in cui devi caricare gli oggetti in un data lake in tempo reale, ma i report sulle attività sul data lake vengono generati solo giornalmente.

Scegli uno strumento di pianificazione

Gli strumenti di pianificazione aiutano a svolgere le attività coinvolte nella gestione di workload di dati complessi , ad esempio la combinazione di più servizi di terze parti Google Cloud con i job BigQuery o l'esecuzione di più job BigQuery in parallelo. Ogni workload ha requisiti univoci per la gestione delle dipendenze e dei parametri per garantire che le attività vengano eseguite nell'ordine corretto utilizzando i dati corretti. Google Cloud offre diverse opzioni di pianificazione basate sul metodo di pianificazione e sui requisiti del workload.

Per la maggior parte dei casi d'uso, ti consigliamo di utilizzare Dataform, Workflows, Managed Airflow o Vertex AI Pipelines. Consulta il seguente grafico per un confronto fianco a fianco:

Dataform Workflows Managed Airflow Vertex AI Pipelines
Evidenzia Trasformazione dei dati Microservizi ETL o ELT Machine learning
complessità * ** *** **
Profilo utente Analista o amministratore di dati Architetto di dati Data engineer Analista di dati
Tipo di codice Notebook JavaScript, SQL, Python YAML o JSON Python Python
Serverless? Completamente gestito
Non adatto a Catene di servizi esterni Trasformazione ed elaborazione dei dati Pipeline a bassa latenza o basate su eventi Attività di infrastruttura

Le sezioni seguenti descrivono in dettaglio questi e altri strumenti di pianificazione.

Query programmate

La forma più semplice di pianificazione dei workload è la pianificazione di query ricorrenti direttamente in BigQuery. Sebbene questo sia l'approccio meno complesso alla pianificazione, lo consigliamo solo per le catene di query semplici senza dipendenze esterne. Le query pianificate in questo modo devono essere scritte in GoogleSQL e possono includere istruzioni in Data Definition Language (DDL) e Data Manipulation Language (DML).

Metodo di pianificazione: basato sul tempo

Dataform

Dataform è un framework di trasformazione basato su SQL, senza costi e con opinioni che pianifica attività di trasformazione dei dati complesse in BigQuery. Quando i dati non elaborati vengono caricati in BigQuery, Dataform ti aiuta a creare una raccolta organizzata, testata e con controllo delle versioni di set di dati e tabelle. Utilizza Dataform per pianificare le esecuzioni per le preparazioni dei dati, notebook, e pipeline BigQuery.

Metodo di pianificazione: basato sul tempo

Workflows

Workflows è uno strumento serverless che pianifica i servizi basati su HTTP con una latenza molto bassa. È ideale per concatenare microservizi, automatizzare le attività di infrastruttura, integrarsi con sistemi esterni o creare una sequenza di operazioni in Google Cloud. Per scoprire di più sull'utilizzo di Workflows con BigQuery, consulta Eseguire più job BigQuery in parallelo.

Metodo di pianificazione: basato su eventi e sul tempo

Managed Service per Apache Airflow

Managed Airflow è uno strumento completamente gestito basato su Apache Airflow. È ideale per i workload di estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT), in quanto supporta diversi tipi e pattern di operatori, nonché l'esecuzione di attività in altri Google Cloud prodotti e target esterni. Per scoprire di più sull'utilizzo di Managed Airflow con BigQuery, consulta Eseguire un DAG di analisi dei dati in Google Cloud.

Metodo di pianificazione: basato sul tempo

Vertex AI Pipelines

Vertex AI Pipelines è uno strumento serverless basato su Kubeflow Pipelines progettato appositamente per la pianificazione dei workload di machine learning. Automatizza e collega tutte le attività di sviluppo e deployment dei modelli, dai dati di addestramento al codice, offrendoti una visione completa del funzionamento dei tuoi modelli. Per scoprire di più sull'utilizzo di Vertex AI Pipelines con BigQuery, consulta Esportare ed eseguire il deployment di un modello di machine learning di BigQuery per la previsione.

Metodo di pianificazione: basato su eventi

Apigee Integration

Apigee Integration è un'estensione della piattaforma Apigee che include connettori e strumenti di trasformazione dei dati. È ideale per l'integrazione con applicazioni aziendali esterne, come Salesforce. Per scoprire di più sull'utilizzo di Apigee Integration con BigQuery, consulta Iniziare a utilizzare Apigee Integration e un trigger Salesforce.

Metodo di pianificazione: basato su eventi e sul tempo

Cloud Data Fusion

Cloud Data Fusion è uno strumento di integrazione dei dati che offre pipeline ELT/ETL senza codice e oltre 150 connettori e trasformazioni preconfigurati. Per scoprire di più sull'utilizzo di Cloud Data Fusion con BigQuery, consulta Replicare i dati da MySQL a BigQuery.

Metodo di pianificazione: basato su eventi e sul tempo

Cloud Scheduler

Cloud Scheduler è un servizio di pianificazione completamente gestito per job come lo streaming batch o le operazioni di infrastruttura che devono essere eseguite a intervalli di tempo definiti. Per scoprire di più sull'utilizzo di Cloud Scheduler con BigQuery, consulta Pianificare i flussi di lavoro con Cloud Scheduler.

Metodo di pianificazione: basato sul tempo

Cloud Tasks

Cloud Tasks è un servizio completamente gestito per la distribuzione asincrona delle attività di job che possono essere eseguiti in modo indipendente, al di fuori del workload principale. È ideale per delegare operazioni in background lente o gestire le tariffe delle chiamate API. Per scoprire di più sull'utilizzo di Cloud Tasks con BigQuery, consulta Aggiungere un'attività a una coda di Cloud Tasks.

Metodo di pianificazione: basato su eventi

Strumenti di terze parti

Puoi anche connetterti a BigQuery utilizzando una serie di strumenti di terze parti diffusi come CData e SnapLogic. Il programma BigQuery Ready offre un elenco completo di soluzioni partner convalidate.

Strumenti di messaggistica

Molti workload di dati richiedono connessioni di messaggistica aggiuntive tra microservizi disaccoppiati che devono essere attivati solo quando si verificano determinati eventi. Google Cloud fornisce due strumenti progettati per l'integrazione con BigQuery.

Pub/Sub

Pub/Sub è uno strumento di messaggistica asincrono per le pipeline di integrazione dei dati. È progettato per importare e distribuire dati come eventi del server e interazioni utente. Può essere utilizzato anche per l'elaborazione parallela e lo streaming di dati da dispositivi IoT. Per scoprire di più sull'utilizzo di Pub/Sub con BigQuery, consulta Eseguire lo streaming da Pub/Sub a BigQuery.

Eventarc

Eventarc è uno strumento basato su eventi che ti consente di gestire il flusso delle modifiche dello stato nella pipeline di dati. Questo strumento ha una vasta gamma di casi d'uso, tra cui la correzione automatica degli errori, l'etichettatura delle risorse, il ritocco delle immagini e altro ancora. Per scoprire di più sull'utilizzo di Eventarc con BigQuery, consulta Creare una pipeline di elaborazione di BigQuery con Eventarc.

Passaggi successivi