Pianifica workload
Le attività di BigQuery fanno in genere parte di workload più grandi, con attività esterne che attivano e vengono attivate dalle operazioni di BigQuery. La pianificazione dei workload aiuta gli amministratori, gli analisti e gli sviluppatori di dati a organizzare e ottimizzare questa catena di azioni, creando una connessione perfetta tra risorse e processi di dati. I metodi e gli strumenti di pianificazione aiutano a progettare, creare, implementare e monitorare questi workload di dati complessi.
Scegli un metodo di pianificazione
Per selezionare un metodo di pianificazione, devi identificare se i tuoi workload sono basati su eventi, basati sul tempo o entrambi. Un evento è definito come una modifica dello stato, ad esempio una modifica dei dati in un database o un file aggiunto a un sistema di archiviazione. Nella pianificazione basata su eventi, un'azione su un sito web potrebbe attivare un'attività di dati oppure un oggetto che arriva in un determinato bucket potrebbe dover essere elaborato immediatamente all'arrivo. Nella pianificazione basata sul tempo, i nuovi dati potrebbero dover essere caricati una volta al giorno o con una frequenza sufficiente per generare report orari. Puoi utilizzare la pianificazione basata su eventi e sul tempo negli scenari in cui devi caricare gli oggetti in un data lake in tempo reale, ma i report sulle attività sul data lake vengono generati solo giornalmente.
Scegli uno strumento di pianificazione
Gli strumenti di pianificazione aiutano a svolgere le attività coinvolte nella gestione di workload di dati complessi , ad esempio la combinazione di più servizi di terze parti Google Cloud con i job BigQuery o l'esecuzione di più job BigQuery in parallelo. Ogni workload ha requisiti univoci per la gestione delle dipendenze e dei parametri per garantire che le attività vengano eseguite nell'ordine corretto utilizzando i dati corretti. Google Cloud offre diverse opzioni di pianificazione basate sul metodo di pianificazione e sui requisiti del workload.
Per la maggior parte dei casi d'uso, ti consigliamo di utilizzare Dataform, Workflows, Managed Airflow o Vertex AI Pipelines. Consulta il seguente grafico per un confronto fianco a fianco:
| Dataform | Workflows | Managed Airflow | Vertex AI Pipelines | |
|---|---|---|---|---|
| Evidenzia | Trasformazione dei dati | Microservizi | ETL o ELT | Machine learning |
| complessità | * | ** | *** | ** |
| Profilo utente | Analista o amministratore di dati | Architetto di dati | Data engineer | Analista di dati |
| Tipo di codice | Notebook JavaScript, SQL, Python | YAML o JSON | Python | Python |
| Serverless? | Sì | Sì | Completamente gestito | Sì |
| Non adatto a | Catene di servizi esterni | Trasformazione ed elaborazione dei dati | Pipeline a bassa latenza o basate su eventi | Attività di infrastruttura |
Le sezioni seguenti descrivono in dettaglio questi e altri strumenti di pianificazione.
Query programmate
La forma più semplice di pianificazione dei workload è la pianificazione di query ricorrenti direttamente in BigQuery. Sebbene questo sia l'approccio meno complesso alla pianificazione, lo consigliamo solo per le catene di query semplici senza dipendenze esterne. Le query pianificate in questo modo devono essere scritte in GoogleSQL e possono includere istruzioni in Data Definition Language (DDL) e Data Manipulation Language (DML).
Metodo di pianificazione: basato sul tempo
Dataform
Dataform è un framework di trasformazione basato su SQL, senza costi e con opinioni che pianifica attività di trasformazione dei dati complesse in BigQuery. Quando i dati non elaborati vengono caricati in BigQuery, Dataform ti aiuta a creare una raccolta organizzata, testata e con controllo delle versioni di set di dati e tabelle. Utilizza Dataform per pianificare le esecuzioni per le preparazioni dei dati, notebook, e pipeline BigQuery.
Metodo di pianificazione: basato sul tempo
Workflows
Workflows è uno strumento serverless che pianifica i servizi basati su HTTP con una latenza molto bassa. È ideale per concatenare microservizi, automatizzare le attività di infrastruttura, integrarsi con sistemi esterni o creare una sequenza di operazioni in Google Cloud. Per scoprire di più sull'utilizzo di Workflows con BigQuery, consulta Eseguire più job BigQuery in parallelo.
Metodo di pianificazione: basato su eventi e sul tempo
Managed Service per Apache Airflow
Managed Airflow è uno strumento completamente gestito basato su Apache Airflow. È ideale per i workload di estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT), in quanto supporta diversi tipi e pattern di operatori, nonché l'esecuzione di attività in altri Google Cloud prodotti e target esterni. Per scoprire di più sull'utilizzo di Managed Airflow con BigQuery, consulta Eseguire un DAG di analisi dei dati in Google Cloud.
Metodo di pianificazione: basato sul tempo
Vertex AI Pipelines
Vertex AI Pipelines è uno strumento serverless basato su Kubeflow Pipelines progettato appositamente per la pianificazione dei workload di machine learning. Automatizza e collega tutte le attività di sviluppo e deployment dei modelli, dai dati di addestramento al codice, offrendoti una visione completa del funzionamento dei tuoi modelli. Per scoprire di più sull'utilizzo di Vertex AI Pipelines con BigQuery, consulta Esportare ed eseguire il deployment di un modello di machine learning di BigQuery per la previsione.
Metodo di pianificazione: basato su eventi
Apigee Integration
Apigee Integration è un'estensione della piattaforma Apigee che include connettori e strumenti di trasformazione dei dati. È ideale per l'integrazione con applicazioni aziendali esterne, come Salesforce. Per scoprire di più sull'utilizzo di Apigee Integration con BigQuery, consulta Iniziare a utilizzare Apigee Integration e un trigger Salesforce.
Metodo di pianificazione: basato su eventi e sul tempo
Cloud Data Fusion
Cloud Data Fusion è uno strumento di integrazione dei dati che offre pipeline ELT/ETL senza codice e oltre 150 connettori e trasformazioni preconfigurati. Per scoprire di più sull'utilizzo di Cloud Data Fusion con BigQuery, consulta Replicare i dati da MySQL a BigQuery.
Metodo di pianificazione: basato su eventi e sul tempo
Cloud Scheduler
Cloud Scheduler è un servizio di pianificazione completamente gestito per job come lo streaming batch o le operazioni di infrastruttura che devono essere eseguite a intervalli di tempo definiti. Per scoprire di più sull'utilizzo di Cloud Scheduler con BigQuery, consulta Pianificare i flussi di lavoro con Cloud Scheduler.
Metodo di pianificazione: basato sul tempo
Cloud Tasks
Cloud Tasks è un servizio completamente gestito per la distribuzione asincrona delle attività di job che possono essere eseguiti in modo indipendente, al di fuori del workload principale. È ideale per delegare operazioni in background lente o gestire le tariffe delle chiamate API. Per scoprire di più sull'utilizzo di Cloud Tasks con BigQuery, consulta Aggiungere un'attività a una coda di Cloud Tasks.
Metodo di pianificazione: basato su eventi
Strumenti di terze parti
Puoi anche connetterti a BigQuery utilizzando una serie di strumenti di terze parti diffusi come CData e SnapLogic. Il programma BigQuery Ready offre un elenco completo di soluzioni partner convalidate.
Strumenti di messaggistica
Molti workload di dati richiedono connessioni di messaggistica aggiuntive tra microservizi disaccoppiati che devono essere attivati solo quando si verificano determinati eventi. Google Cloud fornisce due strumenti progettati per l'integrazione con BigQuery.
Pub/Sub
Pub/Sub è uno strumento di messaggistica asincrono per le pipeline di integrazione dei dati. È progettato per importare e distribuire dati come eventi del server e interazioni utente. Può essere utilizzato anche per l'elaborazione parallela e lo streaming di dati da dispositivi IoT. Per scoprire di più sull'utilizzo di Pub/Sub con BigQuery, consulta Eseguire lo streaming da Pub/Sub a BigQuery.
Eventarc
Eventarc è uno strumento basato su eventi che ti consente di gestire il flusso delle modifiche dello stato nella pipeline di dati. Questo strumento ha una vasta gamma di casi d'uso, tra cui la correzione automatica degli errori, l'etichettatura delle risorse, il ritocco delle immagini e altro ancora. Per scoprire di più sull'utilizzo di Eventarc con BigQuery, consulta Creare una pipeline di elaborazione di BigQuery con Eventarc.
Passaggi successivi
- Scopri come pianificare le query ricorrenti direttamente in BigQuery.
- Inizia a utilizzare Dataform.
- Inizia a utilizzare Workflows.
- Inizia a utilizzare Managed Airflow.
- Inizia a utilizzare Vertex AI Pipelines.
- Inizia a utilizzare Apigee Integration.
- Inizia a utilizzare Cloud Data Fusion.
- Inizia a utilizzare Cloud Scheduler.
- Inizia a utilizzare Pub/Sub.
- Inizia a utilizzare Eventarc.