Casi d'uso di Dataflow
Dataflow è progettato per supportare pipeline di streaming e batch su larga scala. Dataflow è basato sul framework Apache Beam open source.
Questa pagina contiene link a tutorial ed esempi di casi d'uso per aiutarti a iniziare.
Spostamento dei dati
Importa i dati dalle tabelle Apache Iceberg in Lakehouse
Scopri come utilizzare Dataflow Job Builder per importare dati da cataloghi REST Apache Iceberg esterni nelle tabelle gestite di Lakehouse.
Importa file Parquet dallo spazio di archiviazione in Lakehouse
Scopri come utilizzare il generatore di job Dataflow per aggiungere file Apache Parquet esistenti da spazio di archiviazione sul cloud a una tabella Apache Iceberg in Lakehouse.
Elaborare i dati da Kafka a BigQuery
Questo tutorial mostra come eseguire un modello Dataflow che legge da Managed Service for Apache Kafka e scrive i record in una tabella BigQuery.
Elabora i dati da Pub/Sub a BigQuery
Questo tutorial mostra come eseguire un modello Dataflow che legge i messaggi con codifica JSON da Pub/Sub e li scrive in una tabella BigQuery.
Dataflow ML
Utilizzare RunInference e gli embedding
Questo notebook mostra come utilizzare i modelli ML nelle pipeline Apache Beam che utilizzano la trasformazione RunInference.
Utilizzare le GPU nella pipeline
Questo notebook mostra come eseguire l'inferenza di machine learning utilizzando vLLM e le GPU. vLLM è una libreria per l'inferenza e l'erogazione di LLM.
Altre risorse
Pattern di riferimento
Link a codice campione e guide di riferimento tecnico per i casi d'uso comuni di Dataflow.
Pipeline di streaming e-commerce
In questo tutorial, crei una pipeline che trasforma i dati di e-commerce da Pub/Sub e li invia a BigQuery e Bigtable.
Workload HPC altamente paralleli
Con Dataflow, puoi eseguire carichi di lavoro altamente paralleli in un'unica pipeline, migliorando l'efficienza e semplificando la gestione del flusso di lavoro.