Notebooks Dataflow ML

Explorez les notebooks Dataflow ML pour intégrer le machine learning à vos pipelines Apache Beam. Ces notebooks fournissent des exemples pratiques et des conseils pour les workflows de machine learning courants.

Utilisez ces ressources pour :

  • Prétraiter des données pour les modèles de ML : cela inclut des tâches telles que la mise à l'échelle des données, le calcul des vocabulaires et l'utilisation de MLTransform pour la préparation des données.
  • Exécuter l'inférence avec différents modèles et frameworks : utilisez la RunInference transformation avec PyTorch, TensorFlow, scikit-learn, les modèles Hugging Face modèles, les modèles Gemma et Gemini Enterprise Agent Platform, y compris sur les GPU avec vLLM.
  • Générer et gérer des embeddings : créez des embeddings de texte à l'aide d'Agent Platform ou de Hugging Face, puis ingérez-les dans des bases de données telles qu'AlloyDB et BigQuery pour la recherche vectorielle.
  • Mettre en œuvre des modèles de pipeline de ML avancés : cela inclut l'actualisation automatique des modèles dans les pipelines en cours d'exécution, l'utilisation de plusieurs modèles, la création de modèles d'ensemble et l'enrichissement des données à l'aide de BigQuery, Bigtable et Vertex AI Feature Store.
  • Appliquer le ML à des cas d'utilisation spécifiques : par exemple, la détection d'anomalies ainsi que l'analyse des sentiments et la synthèse avec Gemma.

Tous les tutoriels

Filtrer par :
Concepts fondamentaux de Dataflow et MLTransform

Prétraitement avec l'API Apache Beam DataFrames

Montre comment utiliser l'API Apache Beam DataFrames pour effectuer des étapes courantes d'exploration et de prétraitement des données.

Afficher le notebook
Concepts fondamentaux de Dataflow et MLTransform

Prétraiter des données avec MLTransform

Introduction de base à l'utilisation de MLTransform pour prétraiter des données pour les workflows de machine learning.

Afficher le notebook
Enrichissement des données et embedding

Ingestion d'embeddings vectoriels avec Apache Beam et AlloyDB

Montre comment générer des embeddings à partir de données et les ingérer dans AlloyDB à l'aide d'Apache Beam et de Dataflow pour un traitement des données évolutif.

Afficher le notebook
Enrichissement des données et embedding

Utiliser Apache Beam et BigQuery pour enrichir des données

Montre comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec BigQuery.

Afficher le notebook
Enrichissement des données et embedding

Ingestion d'embeddings et recherche vectorielle avec Apache Beam et BigQuery

Montre comment utiliser le package Apache Beam RAG pour générer des embeddings, les ingérer dans BigQuery et effectuer une recherche de similarité vectorielle.

Afficher le notebook
Enrichissement des données et embedding

Utiliser Apache Beam et Bigtable pour enrichir des données

Montre comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec Bigtable.

Afficher le notebook
Enrichissement des données et embedding

Générer des embeddings de texte à l'aide des modèles Hugging Face Hub

Utilise MLTransform pour générer des embeddings à partir de données textuelles à l'aide du framework SentenceTransformers de Hugging Face.

Afficher le notebook
Enrichissement des données et embedding

Utiliser Apache Beam et Vertex AI Feature Store pour enrichir des données

Montre comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec Vertex AI Feature Store.

Afficher le notebook
Enrichissement des données et embedding

Générer des embeddings de texte à l'aide de l'API Vertex AI

Utilise l'API Vertex AI d'embeddings de texte pour générer des embeddings de texte qui utilisent les grands modèles d'intelligence artificielle générative de Google.

Afficher le notebook
Entraînement des modèles et traitement des données

Mettre à jour des modèles de ML dans des pipelines en cours d'exécution

Montre comment effectuer des mises à jour automatiques de modèles sans arrêter votre pipeline Apache Beam à l'aide d'entrées secondaires.

Afficher le notebook
Entraînement des modèles et traitement des données

Calculer et appliquer un vocabulaire à un ensemble de données

Montre comment utiliser MLTransform pour générer un vocabulaire sur un texte d'entrée et attribuer une valeur d'index à chaque jeton.

Afficher le notebook
Entraînement des modèles et traitement des données

Exécuter l'inférence ML avec plusieurs modèles entraînés différemment

Montre comment utiliser un KeyedModelHandler pour exécuter l'inférence dans un pipeline Apache Beam avec plusieurs modèles différents par clé.

Afficher le notebook
Entraînement des modèles et traitement des données

Utiliser MLTransform pour mettre à l'échelle des données

Montre comment utiliser MLTransform pour mettre à l'échelle des données, une étape de prétraitement importante pour l'entraînement des modèles de machine learning (ML).

Afficher le notebook
Entraînement des modèles et traitement des données

TensorFlow Model Analysis dans Beam

Montre comment utiliser TFMA pour examiner et visualiser les performances d'un modèle dans le cadre de votre pipeline Apache Beam en créant et en comparant deux modèles.

Afficher le notebook
Exécuter une inférence

Inférence à distance dans Apache Beam

Montre comment implémenter un appel d'inférence personnalisé dans Apache Beam à l'aide de l'API Cloud Vision de Google Cloud.

Afficher le notebook
Exécuter une inférence

Utiliser votre propre modèle de ML dans Beam RunInference

Montre comment utiliser le package spaCy pour charger un modèle de machine learning (ML) et effectuer une inférence dans un pipeline Apache Beam à l'aide de la PTransform RunInference.

Afficher le notebook
Exécuter une inférence

Exécuter l'inférence avec un modèle ouvert Gemma

Montre comment charger le modèle Gemma 2B préconfiguré, puis l'utiliser dans un pipeline d'inférence Apache Beam.

Afficher le notebook
Exécuter une inférence

Utiliser RunInference pour l'IA générative

Montre comment utiliser la transformation Apache Beam RunInference pour des tâches d'IA générative avec un grand modèle de langage (LLM) à partir du Hugging Face Model Hub.

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference avec Hugging Face

Montre comment utiliser des modèles du pipeline Hugging Face dans des pipelines Apache Beam utilisant la transformation RunInference.

Afficher le notebook
Exécuter une inférence

Modèle d'ensemble utilisant un exemple de légende et de classement d'images

Montre comment implémenter un modèle en cascade dans Apache Beam à l'aide de l'API RunInference pour la légende d'images.

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference pour PyTorch

Montre comment utiliser la transformation RunInference pour PyTorch.

Afficher le notebook
Exécuter une inférence

Utiliser RunInference dans Apache Beam

Montre comment utiliser l'API RunInference avec trois frameworks de ML populaires : PyTorch, TensorFlow et scikit-learn.

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference pour scikit-learn

Montre comment utiliser la transformation RunInference pour scikit-learn.

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference avec TensorFlow

Montre comment utiliser la transformation Apache Beam RunInference pour TensorFlow.

Afficher le notebook
Exécuter une inférence

Utiliser RunInference avec des bibliothèques partagées TFX de base

Montre comment utiliser la transformation Apache Beam RunInference avec TensorFlow et les bibliothèques partagées TFX de base (tfx-bsl).

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference avec TensorFlow et TensorFlow Hub

Montre comment utiliser la transformation Apache Beam RunInference pour TensorFlow avec un modèle entraîné à partir de TensorFlow Hub.

Afficher le notebook
Exécuter une inférence

Apache Beam RunInference avec Vertex AI

Montre comment utiliser la transformation Apache Beam RunInference pour la classification d'images avec Vertex AI.

Afficher le notebook
Exécuter une inférence

Exécuter l'inférence ML à l'aide de vLLM sur des GPU

Montre comment exécuter l'inférence de machine learning à l'aide de vLLM et de GPU.

Afficher le notebook
Exécuter une inférence

Utiliser des TPU dans Dataflow

Montre comment configurer et exécuter deux pipelines Dataflow distincts qui exploitent les unités de traitement tensoriel (TPU). Le premier pipeline effectue un calcul simple pour confirmer l'accès au TPU, tandis que le second, plus complexe, exécute l'inférence avec le modèle Gemma-3-27b-it.

Afficher le notebook
Cas d'utilisation spécialisés

Détection d'anomalies sur des données par lots et en flux continu à l'aide d'Apache Beam (méthode du score Z)

Montre comment effectuer la détection d'anomalies sur des données par lots et en flux continu à l'aide de la PTransform AnomalyDetection avec l'algorithme du score Z.

Afficher le notebook
Cas d'utilisation spécialisés

Utiliser Gemma pour évaluer les sentiments et résumer des conversations

Montre comment utiliser Gemma pour évaluer le sentiment d'une conversation, résumer son contenu et rédiger une réponse.

Afficher le notebook