Notebooks Dataflow ML

Explorez les notebooks Dataflow ML pour intégrer le machine learning à vos pipelines Apache Beam. Ces notebooks fournissent des exemples pratiques et des conseils pour les workflows de machine learning courants.

Utilisez ces ressources pour :

  • Prétraiter les données pour les modèles de ML : cela inclut des tâches telles que la mise à l'échelle des données, le calcul des vocabulaires et l'utilisation de MLTransform pour la préparation des données.
  • Exécuter l'inférence avec différents modèles et frameworks : utilisez la transformation RunInference avec PyTorch, TensorFlow, scikit-learn, les modèles Hugging Face, les modèles Gemma et Vertex AI, y compris sur les GPU avec vLLM.
  • Générez et gérez des embeddings : créez des embeddings de texte à l'aide de Vertex AI ou Hugging Face, puis ingérez-les dans des bases de données telles qu'AlloyDB et BigQuery pour la recherche vectorielle.
  • Implémenter des modèles de pipeline de ML avancés : cela inclut l'actualisation automatique des modèles dans les pipelines en cours d'exécution, l'utilisation de plusieurs modèles, la création de modèles d'ensemble et l'enrichissement des données à l'aide de BigQuery, Bigtable et Vertex AI Feature Store.
  • Appliquer le ML à des cas d'utilisation spécifiques : par exemple, la détection d'anomalies, l'analyse des sentiments et la synthèse avec Gemma.

Tous les tutoriels

Filtrer par :
Concepts de base de Dataflow et MLTransform

Prétraitement avec l'API Apache Beam DataFrames

Démontre l'utilisation de l'API Apache Beam DataFrames pour effectuer des étapes courantes d'exploration et de prétraitement des données.

Afficher le notebook
Concepts de base de Dataflow et MLTransform

Prétraiter des données avec MLTransform

Introduction de base à l'utilisation de MLTransform pour prétraiter des données pour les workflows de machine learning.

Afficher le notebook
Enrichissement et intégration des données

Ingestion d'embeddings vectoriels avec Apache Beam et AlloyDB

Montre comment générer des embeddings à partir de données et les ingérer dans AlloyDB à l'aide d'Apache Beam et de Dataflow pour un traitement des données évolutif.

Afficher le notebook
Enrichissement et intégration des données

Utiliser Apache Beam et BigQuery pour enrichir les données

Explique comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec BigQuery.

Afficher le notebook
Enrichissement et intégration des données

Ingestion d'embeddings et recherche vectorielle avec Apache Beam et BigQuery

Montre comment utiliser le package Apache Beam RAG pour générer des embeddings, les ingérer dans BigQuery et effectuer une recherche de similarité vectorielle.

Afficher le notebook
Enrichissement et intégration des données

Utiliser Apache Beam et Bigtable pour enrichir les données

Montre comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec Bigtable.

Afficher le notebook
Enrichissement et intégration des données

Générer des embeddings de texte à l'aide des modèles Hugging Face Hub

Utilise MLTransform pour générer des embeddings à partir de données textuelles à l'aide du framework SentenceTransformers de Hugging Face.

Afficher le notebook
Enrichissement et intégration des données

Utiliser Apache Beam et Vertex AI Feature Store pour enrichir les données

Explique comment enrichir des données à l'aide de la transformation d'enrichissement Apache Beam avec Vertex AI Feature Store.

Afficher le notebook
Enrichissement et intégration des données

Générer des embeddings de texte à l'aide de l'API Vertex AI

Utilise l'API Vertex AI d'embeddings de texte pour générer des embeddings de texte qui utilisent les grands modèles d'intelligence artificielle (IA) générative de Google.

Afficher le notebook
Entraînement du modèle et traitement des données

Mettre à jour des modèles de ML dans des pipelines en cours d'exécution

Montre comment effectuer des mises à jour automatiques de modèles sans arrêter votre pipeline Apache Beam à l'aide d'entrées secondaires.

Afficher le notebook
Entraînement du modèle et traitement des données

Calculer et appliquer le vocabulaire à un ensemble de données

Montre comment utiliser MLTransform pour générer un vocabulaire sur le texte d'entrée et attribuer une valeur d'index à chaque jeton.

Afficher le notebook
Entraînement du modèle et traitement des données

Exécuter l'inférence ML avec plusieurs modèles entraînés différemment

Montre comment utiliser un KeyedModelHandler pour exécuter l'inférence dans un pipeline Apache Beam avec plusieurs modèles différents par clé.

Afficher le notebook
Entraînement du modèle et traitement des données

Utiliser MLTransform pour mettre à l'échelle les données

Explique comment utiliser MLTransform pour mettre à l'échelle des données, une étape de prétraitement importante pour l'entraînement des modèles de machine learning (ML).

Afficher le notebook
Entraînement du modèle et traitement des données

TensorFlow Model Analysis dans Beam

Montre comment utiliser TFMA pour examiner et visualiser les performances d'un modèle dans le cadre de votre pipeline Apache Beam en créant et en comparant deux modèles.

Afficher le notebook
Exécuter l'inférence

Inférence à distance dans Apache Beam

Montre comment implémenter un appel d'inférence personnalisé dans Apache Beam à l'aide de l'API Google Cloud Vision.

Afficher le notebook
Exécuter l'inférence

Utiliser votre propre modèle de ML avec Beam RunInference

Illustre comment utiliser le package spaCy pour charger un modèle de machine learning (ML) et effectuer une inférence dans un pipeline Apache Beam à l'aide de la PTransform RunInference.

Afficher le notebook
Exécuter l'inférence

Exécuter l'inférence avec un modèle ouvert Gemma

Montre comment charger le modèle Gemma 2B préconfiguré, puis l'utiliser dans un pipeline d'inférence Apache Beam.

Afficher le notebook
Exécuter l'inférence

Utiliser RunInference pour l'IA générative

Montre comment utiliser la transformation Apache Beam RunInference pour les tâches d'IA générative avec un grand modèle de langage (LLM) du Hugging Face Model Hub.

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference avec Hugging Face

Montre comment utiliser des modèles du pipeline Hugging Face dans des pipelines Apache Beam utilisant la transformation RunInference.

Afficher le notebook
Exécuter l'inférence

Modèle d'ensemble utilisant un exemple de légende et de classement d'images

Montre comment implémenter un modèle en cascade dans Apache Beam à l'aide de l'API RunInference pour le sous-titrage d'images.

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference pour PyTorch

Montre comment utiliser la transformation RunInference pour PyTorch.

Afficher le notebook
Exécuter l'inférence

Utiliser RunInference dans Apache Beam

Montre comment utiliser l'API RunInference avec trois frameworks de ML populaires : PyTorch, TensorFlow et scikit-learn.

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference pour scikit-learn

Démonstration de l'utilisation de la transformation RunInference pour scikit-learn.

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference avec TensorFlow

Montre comment utiliser la transformation Apache Beam RunInference pour TensorFlow.

Afficher le notebook
Exécuter l'inférence

Utiliser RunInference avec des bibliothèques partagées TFX de base

Montre comment utiliser la transformation Apache Beam RunInference avec TensorFlow et les bibliothèques partagées de base TFX (tfx-bsl).

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference avec TensorFlow et TensorFlow Hub

Montre comment utiliser la transformation Apache Beam RunInference pour TensorFlow avec un modèle entraîné à partir de TensorFlow Hub.

Afficher le notebook
Exécuter l'inférence

Apache Beam RunInference avec Vertex AI

Montre comment utiliser la transformation Apache Beam RunInference pour la classification d'images avec Vertex AI.

Afficher le notebook
Exécuter l'inférence

Exécuter l'inférence ML à l'aide de vLLM sur des GPU

Explique comment exécuter l'inférence de machine learning à l'aide de vLLM et de GPU.

Afficher le notebook
Exécuter l'inférence

Utiliser des TPU dans Dataflow

Explique comment configurer et exécuter deux pipelines Dataflow distincts qui utilisent des Tensor Processing Units (TPU). Le premier pipeline effectue un calcul simple pour confirmer l'accès aux TPU, tandis que le deuxième pipeline, plus complexe, exécute l'inférence avec le modèle Gemma-3-27b-it.

Afficher le notebook
Cas d'utilisation spécialisés

Détection d'anomalies sur les données par lot et de streaming à l'aide d'Apache Beam (méthode du score Z)

Explique comment effectuer la détection d'anomalies sur des données par lot et en flux continu à l'aide de la PTransform AnomalyDetection avec l'algorithme de score Z.

Afficher le notebook
Cas d'utilisation spécialisés

Utiliser Gemma pour évaluer le sentiment et résumer les conversations

Montre comment utiliser Gemma pour évaluer le sentiment d'une conversation, résumer son contenu et rédiger une réponse.

Afficher le notebook