Dataflow ML-Notebooks

Dataflow ML-Notebooks verwenden, um maschinelles Lernen in Ihre Apache Beam-Pipelines einzubinden. Diese Notebooks enthalten praktische Beispiele und Anleitungen für gängige Machine-Learning-Workflows.

Mit diesen Ressourcen können Sie:

  • Daten für ML-Modelle vorverarbeiten: Dazu gehören Aufgaben wie das Skalieren von Daten, das Berechnen von Vokabularen und die Verwendung von MLTransform zur Datenvorbereitung.
  • Inferenz mit verschiedenen Modellen und Frameworks ausführen: Verwenden Sie die RunInference-Transformation mit PyTorch, TensorFlow, scikit-learn, Hugging Face-Modellen, Gemma-Modellen und Vertex AI, einschließlich auf GPUs mit vLLM.
  • Einbettungen generieren und verwalten: Sie können Texteinbettungen mit Vertex AI oder Hugging Face erstellen und in Datenbanken wie AlloyDB und BigQuery für die Vektorsuche aufnehmen.
  • Erweiterte ML-Pipelinemuster implementieren: Dazu gehören das automatische Aktualisieren von Modellen in laufenden Pipelines, die Verwendung mehrerer Modelle, das Erstellen von Ensemblemodellen und die Datenanreicherung mit BigQuery, Bigtable und Vertex AI Feature Store.
  • ML auf bestimmte Anwendungsfälle anwenden: Beispiele hierfür sind die Anomalieerkennung sowie die Sentimentanalyse und Zusammenfassung mit Gemma.

Alle Anleitungen

Filtern nach:
Dataflow- und MLTransform-Grundlagen

Vorverarbeitung mit der Apache Beam DataFrames API

Hier wird die Verwendung der Apache Beam DataFrames API für gängige Schritte zur Datenexploration und ‑vorverarbeitung veranschaulicht.

Notebook ansehen
Dataflow- und MLTransform-Grundlagen

Daten mit MLTransform vorverarbeiten

Eine grundlegende Einführung in die Verwendung von MLTransform zum Vorverarbeiten von Daten für Workflows für maschinelles Lernen.

Notebook ansehen
Datenanreicherung und Einbettung

Aufnahme von Vektoreinbettungen mit Apache Beam und AlloyDB

Hier wird gezeigt, wie Sie mit Apache Beam und Dataflow Einbettungen aus Daten generieren und zur skalierbaren Datenverarbeitung in AlloyDB importieren.

Notebook ansehen
Datenanreicherung und Einbettung

Daten mit Apache Beam und BigQuery anreichern

Hier wird gezeigt, wie Sie Daten mit der Apache Beam-Transformationsfunktion für die Anreicherung mit BigQuery anreichern.

Notebook ansehen
Datenanreicherung und Einbettung

Einbettungsaufnahme und Vektorsuche mit Apache Beam und BigQuery

Hier wird gezeigt, wie Sie mit dem Apache Beam-RAG-Paket Einbettungen generieren, in BigQuery aufnehmen und eine Vektorähnlichkeitssuche durchführen.

Notebook ansehen
Datenanreicherung und Einbettung

Daten mit Apache Beam und Bigtable anreichern

Hier wird gezeigt, wie Sie Daten mit der Apache Beam-Anreicherungstransformation mit Bigtable anreichern.

Notebook ansehen
Datenanreicherung und Einbettung

Texteinbettungen mit Hugging Face Hub-Modellen generieren

Verwendet MLTransform, um Einbettungen aus Textdaten mit dem SentenceTransformers-Framework von Hugging Face zu generieren.

Notebook ansehen
Datenanreicherung und Einbettung

Mit Apache Beam und Vertex AI Feature Store Daten anreichern

Hier wird gezeigt, wie Sie Daten mit der Apache Beam-Anreicherungstransformation mit Vertex AI Feature Store anreichern.

Notebook ansehen
Datenanreicherung und Einbettung

Texteinbettungen mit der Vertex AI API generieren

Verwendet die Vertex AI Text Embeddings API, um Texteinbettungen zu generieren, die auf den großen generativen KI-Modellen von Google basieren.

Notebook ansehen
Modelltraining und Datenverarbeitung

ML-Modelle in laufenden Pipelines aktualisieren

Veranschaulicht, wie Sie automatische Modellaktualisierungen ausführen können, ohne Ihre Apache Beam-Pipeline zu unterbrechen, indem Sie Nebeneingaben verwenden.

Notebook ansehen
Modelltraining und Datenverarbeitung

Vokabular für ein Dataset berechnen und anwenden

Hier wird gezeigt, wie Sie mit MLTransform ein Vokabular für Eingabetext generieren und jedem Token einen Indexwert zuweisen.

Notebook ansehen
Modelltraining und Datenverarbeitung

ML-Inferenz mit mehreren unterschiedlich trainierten Modellen ausführen

Hier wird gezeigt, wie Sie einen KeyedModelHandler verwenden, um die Inferenz in einer Apache Beam-Pipeline mit mehreren verschiedenen Modellen schlüsselbasiert auszuführen.

Notebook ansehen
Modelltraining und Datenverarbeitung

Daten mit MLTransform skalieren

Hier wird gezeigt, wie Sie mit MLTransform Daten skalieren. Dies ist ein wichtiger Vorverarbeitungsschritt für das Trainieren von ML-Modellen.

Notebook ansehen
Modelltraining und Datenverarbeitung

TensorFlow Model Analysis in Beam

Hier erfahren Sie, wie Sie TFMA verwenden können, um die Leistung eines Modells im Rahmen Ihrer Apache Beam-Pipeline zu untersuchen und zu visualisieren, indem Sie zwei Modelle erstellen und vergleichen.

Notebook ansehen
Inferenz ausführen

Remote-Inferenz in Apache Beam

Hier wird gezeigt, wie Sie einen benutzerdefinierten Inferenzaufruf in Apache Beam mit der Google Cloud Vision API implementieren.

Notebook ansehen
Inferenz ausführen

Eigenes ML-Modell für Beam RunInference verwenden

Hier wird veranschaulicht, wie Sie das spaCy-Paket verwenden, um ein Modell für maschinelles Lernen (ML) zu laden und Inferenzen in einer Apache Beam-Pipeline mit der RunInference-PTransform auszuführen.

Notebook ansehen
Inferenz ausführen

Inferenz mit einem offenen Gemma-Modell ausführen

Hier wird gezeigt, wie das vorkonfigurierte Gemma 2B-Modell geladen und dann in einer Apache Beam-Inferenzpipeline verwendet wird.

Notebook ansehen
Inferenz ausführen

RunInference für generative KI verwenden

Hier wird gezeigt, wie Sie die Apache Beam-Transformation „RunInference“ für generative KI-Aufgaben mit einem Large Language Model (LLM) aus dem Hugging Face Model Hub verwenden.

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference mit Hugging Face

Hier wird gezeigt, wie Modelle aus Hugging Face und Hugging Face Pipeline in Apache Beam-Pipelines verwendet werden, die die RunInference-Transformation verwenden.

Notebook ansehen
Inferenz ausführen

Ensemble-Modell mit einem Beispiel für Bildunterschrift und ‑ranking

Hier wird gezeigt, wie Sie ein Kaskadenmodell in Apache Beam mit der RunInference API für die Bilduntertitelung implementieren.

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference für PyTorch

Veranschaulicht die Verwendung der RunInference-Transformation für PyTorch.

Notebook ansehen
Inferenz ausführen

RunInference in Apache Beam verwenden

Hier wird gezeigt, wie Sie die RunInference API mit drei beliebten ML-Frameworks verwenden: PyTorch, TensorFlow und scikit-learn.

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference für scikit-learn

Hier wird die Verwendung der RunInference-Transformation für scikit-learn veranschaulicht.

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference mit TensorFlow

Hier wird gezeigt, wie die Apache Beam-Transformation „RunInference“ für TensorFlow verwendet wird.

Notebook ansehen
Inferenz ausführen

RunInference mit TFX Basic Shared Libraries verwenden

Veranschaulicht die Verwendung der Apache Beam-Transformation „RunInference“ mit TensorFlow und TFX Basic Shared Libraries (tfx-bsl).

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference mit TensorFlow und TensorFlow Hub

Hier wird gezeigt, wie Sie die Apache Beam-RunInference-Transformation für TensorFlow mit einem trainierten Modell aus TensorFlow Hub verwenden.

Notebook ansehen
Inferenz ausführen

Apache Beam RunInference mit Vertex AI

Hier wird gezeigt, wie Sie die Apache Beam-Transformation „RunInference“ für die Bildklassifizierung mit Vertex AI verwenden.

Notebook ansehen
Inferenz ausführen

ML-Inferenz mit vLLM auf GPUs ausführen

Hier wird veranschaulicht, wie Sie mit vLLM und GPUs Inferenzen für maschinelles Lernen ausführen.

Notebook ansehen
Inferenz ausführen

TPUs in Dataflow verwenden

Hier wird gezeigt, wie Sie zwei verschiedene Dataflow-Pipelines konfigurieren und ausführen, die Tensor Processing Units (TPUs) nutzen. In der ersten Pipeline wird eine einfache Berechnung durchgeführt, um den TPU-Zugriff zu bestätigen. In der zweiten, komplexeren Pipeline wird die Inferenz mit dem Modell Gemma-3-27b-it ausgeführt.

Notebook ansehen
Spezialisierte Anwendungsfälle

Anomalieerkennung für Batch- und Streamingdaten mit Apache Beam (Z-Score-Methode)

Hier wird gezeigt, wie Sie mit der PTransform „AnomalyDetection“ und dem Z-Score-Algorithmus Anomalien sowohl in Batch- als auch in Streamingdaten erkennen.

Notebook ansehen
Spezialisierte Anwendungsfälle

Mit Gemma Stimmungen erfassen und Unterhaltungen zusammenfassen

Hier wird gezeigt, wie Sie mit Gemma die Stimmung einer Unterhaltung einschätzen, den Inhalt der Unterhaltung zusammenfassen und eine Antwort entwerfen können.

Notebook ansehen