Notebooks de Dataflow ML

Explora los notebooks de Dataflow ML para integrar el aprendizaje automático en tus canalizaciones de Apache Beam. Estos notebooks proporcionan ejemplos prácticos y orientación para flujos de trabajo comunes de aprendizaje automático.

Usa estos recursos para hacer lo siguiente:

  • Procesamiento previo de datos para modelos de AA: Esto incluye tareas como el ajuste de la escala de los datos, el cálculo de vocabularios y el uso de MLTransform para la preparación de datos.
  • Ejecuta inferencias con varios modelos y frameworks: Usa la transformación RunInference con modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face, Gemma y Vertex AI, incluso en GPUs con vLLM.
  • Genera y administra incorporaciones: Crea incorporaciones de texto con Vertex AI o Hugging Face, y luego ingrésalas en bases de datos como AlloyDB y BigQuery para la búsqueda vectorial.
  • Implementa patrones avanzados de canalizaciones de AA: Esto incluye la actualización automática de modelos en canalizaciones en ejecución, el uso de varios modelos, la compilación de modelos de conjunto y el enriquecimiento de datos con BigQuery, Bigtable y Vertex AI Feature Store.
  • Aplica el AA a casos de uso específicos: Algunos ejemplos incluyen la detección de anomalías, así como el análisis de opiniones y la generación de resúmenes con Gemma.

Todos los instructivos

Filtrar por:
Conceptos básicos de Dataflow y MLTransform

Preprocesamiento con la API de DataFrames de Apache Beam

Demuestra el uso de la API de DataFrames de Apache Beam para realizar pasos comunes de exploración y procesamiento previo de datos.

Ver notebook
Conceptos básicos de Dataflow y MLTransform

Preprocesa datos con MLTransform

Introducción básica al uso de MLTransform para el procesamiento previo de datos para flujos de trabajo de aprendizaje automático.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Ingesta de embeddings de vectores con Apache Beam y AlloyDB

Muestra cómo generar incorporaciones a partir de datos y transferirlas a AlloyDB con Apache Beam y Dataflow para el procesamiento de datos escalable.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Usa Apache Beam y BigQuery para enriquecer los datos

Muestra cómo enriquecer datos con la transformación de enriquecimiento de Apache Beam con BigQuery.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Transferencia de embeddings y búsqueda de vectores con Apache Beam y BigQuery

Muestra cómo usar el paquete de RAG de Apache Beam para generar embeddings, transferirlos a BigQuery y realizar una búsqueda de similitud de vectores.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Usa Apache Beam y Bigtable para enriquecer los datos

Muestra cómo enriquecer datos con la transformación de enriquecimiento de Apache Beam y Bigtable.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Genera incorporaciones de texto con modelos de Hugging Face Hub

Usa MLTransform para generar incorporaciones a partir de datos de texto con el framework de SentenceTransformers de Hugging Face.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Usa Apache Beam y Vertex AI Feature Store para enriquecer los datos

Muestra cómo enriquecer los datos con la transformación de enriquecimiento de Apache Beam y Vertex AI Feature Store.

Ver notebook
Enriquecimiento de datos y generación de incorporaciones

Genera incorporaciones de texto con la API de Vertex AI

Usa la API de Vertex AI text-embeddings para generar incorporaciones de texto que utilizan los grandes modelos de inteligencia artificial (IA) generativa de Google.

Ver notebook
Entrenamiento del modelo y procesamiento de datos

Actualiza modelos de AA en canalizaciones en ejecución

Muestra cómo realizar actualizaciones automáticas de modelos sin detener tu canalización de Apache Beam con entradas complementarias.

Ver notebook
Entrenamiento del modelo y procesamiento de datos

Calcula y aplica vocabulario en un conjunto de datos

Muestra cómo usar MLTransform para generar un vocabulario en el texto de entrada y asignar un valor de índice a cada token.

Ver notebook
Entrenamiento del modelo y procesamiento de datos

Ejecuta la inferencia de AA con varios modelos entrenados de forma diferente

Muestra cómo usar un KeyedModelHandler para ejecutar la inferencia en una canalización de Apache Beam con varios modelos diferentes por clave.

Ver notebook
Entrenamiento del modelo y procesamiento de datos

Usa MLTransform para escalar los datos

Muestra cómo usar MLTransform para escalar datos, un paso de procesamiento previo importante para entrenar modelos de aprendizaje automático (AA).

Ver notebook
Entrenamiento del modelo y procesamiento de datos

TensorFlow Model Analysis en Beam

Muestra cómo puedes usar TFMA para investigar y visualizar el rendimiento de un modelo como parte de tu canalización de Apache Beam creando y comparando dos modelos.

Ver notebook
Ejecuta la inferencia

Inferencia remota en Apache Beam

Muestra cómo implementar una llamada de inferencia personalizada en Apache Beam con la API de Google Cloud Vision.

Ver notebook
Ejecuta la inferencia

Cómo llevar tu propio modelo de AA a Beam RunInference

Ilustra cómo usar el paquete spaCy para cargar un modelo de aprendizaje automático (AA) y realizar inferencias en una canalización de Apache Beam con la PTransform RunInference.

Ver notebook
Ejecuta la inferencia

Ejecuta la inferencia con un modelo abierto de Gemma

Muestra cómo cargar el modelo de Gemma 2B preconfigurado y, luego, usarlo en una canalización de inferencia de Apache Beam.

Ver notebook
Ejecuta la inferencia

Usa RunInference para la IA generativa

Muestra cómo usar la transformación RunInference de Apache Beam para tareas de IA generativa con un modelo de lenguaje grande (LLM) de Hugging Face Model Hub.

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference con Hugging Face

Muestra cómo usar modelos de Hugging Face y la canalización de Hugging Face en canalizaciones de Apache Beam que usan la transformación RunInference.

Ver notebook
Ejecuta la inferencia

Modelo de ensamble con un ejemplo de clasificación y subtitulado de imágenes

Muestra cómo implementar un modelo en cascada en Apache Beam con la API de RunInference para la generación de leyendas de imágenes.

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference para PyTorch

Demuestra el uso de la transformación RunInference para PyTorch.

Ver notebook
Ejecuta la inferencia

Usa RunInference en Apache Beam

Muestra cómo usar la API de RunInference con tres frameworks de AA populares: PyTorch, TensorFlow y scikit-learn.

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference para scikit-learn

Demuestra el uso de la transformación RunInference para scikit-learn.

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference con TensorFlow

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow.

Ver notebook
Ejecuta la inferencia

Usa RunInference con bibliotecas compartidas básicas de TFX

Demuestra cómo usar la transformación RunInference de Apache Beam con TensorFlow y las bibliotecas compartidas básicas de TFX (tfx-bsl).

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference con TensorFlow y TensorFlow Hub

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow con un modelo entrenado de TensorFlow Hub.

Ver notebook
Ejecuta la inferencia

Apache Beam RunInference con Vertex AI

Muestra cómo usar la transformación RunInference de Apache Beam para la clasificación de imágenes con Vertex AI.

Ver notebook
Ejecuta la inferencia

Ejecuta la inferencia de AA con vLLM en GPUs

Demuestra cómo ejecutar la inferencia de aprendizaje automático con vLLM y GPUs.

Ver notebook
Ejecuta la inferencia

Usa TPU en Dataflow

Demuestra cómo configurar y ejecutar dos canalizaciones de Dataflow distintas que aprovechan las unidades de procesamiento tensorial (TPU). La primera canalización realiza un cálculo simple para confirmar el acceso a la TPU, mientras que la segunda, más compleja, ejecuta la inferencia con el modelo Gemma-3-27b-it.

Ver notebook
Casos de uso especializados

Detección de anomalías en datos por lotes y de transmisión con Apache Beam (método de puntuación Z)

Muestra cómo realizar la detección de anomalías en datos de transmisión y por lotes con la PTransform AnomalyDetection y el algoritmo de Z-Score.

Ver notebook
Casos de uso especializados

Usa Gemma para evaluar opiniones y resumir conversaciones

Muestra cómo usar Gemma para evaluar las opiniones de una conversación, resumir su contenido y redactar una respuesta.

Ver notebook