Cuadernos de Dataflow ML

Consulta los cuadernos de ML de Dataflow para integrar el aprendizaje automático en tus flujos de Apache Beam. Estos cuadernos proporcionan ejemplos prácticos e instrucciones para flujos de trabajo habituales de aprendizaje automático.

Usa estos recursos para:

  • Preprocesar datos para modelos de aprendizaje automático: esto incluye tareas como escalar datos, calcular vocabularios y usar MLTransform para preparar los datos.
  • Ejecuta inferencias con varios modelos y frameworks: usa la RunInference transformación con PyTorch, TensorFlow, scikit-learn, modelos de Hugging Face, modelos de Gemma y Vertex AI, incluso en GPUs con vLLM.
  • Generar y gestionar inserciones: crea inserciones de texto con Vertex AI o Hugging Face e ingiérelas en bases de datos como AlloyDB y BigQuery para realizar búsquedas de vectores.
  • Implementar patrones de canalización de aprendizaje automático avanzados: esto incluye la actualización automática de modelos en canalizaciones en ejecución, el uso de varios modelos, la creación de modelos de conjunto y el enriquecimiento de datos con BigQuery, Bigtable y Vertex AI Feature Store.
  • Aplicar el aprendizaje automático a casos prácticos específicos: por ejemplo, la detección de anomalías, el análisis de sentimiento y la creación de resúmenes con Gemma.

Todos los tutoriales

Filtrar por:
Conceptos básicos de Dataflow y MLTransform

Preprocesamiento con la API DataFrames de Apache Beam

Muestra cómo usar la API DataFrames de Apache Beam para llevar a cabo pasos comunes de exploración y preprocesamiento de datos.

Ver cuaderno
Conceptos básicos de Dataflow y MLTransform

Preprocesar datos con MLTransform

Introducción básica al uso de MLTransform para preprocesar datos en flujos de trabajo de aprendizaje automático.

Ver cuaderno
Enriquecimiento de datos e inserción

Ingestión de incrustaciones de vectores con Apache Beam y AlloyDB

Muestra cómo generar inserciones a partir de datos e ingerirlas en AlloyDB mediante Apache Beam y Dataflow para procesar datos de forma escalable.

Ver cuaderno
Enriquecimiento de datos e inserción

Usar Apache Beam y BigQuery para enriquecer datos

Muestra cómo enriquecer datos mediante la transformación de enriquecimiento de Apache Beam con BigQuery.

Ver cuaderno
Enriquecimiento de datos e inserción

Ingestión de incrustaciones y búsqueda de vectores con Apache Beam y BigQuery

Muestra cómo usar el paquete RAG de Apache Beam para generar incrustaciones, insertarlas en BigQuery y realizar búsquedas de similitud de vectores.

Ver cuaderno
Enriquecimiento de datos e inserción

Usar Apache Beam y Bigtable para enriquecer datos

Muestra cómo enriquecer datos mediante la transformación de enriquecimiento de Apache Beam con Bigtable.

Ver cuaderno
Enriquecimiento de datos e inserción

Generar incrustaciones de texto con modelos de Hugging Face Hub

Usa MLTransform para generar inserciones a partir de datos de texto con el framework SentenceTransformers de Hugging Face.

Ver cuaderno
Enriquecimiento de datos e inserción

Usar Apache Beam y Vertex AI Feature Store para enriquecer datos

Muestra cómo enriquecer datos mediante la transformación de enriquecimiento de Apache Beam con Vertex AI Feature Store.

Ver cuaderno
Enriquecimiento de datos e inserción

Generar representaciones de texto mediante la API de Vertex AI

Usa la API de inserciones de texto de Vertex AI para generar inserciones de texto que usen los grandes modelos de IA generativa de Google.

Ver cuaderno
Entrenamiento de modelos y procesamiento de datos

Actualizar modelos de aprendizaje automático en flujos de procesamiento en ejecución

Muestra cómo realizar actualizaciones automáticas de modelos sin detener la canalización de Apache Beam mediante entradas secundarias.

Ver cuaderno
Entrenamiento de modelos y procesamiento de datos

Calcular y aplicar vocabulario a un conjunto de datos

Muestra cómo usar MLTransform para generar un vocabulario en el texto de entrada y asignar un valor de índice a cada token.

Ver cuaderno
Entrenamiento de modelos y procesamiento de datos

Ejecutar inferencias de aprendizaje automático con varios modelos entrenados de forma diferente

Muestra cómo usar un KeyedModelHandler para ejecutar inferencias en un flujo de procesamiento de Apache Beam con varios modelos diferentes por clave.

Ver cuaderno
Entrenamiento de modelos y procesamiento de datos

Usar MLTransform para escalar datos

Muestra cómo usar MLTransform para escalar datos, un paso de preprocesamiento importante para entrenar modelos de aprendizaje automático (ML).

Ver cuaderno
Entrenamiento de modelos y procesamiento de datos

Análisis de modelos de TensorFlow en Beam

Muestra cómo puedes usar TFMA para investigar y visualizar el rendimiento de un modelo como parte de tu canalización de Apache Beam creando y comparando dos modelos.

Ver cuaderno
Ejecutar inferencias

Inferencia remota en Apache Beam

Muestra cómo implementar una llamada de inferencia personalizada en Apache Beam mediante la API Cloud Vision de Google.

Ver cuaderno
Ejecutar inferencias

Incorporar tu propio modelo de aprendizaje automático a Beam RunInference

Muestra cómo usar el paquete spaCy para cargar un modelo de aprendizaje automático y realizar inferencias en una canalización de Apache Beam con la transformación P RunInference.

Ver cuaderno
Ejecutar inferencias

Ejecutar inferencias con un modelo abierto de Gemma

Muestra cómo cargar el modelo Gemma 2B preconfigurado y, a continuación, usarlo en una canalización de inferencia de Apache Beam.

Ver cuaderno
Ejecutar inferencias

Usar RunInference para la IA generativa

Muestra cómo usar la transformación RunInference de Apache Beam para tareas de IA generativa con un modelo de lenguaje extenso (LLM) del centro de modelos de Hugging Face.

Ver cuaderno
Ejecutar inferencias

RunInference de Apache Beam con Hugging Face

Muestra cómo usar modelos y flujos de procesamiento de Hugging Face en flujos de procesamiento de Apache Beam que usan la transformación RunInference.

Ver cuaderno
Ejecutar inferencias

Modelo Ensemble que usa un ejemplo de subtitulado y clasificación de imágenes

Muestra cómo implementar un modelo en cascada en Apache Beam usando la API RunInference para subtitular imágenes.

Ver cuaderno
Ejecutar la inferencia

RunInference de Apache Beam para PyTorch

Muestra cómo usar la transformación RunInference para PyTorch.

Ver cuaderno
Ejecutar inferencias

Usar RunInference en Apache Beam

Muestra cómo usar la API RunInference con tres frameworks de aprendizaje automático populares: PyTorch, TensorFlow y scikit-learn.

Ver cuaderno
Ejecutar inferencias

RunInference de Apache Beam para scikit-learn

Muestra el uso de la transformación RunInference para scikit-learn.

Ver cuaderno
Ejecutar la inferencia

RunInference de Apache Beam con TensorFlow

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow.

Ver cuaderno
Ejecutar inferencias

Usar RunInference con bibliotecas compartidas básicas de TFX

Muestra cómo usar la transformación RunInference de Apache Beam con TensorFlow y las bibliotecas compartidas básicas de TFX (tfx-bsl).

Ver cuaderno
Ejecutar inferencias

RunInference de Apache Beam con TensorFlow y TensorFlow Hub

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow con un modelo entrenado de TensorFlow Hub.

Ver cuaderno
Ejecutar inferencias

RunInference de Apache Beam con Vertex AI

Muestra cómo usar la transformación RunInference de Apache Beam para clasificar imágenes con Vertex AI.

Ver cuaderno
Ejecutar inferencias

Ejecutar inferencias de aprendizaje automático con vLLM en GPUs

Muestra cómo ejecutar la inferencia de aprendizaje automático mediante vLLM y GPUs.

Ver cuaderno
Ejecutar inferencias

Usar TPUs en Dataflow

Muestra cómo configurar y ejecutar dos flujos de procesamiento de Dataflow distintos que aprovechan las unidades de procesamiento de tensor (TPUs). La primera canalización realiza un cálculo sencillo para confirmar el acceso a la TPU, mientras que la segunda, más compleja, ejecuta la inferencia con el modelo Gemma-3-27b-it.

Ver cuaderno
Casos prácticos especializados

Detección de anomalías en datos de lotes y de streaming con Apache Beam (método de puntuación Z)

Muestra cómo detectar anomalías en datos por lotes y en streaming mediante la transformación P AnomalyDetection con el algoritmo de puntuación Z.

Ver cuaderno
Casos prácticos especializados

Usar Gemma para medir el sentimiento y resumir conversaciones

Muestra cómo usar Gemma para evaluar el sentimiento de una conversación, resumir el contenido de la conversación y redactar una respuesta.

Ver cuaderno