Notebooks de Dataflow ML

Explora los notebooks de Dataflow ML para integrar el aprendizaje automático en tus canalizaciones de Apache Beam. Estos notebooks proporcionan ejemplos prácticos y orientación para flujos de trabajo comunes de aprendizaje automático.

Usa estos recursos para lo siguiente:

  • Preprocesar datos para modelos de AA: Esto incluye tareas como ajustar la escala de los datos, calcular vocabularios y usar MLTransform para la preparación de datos.
  • Ejecutar la inferencia con varios modelos y frameworks: Usa la RunInference transformación con PyTorch, TensorFlow, scikit-learn, modelos de Hugging Face modelos, modelos de Gemma y la plataforma de agentes de Gemini Enterprise, incluso en GPUs con vLLM.
  • Generar y administrar embeddings: Crea embeddings de texto con la plataforma de agentes o Hugging Face y transfórmalos a bases de datos como AlloyDB y BigQuery para la búsqueda de vectores.
  • Implementar patrones avanzados de canalizaciones de AA: Esto incluye la actualización automática de modelos en canalizaciones en ejecución, el uso de varios modelos, la compilación de modelos de conjunto y el enriquecimiento de datos con BigQuery, Bigtable y Vertex AI Feature Store.
  • Aplicar AA a casos de uso específicos: Los ejemplos incluyen la detección de anomalías así como el análisis de sentimiento y el resumen con Gemma.

Todos los instructivos

Filtrar por:
Conceptos básicos de Dataflow y MLTransform

Procesamiento previo con la API de DataFrames de Apache Beam

Demuestra el uso de la API de DataFrames de Apache Beam para realizar pasos comunes de exploración y procesamiento previo de datos.

Ver el notebook
Conceptos básicos de Dataflow y MLTransform

Preprocesa datos con MLTransform

Una introducción básica al uso de MLTransform para el procesamiento previo de datos para flujos de trabajo de aprendizaje automático.

Ver el notebook
Enriquecimiento de datos y embeddings

Transferencia de embeddings de vectores con Apache Beam y AlloyDB

Demuestra cómo generar embeddings a partir de datos y transferirlos a AlloyDB con Apache Beam y Dataflow para el procesamiento de datos escalable.

Ver el notebook
Enriquecimiento de datos y embeddings

Usa Apache Beam y BigQuery para enriquecer los datos

Muestra cómo enriquecer los datos con la transformación de enriquecimiento de Apache Beam con BigQuery.

Ver el notebook
Enriquecimiento de datos y embeddings

Transferencia de embeddings y búsqueda de vectores con Apache Beam y BigQuery

Demuestra cómo usar el paquete RAG de Apache Beam para generar embeddings, transferirlos a BigQuery y realizar una búsqueda de similitud de vectores.

Ver el notebook
Enriquecimiento de datos y embeddings

Usa Apache Beam y Bigtable para enriquecer los datos

Muestra cómo enriquecer los datos con la transformación de enriquecimiento de Apache Beam con Bigtable.

Ver el notebook
Enriquecimiento de datos y embeddings

Genera embeddings de texto con los modelos de Hugging Face Hub

Usa MLTransform para generar embeddings a partir de datos de texto con el framework SentenceTransformers de Hugging Face.

Ver el notebook
Enriquecimiento de datos y embeddings

Usa Apache Beam y Vertex AI Feature Store para enriquecer los datos

Muestra cómo enriquecer los datos con la transformación de enriquecimiento de Apache Beam con Vertex AI Feature Store.

Ver el notebook
Enriquecimiento de datos y embeddings

Genera embeddings de texto con la API de Vertex AI

Usa la API de incorporaciones de texto de Vertex AI para generar embeddings de texto que usan los modelos de inteligencia artificial generativa grandes de Google.

Ver el notebook
Entrenamiento de modelos y procesamiento de datos

Actualiza modelos de AA en canalizaciones en ejecución

Demuestra cómo realizar actualizaciones automáticas de modelos sin detener tu canalización de Apache Beam con entradas laterales.

Ver el notebook
Entrenamiento de modelos y procesamiento de datos

Calcula y aplica vocabulario en un conjunto de datos

Muestra cómo usar MLTransform para generar un vocabulario en texto de entrada y asignar un valor de índice a cada token.

Ver el notebook
Entrenamiento de modelos y procesamiento de datos

Ejecuta la inferencia de AA con varios modelos entrenados de forma diferente

Demuestra cómo usar un KeyedModelHandler para ejecutar la inferencia en una canalización de Apache Beam con varios modelos diferentes por clave.

Ver el notebook
Entrenamiento de modelos y procesamiento de datos

Usa MLTransform para ajustar la escala de los datos

Muestra cómo usar MLTransform para ajustar la escala de los datos, un paso importante de procesamiento previo para entrenar modelos de aprendizaje automático (AA).

Ver el notebook
Entrenamiento de modelos y procesamiento de datos

Análisis de modelos de TensorFlow en Beam

Muestra cómo puedes usar TFMA para investigar y visualizar el rendimiento de un modelo como parte de tu canalización de Apache Beam a través de la creación y comparación de dos modelos.

Ver el notebook
Ejecuta la inferencia

Inferencia remota en Apache Beam

Demuestra cómo implementar una llamada de inferencia personalizada en Apache Beam con la API de Cloud Vision de Google Cloud.

Ver el notebook
Ejecuta la inferencia

Usa tu propio modelo de AA en RunInference de Beam

Ilustra cómo usar el paquete spaCy para cargar un modelo de aprendizaje automático (AA) y realizar la inferencia en una canalización de Apache Beam con la PTransform RunInference.

Ver el notebook
Ejecuta la inferencia

Ejecuta la inferencia con un modelo abierto de Gemma

Demuestra cómo cargar el modelo de Gemma 2B preconfigurado y, luego, usarlo en una canalización de inferencia de Apache Beam.

Ver el notebook
Ejecuta la inferencia

Usa RunInference para la IA generativa

Muestra cómo usar la transformación RunInference de Apache Beam para tareas de IA generativas con un modelo de lenguaje grande (LLM) de Hugging Face Model Hub.

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam con Hugging Face

Muestra cómo usar modelos de canalización de Hugging Face y la canalización de Hugging Face en canalizaciones de Apache Beam que usa la transformación RunInference.

Ver el notebook
Ejecuta la inferencia

Modelo de ensamble con un ejemplo de descripción y clasificación de imágenes

Muestra cómo implementar un modelo en cascada en Apache Beam con la API de RunInference para la descripción de imágenes.

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam para PyTorch

Demuestra el uso de la transformación RunInference para PyTorch.

Ver el notebook
Ejecuta la inferencia

Usa RunInference en Apache Beam

Demuestra cómo usar la API de RunInference con tres frameworks populares de AA: PyTorch, TensorFlow y scikit-learn.

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam para scikit-learn

Demuestra el uso de la transformación RunInference para scikit-learn.

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam con TensorFlow

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow.

Ver el notebook
Ejecuta la inferencia

Usa RunInference con bibliotecas compartidas básicas de TFX

Demuestra cómo usar la transformación RunInference de Apache Beam con TensorFlow y las bibliotecas compartidas básicas de TFX (tfx-bsl).

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam con TensorFlow y TensorFlow Hub

Muestra cómo usar la transformación RunInference de Apache Beam para TensorFlow con un modelo entrenado de TensorFlow Hub.

Ver el notebook
Ejecuta la inferencia

RunInference de Apache Beam con Vertex AI

Muestra cómo usar la transformación RunInference de Apache Beam para la clasificación de imágenes con Vertex AI.

Ver el notebook
Ejecuta la inferencia

Ejecuta la inferencia de AA con vLLM en GPUs

Demuestra cómo ejecutar la inferencia de aprendizaje automático con vLLM y GPUs.

Ver el notebook
Ejecuta la inferencia

Usa TPU en Dataflow

Demuestra cómo configurar y ejecutar dos canalizaciones distintas de Dataflow que aprovechan las unidades de procesamiento tensorial (TPU). La primera canalización realiza un cálculo simple para confirmar el acceso a la TPU, mientras que la segunda, más compleja, ejecuta la inferencia con el modelo Gemma-3-27b-it.

Ver el notebook
Casos de uso especializados

Detección de anomalías en datos por lotes y de transmisión con Apache Beam (método de puntuación Z)

Muestra cómo realizar la detección de anomalías en datos por lotes y de transmisión con la PTransform AnomalyDetection con el algoritmo de puntuación Z.

Ver el notebook
Casos de uso especializados

Usa Gemma para evaluar las opiniones y resumir conversaciones

Demuestra cómo usar Gemma para evaluar el sentimiento de una conversación, resumir su contenido y redactar una respuesta.

Ver el notebook