Dataflow ML 笔记本

探索 Dataflow ML 笔记本,将机器学习集成到 Apache Beam 流水线中。这些笔记本为常见的机器学习工作流提供了实用示例和指南。

您可以使用这些资源来:

  • 为机器学习模型预处理数据:这包括缩放数据、计算词汇和使用 MLTransform 准备数据等任务。
  • 使用各种模型和框架运行推理:将 RunInference 转换与 PyTorch、TensorFlow、scikit-learn、Hugging Face 模型、Gemma 模型和 Vertex AI 搭配使用,包括在 GPU 上使用 vLLM。
  • 生成和管理嵌入:使用 Vertex AI 或 Hugging Face 创建文本嵌入,并将其提取到 AlloyDB 和 BigQuery 等数据库中以进行向量搜索。
  • 实现高级机器学习流水线模式:包括在运行的流水线中自动刷新模型、使用多个模型、构建集成模型,以及使用 BigQuery、Bigtable 和 Vertex AI Feature Store 进行数据丰富。
  • 将机器学习应用于特定用例:例如,使用 Gemma 进行异常检测、情感分析和总结。

所有教程

过滤条件:
核心 Dataflow 和 MLTransform 概念

使用 Apache Beam DataFrames API 进行预处理

演示如何使用 Apache Beam DataFrames API 执行常见的数据探索和预处理步骤。

查看笔记本
核心 Dataflow 和 MLTransform 概念

使用 MLTransform 预处理数据

简要介绍如何使用 MLTransform 为机器学习工作流预处理数据。

查看笔记本
数据丰富化和嵌入

使用 Apache Beam 和 AlloyDB 注入向量嵌入

演示了如何使用 Apache Beam 和 Dataflow 生成数据嵌入并将其注入到 AlloyDB 中,以实现可扩缩的数据处理。

查看笔记本
数据丰富化和嵌入

使用 Apache Beam 和 BigQuery 来丰富数据

展示如何通过将 Apache Beam 丰富转换与 BigQuery 搭配使用来丰富数据。

查看笔记本
数据丰富化和嵌入

使用 Apache Beam 和 BigQuery 嵌入数据注入和向量搜索

演示如何使用 Apache Beam RAG 软件包生成嵌入、将其注入到 BigQuery 中,并执行向量相似性搜索。

查看笔记本
数据丰富化和嵌入

使用 Apache Beam 和 Bigtable 来丰富数据

展示了如何通过将 Apache Beam 丰富转换与 Bigtable 搭配使用来丰富数据。

查看笔记本
数据丰富化和嵌入

使用 Hugging Face Hub 模型生成文本嵌入

使用 MLTransform 通过 Hugging Face 的 SentenceTransformers 框架从文本数据生成嵌入。

查看笔记本
数据丰富化和嵌入

使用 Apache Beam 和 Vertex AI Feature Store 来丰富数据

展示了如何通过将 Apache Beam 丰富转换与 Vertex AI Feature Store 搭配使用来丰富数据。

查看笔记本
数据丰富化和嵌入

使用 Vertex AI API 生成文本嵌入

使用 Vertex AI 文本嵌入 API 生成使用 Google 大型生成式人工智能 (AI) 模型的文本嵌入。

查看笔记本
模型训练和数据处理

在正在运行的流水线中更新机器学习模型

演示了如何使用旁路输入在不停止 Apache Beam 流水线的情况下自动更新模型。

查看笔记本
模型训练和数据处理

计算和应用数据集的词汇表

展示了如何使用 MLTransform 在输入文本上生成词汇表,并为每个token分配一个索引值。

查看笔记本
模型训练和数据处理

使用多个不同训练的模型运行机器学习推理

演示了如何使用 KeyedModelHandler 在 Apache Beam 流水线中按键运行多个不同模型的推理。

查看笔记本
模型训练和数据处理

使用 MLTransform 缩放数据

展示了如何使用 MLTransform 来扩缩数据,这是训练机器学习 (ML) 模型的重要预处理步骤。

查看笔记本
模型训练和数据处理

Beam 中的 TensorFlow Model Analysis

展示了如何使用 TFMA 通过创建和比较两个模型来调查和直观呈现 Apache Beam 流水线中的模型性能。

查看笔记本
运行推断

Apache Beam 中的远程推理

演示了如何使用 Google Cloud Vision API 在 Apache Beam 中实现自定义推理调用。

查看笔记本
运行推断

将您自己的机器学习模型引入 Beam RunInference

演示了如何使用 spaCy 软件包加载机器学习 (ML) 模型,以及如何使用 RunInference PTransform 在 Apache Beam 流水线中执行推理。

查看笔记本
运行推断

使用 Gemma 开放模型运行推理

演示了如何加载预配置的 Gemma 2B 模型,然后在 Apache Beam 推理流水线中使用该模型。

查看笔记本
运行推断

将 RunInference 用于生成式 AI

展示了如何将 Apache Beam RunInference 转换与 Hugging Face Model Hub 中的大语言模型 (LLM) 搭配使用来执行生成式 AI 任务。

查看笔记本
运行推断

将 Apache Beam RunInference 与 Hugging Face 搭配使用

展示了如何在 Apache Beam 流水线中使用 Hugging Face 和 Hugging Face 流水线中的模型,该流水线使用 RunInference 转换。

查看笔记本
运行推断

使用图片描述和排名示例的集成模型

展示了如何使用 RunInference API 在 Apache Beam 中实现用于图片标注的级联模型。

查看笔记本
运行推断

适用于 PyTorch 的 Apache Beam RunInference

演示了如何将 RunInference 转换作业用于 PyTorch。

查看笔记本
运行推断

在 Apache Beam 中使用 RunInference

演示了如何将 RunInference API 与三种热门的机器学习框架搭配使用:PyTorch、TensorFlow 和 scikit-learn。

查看笔记本
运行推断

适用于 scikit-learn 的 Apache Beam RunInference

演示了如何将 RunInference 转换用于 scikit-learn。

查看笔记本
运行推断

将 Apache Beam RunInference 与 TensorFlow 搭配使用

展示了如何将 Apache Beam RunInference 转换用于 TensorFlow。

查看笔记本
运行推断

将 RunInference 与 TFX 基本共享库搭配使用

演示了如何将 Apache Beam RunInference 转换与 TensorFlow 和 TFX 基本共享库 (tfx-bsl) 搭配使用。

查看笔记本
运行推断

将 Apache Beam RunInference 与 TensorFlow 和 TensorFlow Hub 搭配使用

展示了如何将 TensorFlow 的 Apache Beam RunInference 转换与 TensorFlow Hub 中经过训练的模型搭配使用。

查看笔记本
运行推断

将 Apache Beam RunInference 与 Vertex AI 搭配使用

展示了如何将用于图片分类的 Apache Beam RunInference 转换与 Vertex AI 搭配使用。

查看笔记本
运行推断

使用 GPU 上的 vLLM 运行机器学习推理

演示如何使用 vLLM 和 GPU 运行机器学习推理。

查看笔记本
运行推断

在 Dataflow 中使用 TPU

演示如何配置和执行利用张量处理单元 (TPU) 的两个不同的 Dataflow 流水线。第一个流水线执行简单的计算以确认 TPU 访问权限,而第二个更复杂的流水线则使用 Gemma-3-27b-it 模型运行推理。

查看笔记本
专业使用场景

使用 Apache Beam(Z 分数方法)对批处理数据和流式数据进行异常检测

展示了如何使用 Z 评分算法通过 AnomalyDetection PTransform 对批处理数据和流处理数据执行异常检测。

查看笔记本
专业使用场景

使用 Gemma 衡量情绪和总结对话

演示了如何使用 Gemma 来衡量对话的情绪、总结对话内容并草拟回复。

查看笔记本