探索 Dataflow ML 笔记本,将机器学习集成到 Apache Beam 流水线中。这些笔记本为常见的机器学习工作流提供了实用示例和指南。
您可以使用这些资源来:
- 为机器学习模型预处理数据:这包括缩放数据、计算词汇和使用
MLTransform准备数据等任务。 - 使用各种模型和框架运行推理:将
RunInference转换与 PyTorch、TensorFlow、scikit-learn、Hugging Face 模型、Gemma 模型和 Vertex AI 搭配使用,包括在 GPU 上使用 vLLM。 - 生成和管理嵌入:使用 Vertex AI 或 Hugging Face 创建文本嵌入,并将其提取到 AlloyDB 和 BigQuery 等数据库中以进行向量搜索。
- 实现高级机器学习流水线模式:包括在运行的流水线中自动刷新模型、使用多个模型、构建集成模型,以及使用 BigQuery、Bigtable 和 Vertex AI Feature Store 进行数据丰富。
- 将机器学习应用于特定用例:例如,使用 Gemma 进行异常检测、情感分析和总结。
所有教程
|
核心 Dataflow 和 MLTransform 概念
|
使用 Apache Beam DataFrames API 进行预处理 演示如何使用 Apache Beam DataFrames API 执行常见的数据探索和预处理步骤。 |
查看笔记本 |
|
核心 Dataflow 和 MLTransform 概念
|
使用 MLTransform 预处理数据 简要介绍如何使用 MLTransform 为机器学习工作流预处理数据。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Apache Beam 和 AlloyDB 注入向量嵌入 演示了如何使用 Apache Beam 和 Dataflow 生成数据嵌入并将其注入到 AlloyDB 中,以实现可扩缩的数据处理。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Apache Beam 和 BigQuery 来丰富数据 展示如何通过将 Apache Beam 丰富转换与 BigQuery 搭配使用来丰富数据。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Apache Beam 和 BigQuery 嵌入数据注入和向量搜索 演示如何使用 Apache Beam RAG 软件包生成嵌入、将其注入到 BigQuery 中,并执行向量相似性搜索。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Apache Beam 和 Bigtable 来丰富数据 展示了如何通过将 Apache Beam 丰富转换与 Bigtable 搭配使用来丰富数据。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Hugging Face Hub 模型生成文本嵌入 使用 MLTransform 通过 Hugging Face 的 SentenceTransformers 框架从文本数据生成嵌入。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Apache Beam 和 Vertex AI Feature Store 来丰富数据 展示了如何通过将 Apache Beam 丰富转换与 Vertex AI Feature Store 搭配使用来丰富数据。 |
查看笔记本 |
|
数据丰富化和嵌入
|
使用 Vertex AI API 生成文本嵌入 使用 Vertex AI 文本嵌入 API 生成使用 Google 大型生成式人工智能 (AI) 模型的文本嵌入。 |
查看笔记本 |
|
模型训练和数据处理
|
在正在运行的流水线中更新机器学习模型 演示了如何使用旁路输入在不停止 Apache Beam 流水线的情况下自动更新模型。 |
查看笔记本 |
|
模型训练和数据处理
|
计算和应用数据集的词汇表 展示了如何使用 MLTransform 在输入文本上生成词汇表,并为每个token分配一个索引值。 |
查看笔记本 |
|
模型训练和数据处理
|
使用多个不同训练的模型运行机器学习推理 演示了如何使用 KeyedModelHandler 在 Apache Beam 流水线中按键运行多个不同模型的推理。 |
查看笔记本 |
|
模型训练和数据处理
|
使用 MLTransform 缩放数据 展示了如何使用 MLTransform 来扩缩数据,这是训练机器学习 (ML) 模型的重要预处理步骤。 |
查看笔记本 |
|
模型训练和数据处理
|
Beam 中的 TensorFlow Model Analysis 展示了如何使用 TFMA 通过创建和比较两个模型来调查和直观呈现 Apache Beam 流水线中的模型性能。 |
查看笔记本 |
|
运行推断
|
Apache Beam 中的远程推理 演示了如何使用 Google Cloud Vision API 在 Apache Beam 中实现自定义推理调用。 |
查看笔记本 |
|
运行推断
|
将您自己的机器学习模型引入 Beam RunInference 演示了如何使用 spaCy 软件包加载机器学习 (ML) 模型,以及如何使用 RunInference PTransform 在 Apache Beam 流水线中执行推理。 |
查看笔记本 |
|
运行推断
|
使用 Gemma 开放模型运行推理 演示了如何加载预配置的 Gemma 2B 模型,然后在 Apache Beam 推理流水线中使用该模型。 |
查看笔记本 |
|
运行推断
|
将 RunInference 用于生成式 AI 展示了如何将 Apache Beam RunInference 转换与 Hugging Face Model Hub 中的大语言模型 (LLM) 搭配使用来执行生成式 AI 任务。 |
查看笔记本 |
|
运行推断
|
将 Apache Beam RunInference 与 Hugging Face 搭配使用 展示了如何在 Apache Beam 流水线中使用 Hugging Face 和 Hugging Face 流水线中的模型,该流水线使用 RunInference 转换。 |
查看笔记本 |
|
运行推断
|
使用图片描述和排名示例的集成模型 展示了如何使用 RunInference API 在 Apache Beam 中实现用于图片标注的级联模型。 |
查看笔记本 |
|
运行推断
|
适用于 PyTorch 的 Apache Beam RunInference 演示了如何将 RunInference 转换作业用于 PyTorch。 |
查看笔记本 |
|
运行推断
|
在 Apache Beam 中使用 RunInference 演示了如何将 RunInference API 与三种热门的机器学习框架搭配使用:PyTorch、TensorFlow 和 scikit-learn。 |
查看笔记本 |
|
运行推断
|
适用于 scikit-learn 的 Apache Beam RunInference 演示了如何将 RunInference 转换用于 scikit-learn。 |
查看笔记本 |
|
运行推断
|
将 Apache Beam RunInference 与 TensorFlow 搭配使用 展示了如何将 Apache Beam RunInference 转换用于 TensorFlow。 |
查看笔记本 |
|
运行推断
|
将 RunInference 与 TFX 基本共享库搭配使用 演示了如何将 Apache Beam RunInference 转换与 TensorFlow 和 TFX 基本共享库 (tfx-bsl) 搭配使用。 |
查看笔记本 |
|
运行推断
|
将 Apache Beam RunInference 与 TensorFlow 和 TensorFlow Hub 搭配使用 展示了如何将 TensorFlow 的 Apache Beam RunInference 转换与 TensorFlow Hub 中经过训练的模型搭配使用。 |
查看笔记本 |
|
运行推断
|
将 Apache Beam RunInference 与 Vertex AI 搭配使用 展示了如何将用于图片分类的 Apache Beam RunInference 转换与 Vertex AI 搭配使用。 |
查看笔记本 |
|
运行推断
|
使用 GPU 上的 vLLM 运行机器学习推理 演示如何使用 vLLM 和 GPU 运行机器学习推理。 |
查看笔记本 |
|
运行推断
|
在 Dataflow 中使用 TPU 演示如何配置和执行利用张量处理单元 (TPU) 的两个不同的 Dataflow 流水线。第一个流水线执行简单的计算以确认 TPU 访问权限,而第二个更复杂的流水线则使用 Gemma-3-27b-it 模型运行推理。 |
查看笔记本 |
|
专业使用场景
|
使用 Apache Beam(Z 分数方法)对批处理数据和流式数据进行异常检测 展示了如何使用 Z 评分算法通过 AnomalyDetection PTransform 对批处理数据和流处理数据执行异常检测。 |
查看笔记本 |
|
专业使用场景
|
使用 Gemma 衡量情绪和总结对话 演示了如何使用 Gemma 来衡量对话的情绪、总结对话内容并草拟回复。 |
查看笔记本 |