Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用数据科学智能体

本指南介绍了如何在 Colab Enterprise 中使用数据科学智能体，以帮助您在笔记本中执行数据科学任务。

了解 Gemini for 如何以及何时使用您的数据。 Google Cloud

本文档适用于处理 Colab Enterprise 的数据分析师、数据科学家和数据开发者。它假定您了解如何在笔记本环境中编写代码。

数据科学智能体的功能

数据科学智能体可帮助您完成各种任务，从探索性数据分析到生成机器学习预测和预报。您可以使用数据科学智能体执行以下操作：

大规模数据处理：使用 BigQuery ML、 BigQuery DataFrames 或 Managed Service for Apache Spark 对大型数据集执行分布式数据处理。这可以让您高效地清理、转换和分析那些太大而无法放入单个机器内存的数据。
生成方案：生成并修改方案，以使用 Python、SQL、Apache Spark 和 BigQuery DataFrames 等常用工具完成特定任务。
数据探索：探索数据集，了解其结构，识别缺失值和离群值等潜在问题，并检查关键变量的分布。
数据清理：清理数据。例如，移除离群数据点。
数据整理：使用独热编码或标签编码等技术，将类别特征转换为数值表示法。创建新的分析功能。
数据分析：分析不同变量之间的关系。计算数值特征之间的相关性，并探索分类特征的分布。寻找数据中的模式和趋势。
数据可视化：创建直方图、箱形图、散点图和条形图等可视化图表，以表示各个变量的分布情况以及它们之间的关系。
特征工程：从清理的数据集中设计新特征。
数据拆分：将工程化数据集拆分为训练数据集、验证数据集、和测试数据集。
模型训练：使用 Pandas DataFrame、 BigQuery DataFrames、 PySpark DataFrame中的训练数据训练模型，或者使用 BigQuery ML CREATE MODEL 语句和 BigQuery 表训练模型。
模型优化：使用验证集优化模型。探索 DecisionTreeRegressor 和 RandomForestRegressor 等替代模型，并比较它们的性能。
模型评估：使用 Pandas DataFrame、BigQuery DataFrames 或 PySpark DataFrame 在测试数据集上评估模型性能。您还可以使用 BigQuery ML 模型评估函数评估模型质量并比较模型（适用于使用 BigQuery ML 训练的模型）。
模型推理：使用 BigQuery ML 推理函数，通过 BigQuery ML 训练的模型、导入的模型和远程模型执行推理。您还可以使用 BigQuery DataFrames model.predict() 方法或 PySpark 转换器进行预测。

限制

Data Science Agent 支持以下数据源：
- CSV 文件
- BigQuery 表
数据科学智能体生成的数据仅在笔记本的运行时中运行。
您的笔记本必须位于数据科学智能体支持的区域。请参阅位置。
首次运行数据科学智能体时，您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。
使用 @mention 函数搜索 BigQuery 表仅限于您当前的项目。使用表选择器跨项目进行搜索。
@mention 函数仅搜索 BigQuery 表。如需搜索可上传的数据文件，请使用 + 符号。
数据科学智能体中的 PySpark 仅生成 Apache Spark 4.0 代码。数据科学智能体可以帮助您升级到 Apache Spark 4.0，但需要使用旧版 Apache Spark 的用户不应使用数据科学智能体。

准备工作

登录您的 Google Cloud 账号。如果您是 Google Cloud的新用户，请创建账号，以评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

所需的角色

如需获得在 Colab Enterprise 中使用数据科学智能体所需的权限，请让您的管理员为您授予项目的Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) IAM 角色。如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

一个或多个必需的角色可提供 dataform.repositories.list 权限。在项目中被授予 dataform.repositories.list 权限或 Code Creator (roles/dataform.codeCreator) 角色的用户可以使用 Dataform API 或 Dataform 命令行界面 (CLI) 列出该项目中代码资产的名称。使用 BigQuery Studio 的非管理员只能看到他们创建或与他们共享的代码资产。

引用您的数据

如需让 Colab Enterprise 的数据科学智能体访问和处理您的数据，您可以上传 CSV 文件或引用 BigQuery 表。

CSV 文件

在 Google Cloud 控制台中，前往 Colab Enterprise 我的笔记本 页面。

前往我的笔记本
在区域菜单中，选择包含笔记本的区域。
点击您要打开的笔记本。
点击 在 Colab 中切换 Gemini 按钮，以打开聊天对话框。

注意：您可以点击 移至面板按钮，将聊天对话框移至笔记本外部的单独面板中。
在聊天对话框中，依次点击 添加文件 > 上传。
如有必要，请向您的 Google 账号授权。

请稍等片刻，让 Colab Enterprise 启动运行时并启用文件浏览功能。
浏览到文件的位置，然后点击打开。
点击确定以确认，此运行时被删除后，此运行时的文件也将被删除。

该文件会上传到文件窗格，并显示在聊天窗口中。

BigQuery 表

在 Google Cloud 控制台中，前往 Colab Enterprise 我的笔记本 页面。

前往我的笔记本
在区域菜单中，选择包含笔记本的区域。
点击您要打开的笔记本。
点击 在 Colab 中切换 Gemini 按钮，以打开聊天对话框。

注意：您可以点击 移至面板按钮，将聊天对话框移至笔记本外部的单独面板中。
如需引用您的数据，请执行以下操作之一：
- 使用表选择器选择一个或多个表：
  1. 依次点击 添加到 Gemini > BigQuery 表。
  2. 在 BigQuery 表 窗口中，选择一个或多个项目中的表。您可以在各个项目中搜索表，并使用搜索栏过滤表。
- 直接在提示中添加 BigQuery 表名称。例如：“帮我对这个表中的数据进行探索性数据分析，并获取分析洞见：PROJECT_ID:DATASET.TABLE。”
  
  替换以下内容：
  - PROJECT_ID：您的项目 ID。
  - DATASET：包含要分析的表的数据集的名称。
  - TABLE：要分析的表的名称。
- 输入 @ 以在当前项目中搜索 BigQuery 表。
- 在提示中，使用自然语言描述您要使用的表，数据科学智能体会引用与您的描述最匹配的表。

使用数据科学智能体

如需开始使用 Colab Enterprise 的数据科学智能体，请执行以下操作：

在 Gemini 聊天对话框中，输入提示，然后点击发送。如需获取提示方面的建议，请查看数据科学智能体功能并参阅示例提示。

例如，您可以输入“Provide an analysis of the data I've uploaded.”

如果您尚未授权数据科学智能体，Colab Enterprise 会向数据科学智能体验证您的 Google 账号，在此期间会显示一个简短的对话框。
Gemini 会针对您的提示给出回答。回答可能包含要运行的代码段、针对您项目的常规建议、实现目标的后续步骤，或者有关数据或代码中特定问题的信息。

评估回答后，您可以执行以下操作：
- 如果 Gemini 在回答中提供代码，您可以点击：
  - 接受以将代码添加到笔记本。
  - 接受并运行 以将代码添加到笔记本并运行代码。
  - 取消以删除建议的代码。
- 根据需要提出后续问题并继续讨论。
如需关闭 Gemini 对话框，请点击关闭。

停用 Colab Enterprise 中的 Gemini

如需针对某个 Google Cloud 项目停用 Colab Enterprise 中的 Gemini，管理员必须停用 Gemini for Google Cloud API。请参阅停用服务。

如需为特定用户停用 Colab Enterprise 中的 Gemini，管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user) 角色。请参阅撤消单个 IAM 角色。

示例提示

以下部分展示了您可以在数据科学智能体中使用的提示类型示例。

Python 提示

除非您在提示中使用“BigQuery ML”或“SQL”等特定关键字，否则系统默认生成 Python 代码。

使用 k-最近邻 (KNN) 机器学习算法来调查和填充缺失值。
创建按经验水平列出的薪资图表。使用 experience_level 列对薪资进行分组，并为每个组创建一个箱形图，以显示 salary_in_usd 列中的值。
使用 XGBoost 算法创建一个模型，用于确定特定水果的 class 变量。将数据拆分为训练数据集和测试数据集，以生成模型并确定模型的准确性。创建混淆矩阵以显示每个类别中的预测，包括所有正确和错误的预测。
根据 filename.csv 预测未来六个月的 target_variable。

SQL 和 BigQuery ML 提示

使用 BigQuery SQL 在 bigquery-public-data.ml_datasets.census_adult_income 上创建和评估分类模型。
使用 SQL，根据 bigquery-public-data.google_analytics_sample.ga_sessions_* 预测我网站未来一个月的流量。然后，绘制历史值和预测值。
使用 KMeans 模型和 BigQuery ML SQL 函数将相似的客户归为一组，以创建定位市场营销活动。使用三个特征进行聚簇。然后，通过创建一系列 2D 散点图来直观呈现结果。使用表格 bigquery-public-data.ml_datasets.census_adult_income。
使用 bigquery-public-data.imdb.reviews 中的评价内容在 BigQuery ML 中生成文本嵌入。

如需查看受支持的模型和机器学习任务的列表，请参阅 BigQuery ML 文档。

DataFrame 提示

为 project_id:dataset.table 中的数据创建 Pandas DataFrame。分析数据中的 null 值，然后使用图表类型绘制每个列的分布图。对于测量值，请使用小提琴图；对于类别，请使用条形图。
读取 filename.csv 并构建 DataFrame。对 DataFrame 运行分析，以确定需要对值执行哪些操作。例如，是否存在需要替换或移除的缺失值，或者是否存在需要处理的重复行。使用此数据文件确定每个城市位置的投资金额（以美元为单位）分布情况。使用条形图绘制前 20 个结果的图表，该图表按降序显示结果，并以“位置”与“平均投资金额（美元）”为对比。
使用 BigQuery DataFrames 在 project_id:dataset.table 上创建和评估分类模型。
使用 BigQuery DataFrames 在 project_id:dataset.table 上创建时序预测模型，并直观呈现模型评估结果。
使用 BigQuery DataFrames 直观呈现 BigQuery 表 project_id:dataset.table 中过去一年的销售额。
使用 BigQuery DataFrames 找出最能根据表 bigquery-public_data.ml_datasets.penguins 预测企鹅物种的特征。

PySpark 提示

使用 Managed Service for Apache Spark 在 project_id:dataset.table 上创建和评估分类模型。
将相似的客户归为一组，以创建定位市场营销活动，但首先使用 PCA 模型进行降维。使用 PySpark 在表 project_id:dataset.table 上执行此操作。

支持的区域

如需查看 Colab Enterprise 的数据科学智能体支持的区域，请参阅位置。

结算

数据科学智能体的价格取决于您的输入和输出数据。如需了解详情，请参阅 BigQuery 价格页面上的代理价格。

VPC Service Controls

数据科学智能体支持 VPC Service Controls。如果您想在服务边界中使用数据科学智能体，请参阅将 VPC Service Controls 与 Colab Enterprise搭配使用。

后续步骤

如需详细了解如何将数据科学智能体与 BigQuery 搭配使用，请参阅将 Colab Enterprise 数据科学智能体与 BigQuery 搭配使用。
阅读 Gemini for Google Cloud 概览。
如需了解更多在 Gemini 的协助下编写和修改代码的方法，请参阅以下内容：
了解 Gemini for 如何 Google Cloud 使用您的数据。