使用数据科学智能体

本指南介绍了如何使用 Colab Enterprise 中的数据科学智能体来帮助您在笔记本中执行数据科学任务。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

本文档适用于使用 Colab Enterprise 的数据分析师、数据科学家和数据开发者。本文档假定您了解如何在笔记本环境中编写代码。

数据科学智能体的功能

数据科学智能体可帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预报。您可以使用数据科学智能体执行以下操作:

  • 大规模数据处理:使用 BigQuery ML、BigQuery DataFrames 或 Managed Service for Apache Spark 对大型数据集执行分布式数据处理。这可以让您高效地清理、转换和分析那些太大而无法放入单个机器内存的数据。
  • 生成方案:生成并修改方案,以使用 Python、SQL、Apache Spark 和 BigQuery DataFrames 等常用工具完成特定任务。
  • 数据探索:探索数据集,了解其结构,识别缺失值和离群值等潜在问题,并检查关键变量的分布。
  • 数据清理:清理数据。例如,移除离群数据点。
  • 数据整理:使用独热编码或标签编码等技术,将类别特征转换为数值表示法。 创建新的分析功能。
  • 数据分析:分析不同变量之间的关系。 计算数值特征之间的相关性,并探索分类特征的分布。寻找数据中的模式和趋势。
  • 数据可视化:创建直方图、箱形图、散点图和条形图等可视化图表,以表示各个变量的分布情况以及它们之间的关系。
  • 特征工程:从清理的数据集中设计新特征。
  • 数据拆分:将工程化数据集拆分为训练数据集、验证数据集和测试数据集。
  • 模型训练:使用 Pandas DataFrame、BigQuery DataFramesPySpark DataFrame 中的训练数据训练模型,或者使用 BigQuery ML CREATE MODEL 语句和 BigQuery 表训练模型。
  • 模型优化:使用验证集优化模型。 探索 DecisionTreeRegressorRandomForestRegressor 等替代模型,并比较它们的性能。
  • 模型评估:使用 Pandas DataFrame、BigQuery DataFrames 或 PySpark DataFrame 在测试数据集上评估模型性能。 您还可以使用 BigQuery ML 模型评估函数来评估模型质量并比较使用 BigQuery ML 训练的模型。
  • 模型推理:使用 BigQuery ML 推理函数,通过 BigQuery ML 训练的模型、导入的模型和远程模型执行推理。您还可以使用 BigQuery DataFrames model.predict() 方法或 PySpark 转换器进行预测。

限制

  • Data Science Agent 支持以下数据源:
    • CSV 文件
    • BigQuery 表
  • Data Science Agent 生成的代码仅在笔记本的运行时中运行。
  • 您的笔记本必须位于数据科学智能体支持的区域中。请参阅地理位置
  • 如果项目已启用 VPC Service Controls,则不支持数据科学代理。
  • 首次运行数据科学代理时,您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。
  • 使用 @mention 函数搜索 BigQuery 表仅限于您当前的项目。使用表选择器跨项目进行搜索。
  • @mention 函数仅搜索 BigQuery 表。 如需搜索可上传的数据文件,请使用 + 符号。
  • 数据科学代理中的 PySpark 仅生成 Apache Spark 4.0 代码。DSA 可以帮助您升级到 Apache Spark 4.0,但需要使用旧版 Apache Spark 的用户不应使用数据科学代理。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

所需的角色

如需获得在 Colab Enterprise 中使用数据科学智能体所需的权限,请让您的管理员为您授予项目的 Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

引用您的数据

如需让 Colab Enterprise 的数据科学智能体访问您的数据并使用这些数据,您可以上传 CSV 文件或引用 BigQuery 表。

CSV 文件

  1. 在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。

    前往我的笔记本

  2. 区域菜单中,选择包含笔记本的区域。

  3. 点击您要打开的笔记本。

  4. 点击  在 Colab 中切换 Gemini 按钮,以打开聊天对话框。

  5. 在聊天对话框中,依次点击 添加文件 > 上传
  6. 如有必要,请向您的 Google 账号授权。

    等待片刻,让 Colab Enterprise 启动运行时并启用文件浏览功能。

  7. 浏览到相应文件的位置,然后点击打开
  8. 点击确定,确认此运行时的文件将在运行时被删除时一并删除。

    文件会上传到文件窗格,并显示在聊天窗口中。

BigQuery 表

  1. 在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。

    前往我的笔记本

  2. 区域菜单中,选择包含笔记本的区域。

  3. 点击您要打开的笔记本。

  4. 点击  在 Colab 中切换 Gemini 按钮,以打开聊天对话框。

  5. 如需引用数据,请执行以下任一操作:

    • 使用表选择器选择一个或多个表:

      1. 依次点击 添加到 Gemini > BigQuery 表
      2. BigQuery 表窗口中,选择项目中的一个或多个表。您可以在各个项目中搜索表,并使用搜索栏过滤表。
    • 直接在提示中添加 BigQuery 表名称。例如:“帮我对这个表中的数据进行探索性数据分析,并获取分析洞见:PROJECT_ID:DATASET.TABLE。”

      替换以下内容:

      • PROJECT_ID:您的项目 ID。
      • DATASET:包含要分析的表的数据集的名称。
      • TABLE:您要分析的表的名称。
    • 输入 @ 以在当前项目中搜索 BigQuery 表。

使用数据科学智能体

如需开始使用 Colab Enterprise 的数据科学智能体,请执行以下操作:

  1. Gemini 对话框中,输入提示,然后点击  发送。 如需获取提示方面的灵感,请查看数据科学智能体功能并参阅提示示例

    例如,您可以输入“分析我上传的数据”。

    如果您尚未授权数据科学智能体,Colab Enterprise 会在向数据科学智能体验证您的 Google 账号时显示一个简短的对话框。

  2. Gemini 会针对您的提示给出回答。回答可以包括要运行的代码段、有关项目的常规建议、实现目标的后续步骤,或有关数据或代码中特定问题的信息。

    评估回答后,您可以执行以下操作:

    • 如果 Gemini 在回答中提供代码,您可以点击:
      • 点击接受,将代码添加到笔记本中。
      • 点击接受并运行,将代码添加到笔记本并运行代码。
      • 点按取消可删除建议的代码。
    • 根据需要提出后续问题并继续讨论。
  3. 如需关闭 Gemini 对话框,请点击  关闭

停用 Gemini in Colab Enterprise

如需针对某个 Google Cloud 项目停用 Colab Enterprise 中的 Gemini,管理员必须停用 Gemini for Google Cloud API。请参阅停用服务

如需为特定用户停用 Colab Enterprise 中的 Gemini,管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user) 角色。请参阅撤消单个 IAM 角色

示例提示

以下部分展示了您可以在数据科学智能体中使用的提示类型示例。

Python 提示

除非您在提示中使用“BigQuery ML”或“SQL”等特定关键字,否则系统默认生成 Python 代码。

  • 使用 k-最近邻 (KNN) 机器学习算法来调查和填充缺失值。
  • 创建按经验水平列出的薪资图表。使用 experience_level 列对薪资进行分组,并为每个组创建一个箱形图,以显示 salary_in_usd 列中的值。
  • 使用 XGBoost 算法创建一个模型,用于确定特定水果的 class 变量。将数据拆分为训练数据集和测试数据集,以生成模型并确定模型的准确性。创建混淆矩阵以显示每个类别中的预测,包括所有正确和错误的预测。
  • 根据 filename.csv 预测未来六个月的 target_variable

SQL 和 BigQuery ML 提示

  • 使用 BigQuery SQL 在 bigquery-public-data.ml_datasets.census_adult_income 上创建和评估分类模型。
  • 使用 SQL,根据 bigquery-public-data.google_analytics_sample.ga_sessions_* 预测我网站未来一个月的流量。 然后,绘制历史值和预测值。
  • 使用 KMeans 模型和 BigQuery ML SQL 函数将相似的客户归为一组,以创建定位市场营销活动。使用三个特征进行聚簇。然后,通过创建一系列 2D 散点图来直观呈现结果。使用表格 bigquery-public-data.ml_datasets.census_adult_income
  • 使用 bigquery-public-data.imdb.reviews 中的评价内容在 BigQuery ML 中生成文本嵌入。

如需查看受支持的模型和机器学习任务的列表,请参阅 BigQuery ML 文档

DataFrame 提示

  • project_id:dataset.table 中的数据创建 Pandas DataFrame。 分析数据中的 null 值,然后使用图表类型绘制每个列的分布图。对于测量值,请使用小提琴图;对于类别,请使用条形图。
  • 读取 filename.csv 并构建 DataFrame。对 DataFrame 运行分析,以确定需要对值执行哪些操作。 例如,是否存在需要替换或移除的缺失值,或者是否存在需要处理的重复行。使用此数据文件确定每个城市位置的投资金额(以美元为单位)分布情况。使用条形图绘制前 20 个结果的图表,该图表按降序显示结果,并以“位置”与“平均投资金额(美元)”为对比。
  • 使用 BigQuery DataFrames 在 project_id:dataset.table 上创建和评估分类模型。
  • 使用 BigQuery DataFrames 在 project_id:dataset.table 上创建时序预测模型,并直观呈现模型评估结果。
  • 使用 BigQuery DataFrames 直观呈现 BigQuery 表 project_id:dataset.table 中过去一年的销售额。
  • 使用 BigQuery DataFrames 找出最能根据表 bigquery-public_data.ml_datasets.penguins 预测企鹅物种的特征。

PySpark 提示

  • 使用 Managed Service for Apache Spark 在 project_id:dataset.table 上创建和评估分类模型。
  • 将相似的客户归为一组,以创建定位市场营销活动,但首先使用 PCA 模型进行降维。使用 PySpark 在表 project_id:dataset.table 上执行此操作。

支持的区域

如需查看 Colab Enterprise 的数据科学智能体支持的区域,请参阅位置

结算

在预览期间,您只需为在笔记本的运行时中运行代码付费。如需了解详情,请参阅 Colab Enterprise 价格

后续步骤