使用数据科学代理

本指南介绍了如何使用 Colab Enterprise 中的数据科学代理来帮助您在笔记本中执行数据科学任务。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

本文档适用于使用 Colab Enterprise 的数据分析师、数据科学家和数据开发者。本文假定您了解如何在笔记本环境中编写代码。

数据科学代理的功能

数据科学代理可帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预报。您可以使用数据科学代理执行以下操作:

  • 生成方案:生成并修改方案,以完成特定任务。
  • 数据探索:探索数据集,了解其结构,识别缺失值和离群值等潜在问题,并检查关键变量的分布。
  • 数据清理:清理数据。例如,移除离群数据点。
  • 数据整理:使用独热编码或标签编码等技术,将类别特征转换为数值表示法。 创建新的分析功能。
  • 数据分析:分析不同变量之间的关系。 计算数值特征之间的相关性,并探索分类特征的分布。寻找数据中的模式和趋势。
  • 数据可视化:创建直方图、箱线图、散点图和条形图等可视化图表,以表示各个变量的分布情况以及它们之间的关系。
  • 特征工程:从清理的数据集中设计新特征。
  • 数据拆分:将工程化数据集拆分为训练数据集、验证数据集和测试数据集。
  • 模型训练:使用训练数据训练模型。
  • 模型优化:使用验证集优化模型。 探索 DecisionTreeRegressorRandomForestRegressor 等替代模型,并比较它们的性能。
  • 模型评估:在测试数据集上评估性能最佳的模型。

限制

  • Data Science Agent 支持以下数据源:
    • CSV 文件
    • BigQuery 表
  • Data Science Agent 生成的代码仅在笔记本的运行时中运行。
  • 您的笔记本必须位于数据科学代理支持的区域中。请参阅地理位置
  • 如果项目已启用 VPC Service Controls,则不支持数据科学代理。
  • 首次运行数据科学代理时,您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。
  • 使用 @mention 函数搜索 BigQuery 表仅限于您当前的项目。使用表选择器跨项目进行搜索。
  • @mention 函数仅搜索 BigQuery 表。 如需搜索可上传的数据文件,请使用 + 符号。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. 所需的角色

    如需获得在 Colab Enterprise 中使用 Data Science Agent 所需的权限,请让您的管理员为您授予项目的 Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    引用您的数据

    如需让 Colab Enterprise 的数据科学代理访问并处理您的数据,您可以上传 CSV 文件或引用 BigQuery 表。

    CSV 文件

    1. 在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。

      前往我的笔记本

    2. 区域菜单中,选择包含笔记本的区域。

    3. 点击您要打开的笔记本。

    4. 点击  在 Colab 中切换 Gemini 按钮,以打开聊天对话框。

    5. 在聊天对话框中,依次点击 添加文件 > 上传
    6. 如有必要,请向您的 Google 账号授权。

      等待片刻,让 Colab Enterprise 启动运行时并启用文件浏览功能。

    7. 浏览到相应文件的位置,然后点击打开
    8. 点击确定,确认此运行时的文件将在运行时被删除时一并删除。

      文件会上传到文件窗格,并显示在聊天窗口中。

    BigQuery 表

    1. 在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。

      前往我的笔记本

    2. 区域菜单中,选择包含笔记本的区域。

    3. 点击您要打开的笔记本。

    4. 点击  在 Colab 中切换 Gemini 按钮,以打开聊天对话框。

    5. 如需引用数据,请执行以下任一操作:

      • 使用表选择器选择一个或多个表:

        1. 依次点击 添加到 Gemini > BigQuery 表
        2. BigQuery 表窗口中,选择项目中的一个或多个表。您可以在各个项目中搜索表,并使用搜索栏过滤表。
      • 直接在提示中添加 BigQuery 表名称。例如:“帮我对这个表中的数据进行探索性数据分析,并获取分析洞见:PROJECT_ID:DATASET.TABLE。”

        替换以下内容:

        • PROJECT_ID:您的项目 ID。
        • DATASET:包含要分析的表的数据集的名称。
        • TABLE:您要分析的表的名称。
      • 输入 @ 以在当前项目中搜索 BigQuery 表。

    使用数据科学代理

    如需开始使用 Colab Enterprise 的数据科学代理,请执行以下操作:

    1. Gemini 对话框中,输入提示,然后点击  发送。 如需获取提示方面的灵感,请查看数据科学代理的功能并参阅提示示例

      例如,您可以输入“分析我上传的数据”。

    2. Gemini 会针对您的提示给出回答。回答可以包括要运行的代码段、有关项目的常规建议、实现目标的后续步骤,或有关数据或代码中特定问题的信息。

      评估回答后,您可以执行以下操作:

      • 如果 Gemini 在回答中提供代码,您可以点击:
        • 点击接受,将代码添加到笔记本中。
        • 点击接受并运行,将代码添加到笔记本并运行代码。
        • 点按取消可删除建议的代码。
      • 根据需要提出后续问题并继续讨论。
    3. 如需关闭 Gemini 对话框,请点击  关闭

    停用 Gemini in Colab Enterprise

    如需针对某个 Google Cloud 项目停用 Colab Enterprise 中的 Gemini,管理员必须停用 Gemini for Google Cloud API。请参阅停用服务

    如需为特定用户停用 Colab Enterprise 中的 Gemini,管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user) 角色。请参阅撤消单个 IAM 角色

    示例提示

    以下示例展示了您可以在数据科学代理中使用的提示类型。

    • 使用 k-最近邻 (KNN) 机器学习算法查找并填充缺失值。
    • 创建按经验水平列出的薪资图表。使用 experience_level 列对薪资进行分组,并为每个组创建一个箱形图,以显示 salary_in_usd 列中的值。
    • 使用 XGBoost 算法创建一个模型,用于确定特定水果的 class 变量。将数据拆分为训练数据集和测试数据集,以生成模型,然后评估模型的准确性。 创建混淆矩阵以显示每个类别的预测,包括所有正确和错误的预测。
    • 为我的数据创建 pandas DataFrame。分析数据中的 null 值,然后直观呈现每个列的分布情况,其中对于测量值使用小提琴图,对于类别使用条形图。
    • 读取数据集的 CSV 文件并构建 DataFrame,对 DataFrame 运行分析以确定需要对值执行哪些操作(替换或移除缺失值、移除重复行),并确定每个城市位置的投资金额(以美元为单位)的分布情况。以条形图的形式直观呈现结果,按降序显示“位置”与“平均投资金额(美元)”的对比,且仅显示前 20 个结果。
    • 根据 filename.csv 预测未来六个月的 target_variable
    • 基于 filename.csv 构建和评估 target_variable 的分类模型。

    支持的区域

    如需查看 Colab Enterprise 的数据科学代理支持的区域,请参阅位置

    结算

    在预览期间,您只需为在笔记本的运行时中运行代码付费。如需了解详情,请参阅 Colab Enterprise 价格

    后续步骤