Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用資料科學代理

本指南說明如何使用 Colab Enterprise 中的資料科學代理，輔助您在筆記本中執行資料科學相關工作。

瞭解 Gemini for Google Cloud 如何使用您的資料。

本文件適用於使用 Colab Enterprise 的資料分析師、資料科學家和資料開發人員。本文假設您已瞭解如何在筆記本環境中編寫程式碼。

資料科學代理的功能

資料科學代理可協助您處理各種工作，包括探索性資料分析，以及生成機器學習預測和預報。資料科學代理可執行下列工作：

大規模資料處理：使用 BigQuery ML、BigQuery DataFrames 或 Managed Service for Apache Spark，對大型資料集執行分散式資料處理作業。這樣您就能有效率地清除、轉換及分析資料，即使資料量過大，單一機器的記憶體也裝不下，也能輕鬆處理。
生成計畫：生成及修改計畫，使用 Python、SQL、Apache Spark 和 BigQuery DataFrames 等常見工具完成特定工作。
資料探索：探索資料集以瞭解其結構、找出潛在問題 (例如遺漏值和離群值)，並檢查重要變數的分布情形。
資料清理：清理資料。舉例來說，您可以移除離群值資料點。
資料整理：使用 one-hot 編碼或標籤編碼等技術，將類別特徵轉換為數值表示法。建立新的分析功能。
資料分析：分析不同變數之間的關係。計算數值特徵之間的關聯性，並探索類別特徵的分布情形。找出資料中的模式和趨勢。
資料視覺化：建立直方圖、箱形圖、散布圖和長條圖等視覺化內容，呈現個別變數的分布情形和變數之間的關係。
特徵工程：從經過清理的資料集設計新特徵。
資料分割：將經過工程處理的資料集分割為訓練、驗證和測試資料集。
模型訓練：使用 pandas DataFrame、BigQuery DataFrames、PySpark DataFrame 中的訓練資料訓練模型，或使用 BigQuery ML CREATE MODEL 陳述式搭配 BigQuery 表格。
模型最佳化：使用驗證集將模型最佳化。探索 DecisionTreeRegressor 和 RandomForestRegressor 等替代模型，並比較其效能。
模型評估：使用 pandas DataFrame、BigQuery DataFrames 或 PySpark DataFrame，評估測試資料集的模型效能。您也可以使用 BigQuery ML 模型評估函式，評估模型品質並比較模型，這些模型是使用 BigQuery ML 訓練而成。
模型推論：使用 BigQuery ML 推論函式，對 BigQuery ML 訓練的模型、匯入的模型和遠端模型執行推論作業。您也可以使用 BigQuery DataFrames model.predict() 方法或 PySpark transformers 進行預測。

限制

資料科學代理支援下列資料來源：
- CSV 檔案
- BigQuery 資料表
資料科學代理產生的程式碼只會在筆記本的執行階段中執行。
筆記本必須位於資料科學代理支援的區域。請參閱「地點」。
首次執行資料科學代理時，可能會出現約五到十分鐘的延遲。每個專案在初始設定期間只會發生一次。
使用 @mention 函式搜尋 BigQuery 資料表時，只能搜尋目前專案。使用資料表選取器在專案中搜尋。
@mention 函式只會搜尋 BigQuery 資料表。如要搜尋可上傳的資料檔案，請使用 + 符號。
資料科學代理的 PySpark 只會生成 Apache Spark 4.0 程式碼。資料科學代理可協助您升級至 Apache Spark 4.0，但如果需要較早版本的 Apache Spark，請勿使用資料科學代理。

事前準備

登入 Google Cloud 帳戶。如果您是 Google Cloud新手，歡迎建立帳戶，親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額，可用於執行、測試及部署工作負載。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

必要的角色

如要在 Colab Enterprise 中使用資料科學代理，請要求系統管理員授予您專案的「Colab Enterprise 使用者」 (roles/aiplatform.colabEnterpriseUser) IAM 角色。如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色，取得必要權限。

一或多個必要角色包含 dataform.repositories.list 權限。在專案中獲授 dataform.repositories.list 權限或「程式碼建立者」(roles/dataform.codeCreator) 角色的使用者，可以使用 Dataform API 或 Dataform 指令列介面 (CLI)，列出該專案中的程式碼資產名稱。使用 BigQuery Studio 的非管理員只能查看自己建立或與自己共用的程式碼資產。

參考資料

如要讓 Colab Enterprise 的資料科學代理存取及處理資料，您可以上傳 CSV 檔案或參照 BigQuery 資料表。

CSV 檔案

前往 Google Cloud 控制台的 Colab Enterprise「我的筆記本」頁面。

前往「我的筆記本」
在「Region」(區域) 選單中，選取包含筆記本的區域。
按一下要開啟的筆記本。
按一下「開啟/關閉 Gemini in Colab」按鈕，開啟對話方塊。

注意：按一下「移至面板」按鈕，即可將即時通訊對話方塊移至筆記本外的獨立面板。
在即時通訊對話方塊中，依序點選「新增檔案」>「上傳」。
視需要授權 Google 帳戶。

請稍候片刻，Colab Enterprise 會啟動執行階段並啟用檔案瀏覽功能。
瀏覽至檔案所在位置，然後按一下「開啟」。
按一下「確定」，確認刪除執行階段時，系統會一併刪除其檔案。

檔案會上傳至「檔案」窗格，並顯示在聊天視窗中。

BigQuery 資料表

前往 Google Cloud 控制台的 Colab Enterprise「我的筆記本」頁面。

前往「我的筆記本」
在「Region」(區域) 選單中，選取包含筆記本的區域。
按一下要開啟的筆記本。
按一下「開啟/關閉 Gemini in Colab」按鈕，開啟對話方塊。

注意：按一下「移至面板」按鈕，即可將即時通訊對話方塊移至筆記本外的獨立面板。
如要參照資料，請執行下列其中一項操作：
- 使用表格選取器選擇一或多個表格：
  1. 依序點選「新增至 Gemini」> 「BigQuery 資料表」。
  2. 在「BigQuery tables」(BigQuery 資料表) 視窗中，選取專案中的一或多個資料表。您可以搜尋專案中的表格，並使用搜尋列篩選表格。
- 直接在提示中加入 BigQuery 資料表名稱。例如：「請協助我對這個表格中的資料執行探索性資料分析，並取得相關洞察：PROJECT_ID:DATASET.TABLE。」
  
  更改下列內容：
  - PROJECT_ID：您的專案 ID。
  - DATASET：含有您要分析資料表的資料集名稱。
  - TABLE：您要分析的資料表名稱。
- 輸入 @，在目前專案中搜尋 BigQuery 資料表。
- 在提示中，使用自然語言描述要使用的資料表，資料科學代理會參照最符合描述的資料表。

使用資料科學代理

如要開始使用 Colab Enterprise 的資料科學代理，請按照下列步驟操作：

在「Gemini」對話方塊中輸入提示，然後點按「傳送」圖示。如需提示構想，請參閱「資料科學代理功能」和「提示範例」。

舉例來說，你可以輸入「分析我上傳的資料」。

如果尚未授權資料科學代理，Colab Enterprise 會在驗證 Google 帳戶與資料科學代理時，顯示簡短的對話方塊。
Gemini 會根據提示回覆。回覆內容可能包括可執行的程式碼片段、專案的一般建議、達成目標的後續步驟，或是資料/程式碼中的特定問題資訊。

評估回覆內容後，您可以執行下列操作：
- 如果 Gemini 在回覆中提供程式碼，您可以按一下：
  - 按一下「接受」，將程式碼新增至筆記本。
  - 接受並執行，將程式碼新增至筆記本並執行。
  - 輕觸「取消」即可刪除建議的程式碼。
- 視需要提出後續問題，繼續討論。
如要關閉「Gemini」對話方塊，請按一下「關閉」。

停用 Gemini in Colab Enterprise

如要為 Google Cloud 專案停用 Gemini in Colab Enterprise，管理員必須停用 Gemini for Google Cloud API。請參閱「停用服務」。

如要為特定使用者停用 Gemini in Colab Enterprise，管理員必須撤銷該名使用者的「Gemini for Google Cloud 使用者」 (roles/cloudaicompanion.user) 角色。詳情請參閱撤銷單一 IAM 角色。

提示範例

以下各節提供可搭配資料科學代理程式使用的提示類型範例。

Python 提示

除非在提示中使用特定關鍵字 (例如「BigQuery ML」或「SQL」)，否則系統預設會生成 Python 程式碼。

使用 K 近鄰 (KNN) 機器學習演算法，調查並填補遺漏值。
根據經驗程度繪製薪資圖。使用 experience_level 欄分組薪資，並為每個群組建立盒鬚圖，顯示 salary_in_usd 欄中的值。
使用 XGBoost 演算法建立模型，判斷特定水果的 class 變數。將資料分成訓練和測試資料集，以生成模型並判斷模型的準確度。建立混淆矩陣，顯示每個類別的預測結果，包括所有正確和不正確的預測。
預測 target_variable filename.csv 接下來六個月的狀況。

SQL 和 BigQuery ML 提示

使用 BigQuery SQL，在 bigquery-public-data.ml_datasets.census_adult_income 上建立及評估分類模型。
使用 SQL，根據 bigquery-public-data.google_analytics_sample.ga_sessions_* 預測我網站下個月的流量。然後繪製過往記錄和預測值。
使用 KMeans 模型和 BigQuery ML SQL 函式，將類似的顧客歸為一組，以便建立目標市場廣告活動。使用三項特徵進行分群。接著建立一系列 2D 散佈圖，以視覺化呈現結果。使用表格 bigquery-public-data.ml_datasets.census_adult_income。
使用 bigquery-public-data.imdb.reviews 中的評論內容，在 BigQuery ML 中生成文字嵌入。

如需支援的模型和機器學習工作清單，請參閱 BigQuery ML 說明文件。

DataFrame 提示

針對 project_id:dataset.table 中的資料建立 pandas DataFrame。分析資料中的空值，然後使用圖表類型繪製每個資料欄的分布情形。測量值用小提琴圖呈現，類別則用長條圖。
讀取 filename.csv 並建構 DataFrame。對 DataFrame 執行分析，判斷如何處理值。舉例來說，是否有需要替換或移除的遺漏值，或是需要處理的重複資料列。使用資料檔案，判斷每個城市地點的美元投資金額分布。使用長條圖繪製前 20 項結果，並以「地點」與「平均投資金額 (美元)」的降序顯示結果。
使用 BigQuery DataFrames，在 project_id:dataset.table 上建立及評估分類模型。
使用 BigQuery DataFrame 建立時間序列預測模型，並以視覺化方式呈現模型評估結果。project_id:dataset.table
使用 BigQuery DataFrames，以圖表呈現 BigQuery 資料表 project_id:dataset.table 中過去一年的銷售數據。
使用 BigQuery DataFrames，從 bigquery-public_data.ml_datasets.penguins 資料表找出最能預測企鵝物種的特徵。

PySpark 提示

在 project_id:dataset.table 上使用 Managed Service for Apache Spark 建立及評估分類模型。
將類似的顧客分組，建立指定目標市場廣告活動，但請先使用 PCA 模型進行降維。請使用 PySpark 在資料表 project_id:dataset.table 上執行這項操作。

支援的地區

如要查看 Colab Enterprise 資料科學代理支援的區域，請參閱「位置」一文。

帳單

資料科學代理的價格是根據輸入和輸出資料計算而得。詳情請參閱 BigQuery 定價頁面的 Agent 定價。

VPC Service Controls

資料科學代理支援 VPC Service Controls。如要在 service perimeter 內使用資料科學代理，請參閱「搭配 Colab Enterprise 使用 VPC Service Controls」。

後續步驟

如要進一步瞭解如何搭配 BigQuery 使用資料科學代理，請參閱「搭配 BigQuery 使用 Colab Enterprise 資料科學代理」。
閱讀「Gemini for Google Cloud總覽」。
如要進一步瞭解如何使用 Gemini 輔助功能撰寫及編輯程式碼，請參閱下列文章：
瞭解 Gemini for Google Cloud 如何使用您的資料。