訓練 AI 和機器學習模型

瞭解如何在 Visual Studio Code 適用的 Google Cloud Data Agent Kit 擴充功能中,訓練 AI 和機器學習模型。

在本快速入門導覽課程中,您會使用工作階段範本和範例 Jupyter 筆記本,預測紐約市計程車的小費金額。您可以使用 PySpark 搭配遠端 Jupyter 核心,試用各種模型,例如線性迴歸、隨機森林和 XGBoost。這個程序可讓您執行分散式訓練和推論。本範例會使用 Spark ML 和 XGBoost 程式庫,示範如何跨多部機器進行擴充。

雖然本快速入門指南未涵蓋,但您可以使用 Visual Studio Code 適用的 Google Cloud Data Agent Kit 擴充功能,透過多種方式訓練 AI 和機器學習模型:

  • 如果訓練資料集很大,或是您想使用 Apache Spark 提供的分散式訓練功能,可以搭配遠端核心使用 Spark 筆記本。
  • 如果資料集位於 BigQuery 中,且 BigQuery ML 支援您的用途,您可以使用 BigQuery DataFrames 筆記本。
  • 如果資料集很小,且您想在本機訓練模型,可以使用 Python 筆記本。

建立 Spark 執行階段範本

您可以使用 Serverless Spark 執行階段範本,以特定設定啟動 Apache Spark 工作階段。如要建立新的無伺服器執行階段範本,請完成下列步驟:

  1. 在 IDE 活動列中,按一下「Google Cloud Data Agent Kit」圖示。
  2. 在 Google Cloud Data Agent Kit 選單中,展開「Apache Spark」
  3. 展開「無伺服器」,然後按一下「+ 建立無伺服器執行階段」。系統會顯示無伺服器執行階段建立表單。
  4. 在「Display name」(顯示名稱) 欄位輸入 ai-ml-tutorial
  5. 前往「Auto Scaling」部分。
  6. 在下拉式清單中將 spark.dynamicAllocation.enabled 設為 false。XGBoost 必須使用這項設定才能與 Apache Spark 搭配運作。
  7. 其他欄位則全部保留預設值。
  8. 按一下「提交」

建立新的筆記本

接著,建立新的 Spark 筆記本:

  1. 在 Google Cloud Data Agent Kit 分頁的「Apache Spark」下方,按一下「+ New Spark Notebook」(+ 新增 Spark 筆記本)
  2. 選擇「Remote Kernel」(遠端核心) 做為核心類型。
  3. 按一下「Start with a sample notebook」(從範例筆記本開始)
  4. 在範例清單中,選取「Data Science with PySpark and Distributed XGBoost」(使用 PySpark 和分散式 XGBoost 進行資料科學)。系統會顯示未命名的 Jupyter 筆記本。

訓練模型

  1. 在筆記本分頁中,按一下「全部執行」。核心挑選器會要求您選取要用來執行筆記本的核心。
  2. 按一下「選取其他核心」
  3. 按一下「Remote Spark Kernels」
  4. 選取您稍早建立的執行階段範本「ai-ml-tutorial on Serverless Spark」

系統建立無伺服器型 Spark 工作階段時,您會看到以下通知:Connecting to kernel: ai-ml-tutorial on Serverless Spark。筆記本連線至遠端 PySpark 核心後,就會從第一個儲存格開始執行。整個過程大約需要兩到三分鐘。

檢查 Spark 工作階段

  1. 在「Google Cloud Data Agent Kit」分頁的「Apache Spark」下方,展開 ai-ml-tutorial 執行階段範本。IDE 會顯示您使用這個執行階段範本建立的互動工作階段清單。
  2. 在清單頂端找出系統執行筆記本時建立的工作階段。按一下工作階段即可查看詳細資料。您可以查看工作階段設定,以及系統執行筆記本時耗用的資源。

清除所用資源

成功執行筆記本後,請執行下列清除步驟。

  1. 在 Google Cloud Data Agent Kit 分頁的 Apache Spark 下方,按一下滑鼠右鍵選取「Serverless」,然後選取「List Serverless Runtimes」。系統會顯示無伺服器執行階段清單。
  2. 按一下 ai-ml-tutorial 的「動作」選單,即可列出系統從範本建立的所有互動式工作階段。
  3. 按一下「動作」下方的「刪除」
  4. 返回「Serverless Runtimes」(無伺服器執行階段) 視窗。
  5. ai-ml-tutorial 的「動作」下方,按一下「刪除」
  6. 按一下「確認」,刪除您為本教學課程建立的範本。

後續步驟