表格資料入門:建立資料集及訓練 AutoML 分類模型

使用 Google Cloud 控制台建立表格型資料集,並訓練分類模型。

建立表格式資料集

  1. 在 Google Cloud 控制台的「Agent Platform」部分,前往「Datasets」頁面。

    前往「資料集」頁面

  2. 按一下按鈕列中的「建立」,建立新的資料集。

  3. 輸入 Structured_AutoML_Tutorial 做為資料集名稱,然後選取「表格」分頁標籤。

  4. 選取「迴歸/分類」目標。

    將「Region」(地區) 設為 us-central1

  5. 按一下「建立」即可建立資料集。

    在本教學課程中,您將使用在 Cloud Storage 託管的公開銀行資料集。

  6. 在「選取資料來源」部分,按一下「選取 Cloud Storage 中的 CSV 檔案」

  7. 在「Import file path」(匯入檔案路徑) 中輸入 cloud-ml-tables-data/bank-marketing.csv

  8. 按一下「繼續」

分析資料集

分析專區可讓您查看資料集的相關詳細資訊,例如缺少的值或 NULL 值。

本教學課程採用了格式正確的資料集,因此您不必在此頁面上進行任何操作,可直接略過本節。

  1. (選用) 按一下「Generate statistics」(產生統計資料),查看資料集中缺少的值或 NULL 值的數量。這項作業可能需要 10 分鐘以上才能完成。

  2. (選用) 點選其中一個特徵欄,即可進一步瞭解資料值。

訓練 AutoML 分類模型

  1. 按一下「訓練新模型」

  2. 選取「其他」

  3. 在「訓練方法」窗格中,確認「資料集」欄位已選取您先前建立的資料集。

  4. 在「目標」欄位中,選取「分類」

  5. 確認已選取 AutoML 訓練方法。

  6. 按一下「繼續」

  7. 在「模型詳細資料」窗格中,選取「存款」做為目標欄,然後按一下「繼續」

    目標欄就是運用訓練模型來預測的內容。在 bank-marketing.csv 資料集中,Deposit 欄會指出客戶是否購買定期存款 (2 = 是,1 = 否)。

    「訓練選項」窗格可讓您新增特徵及轉換資料欄資料。如未選取資料欄,則根據預設,所有非目標欄都會在訓練作業中當做特徵使用。這個資料集已可供使用,因此無須套用任何轉換。

  8. 按一下「繼續」

  9. 在「Compute and pricing」(運算和定價) 窗格中,輸入訓練預算 1

    訓練預算是模型訓練時間上限 (可能略有差異)。這個值會乘以每節點時數的價格,計算出訓練總費用。訓練時數越長,模型就越準確 (但有上限),費用也會越高。開發用途的預算較低即可,但如果是正式環境,請務必在成本和準確度之間取得平衡。

  10. 點選「開始訓練」

模型訓練完成後,模型分頁會顯示模型連結,並附上綠色勾號狀態圖示。

後續步驟

系統隨即會開始訓練模型,訓練作業可能需要一小時以上的時間才能完成。訓練完成後,您會收到電子郵件通知。模型訓練完成後,請按照本教學課程的下一頁操作,部署模型並要求預測。

本教學課程使用的是經過清理且採取 AutoML 訓練作業格式的資料集,但大多數資料都須經過處理才能使用。訓練資料的品質會影響所建模型的效力。如要進一步瞭解如何準備資料,請參閱這篇文章

取得及準備資料是確保機器學習模型正確無誤的關鍵。進一步瞭解最佳做法。

進一步瞭解如何建立表格資料集。

Gemini Enterprise Agent Platform 提供兩種模型訓練方法:AutoML 和自訂訓練。AutoML 讓機器學習經驗有限的使用者也能輕鬆訓練模型,自訂訓練則可讓您完全掌控各項訓練功能。進一步瞭解訓練方法。

Gemini Enterprise Agent Platform 會檢查來源資料類型和特徵值,並推論該模型會如何在模型訓練中使用該特徵。建議您檢查每個資料欄的資料類型,確認是否已正確解讀。如有需要,您可以為任何特徵指定其他支援的轉換。進一步瞭解轉換。

進一步瞭解如何訓練 AutoML 分類或迴歸模型。