使用 Google Cloud 控制台建立表格型資料集,並訓練分類模型。
建立表格式資料集
在 Google Cloud 控制台的「Agent Platform」部分,前往「Datasets」頁面。
按一下按鈕列中的「建立」,建立新的資料集。
輸入
Structured_AutoML_Tutorial做為資料集名稱,然後選取「表格」分頁標籤。選取「迴歸/分類」目標。
將「Region」(地區) 設為 us-central1。
按一下「建立」即可建立資料集。
在本教學課程中,您將使用在 Cloud Storage 託管的公開銀行資料集。
在「選取資料來源」部分,按一下「選取 Cloud Storage 中的 CSV 檔案」
在「Import file path」(匯入檔案路徑) 中輸入
cloud-ml-tables-data/bank-marketing.csv按一下「繼續」。
分析資料集
分析專區可讓您查看資料集的相關詳細資訊,例如缺少的值或 NULL 值。
本教學課程採用了格式正確的資料集,因此您不必在此頁面上進行任何操作,可直接略過本節。
(選用) 按一下「Generate statistics」(產生統計資料),查看資料集中缺少的值或 NULL 值的數量。這項作業可能需要 10 分鐘以上才能完成。
(選用) 點選其中一個特徵欄,即可進一步瞭解資料值。
訓練 AutoML 分類模型
按一下「訓練新模型」。
選取「其他」。
在「訓練方法」窗格中,確認「資料集」欄位已選取您先前建立的資料集。
在「目標」欄位中,選取「分類」。
確認已選取 AutoML 訓練方法。
按一下「繼續」。
在「模型詳細資料」窗格中,選取「存款」做為目標欄,然後按一下「繼續」。
目標欄就是運用訓練模型來預測的內容。在
bank-marketing.csv資料集中,Deposit欄會指出客戶是否購買定期存款 (2 = 是,1 = 否)。「訓練選項」窗格可讓您新增特徵及轉換資料欄資料。如未選取資料欄,則根據預設,所有非目標欄都會在訓練作業中當做特徵使用。這個資料集已可供使用,因此無須套用任何轉換。
按一下「繼續」。
在「Compute and pricing」(運算和定價) 窗格中,輸入訓練預算
1。訓練預算是模型訓練時間上限 (可能略有差異)。這個值會乘以每節點時數的價格,計算出訓練總費用。訓練時數越長,模型就越準確 (但有上限),費用也會越高。開發用途的預算較低即可,但如果是正式環境,請務必在成本和準確度之間取得平衡。
點選「開始訓練」。
模型訓練完成後,模型分頁會顯示模型連結,並附上綠色勾號狀態圖示。
後續步驟
系統隨即會開始訓練模型,訓練作業可能需要一小時以上的時間才能完成。訓練完成後,您會收到電子郵件通知。模型訓練完成後,請按照本教學課程的下一頁操作,部署模型並要求預測。
本教學課程使用的是經過清理且採取 AutoML 訓練作業格式的資料集,但大多數資料都須經過處理才能使用。訓練資料的品質會影響所建模型的效力。如要進一步瞭解如何準備資料,請參閱這篇文章。
取得及準備資料是確保機器學習模型正確無誤的關鍵。進一步瞭解最佳做法。
進一步瞭解如何建立表格資料集。
Gemini Enterprise Agent Platform 提供兩種模型訓練方法:AutoML 和自訂訓練。AutoML 讓機器學習經驗有限的使用者也能輕鬆訓練模型,自訂訓練則可讓您完全掌控各項訓練功能。進一步瞭解訓練方法。
Gemini Enterprise Agent Platform 會檢查來源資料類型和特徵值,並推論該模型會如何在模型訓練中使用該特徵。建議您檢查每個資料欄的資料類型,確認是否已正確解讀。如有需要,您可以為任何特徵指定其他支援的轉換。進一步瞭解轉換。
進一步瞭解如何訓練 AutoML 分類或迴歸模型。