使用 Google Cloud 控制台建立表格資料集,並訓練分類模型。
建立表格式資料集
在 Google Cloud 控制台的 Vertex AI 專區中,前往「Datasets」頁面。
按一下按鈕列中的「建立」,建立新的資料集。
輸入資料集名稱
Structured_AutoML_Tutorial,然後選取「Tabular」分頁。選取「迴歸/分類」目標。
將「Region」(地區) 設為 us-central1。
按一下「建立」即可建立資料集。
在本教學課程中,您將使用在 Cloud Storage 託管的公開銀行資料集。
針對「選取資料來源」,請按一下「選取 Cloud Storage 中的 CSV 檔案」
在「Import file path」(匯入檔案路徑) 中輸入
cloud-ml-tables-data/bank-marketing.csv按一下「繼續」。
分析資料集
分析專區可讓您查看資料集的相關詳細資訊,例如缺少的值或 NULL 值。
本教學課程採用了格式正確的資料集,因此您不必在此頁面上進行任何操作,可略過本節。
(選用) 按一下「Generate statistics」(產生統計資料),查看資料集中缺少的值或 NULL 值的數量。這項作業可能需要 10 分鐘以上才能完成。
(選用) 點選其中一個特徵欄,即可進一步瞭解資料值。
訓練 AutoML 分類模型
按一下「訓練新模型」。
選取「其他」。
在「Training method」窗格中,確認「Dataset」欄位已選取先前建立的資料集。
在「Objective」欄位中,選取「Classification」。
確認已選取 AutoML 訓練方法。
按一下「繼續」。
在「模型詳細資料」窗格中,選取目標欄的「Deposit」,然後按一下「Continue」。
目標欄就是運用訓練模型來預測的內容。對於
bank-marketing.csv資料集,Deposit欄會顯示客戶是否購買定期存款 (2 = 是,1 = 否)。「Training options」窗格可讓您新增特徵及轉換資料欄資料。如未選取資料欄,則根據預設,所有非目標欄都會在訓練作業中當做特徵使用。這個資料集已可供使用,因此無須套用任何轉換。
按一下「繼續」。
在「運算和定價」窗格中,輸入訓練預算的
1。訓練預算是模型訓練所需的最大時間 (可能會略有差異)。系統會將這個值乘以每節點小時價格,藉此計算總訓練費用。訓練時間越長,模型準確度就會越高 (但有上限),但費用也會隨之增加。開發目的的預算可以低一點,但在正式版中,務必在成本和準確度之間取得平衡。
點選「開始訓練」。
模型訓練完成後,系統會在模型分頁中以即時連結的形式顯示模型,並附上綠色勾號狀態圖示。
後續步驟
系統隨即會開始訓練模型,訓練作業可能需要一小時以上的時間才能完成。訓練完成後,您會收到電子郵件通知。模型訓練完成後,請按照本教學課程的下一頁操作,部署模型並要求預測。
本教學課程使用的是經過清理且採取 AutoML 訓練作業格式的資料集,但大多數資料都須經過處理才能使用。訓練資料的品質會影響所建模型的成效。進一步瞭解如何準備資料。
取得及準備資料是確保機器學習模型正確無誤的關鍵。進一步瞭解最佳做法。
進一步瞭解如何建立表格資料集。
Vertex AI 提供兩種模型訓練方法:AutoML 和自訂訓練。AutoML 讓機器學習經驗有限的使用者也能輕鬆訓練模型,自訂訓練則可讓您完全掌控各項訓練功能。進一步瞭解訓練方法。
Vertex AI 會檢查來源資料類型和特徵值,並推論該模型會如何在模型訓練中使用該特徵。建議您檢查每個資料欄的資料類型,確認是否已正確解釋。如有需要,您可以為任何特徵指定不同的支援轉換。進一步瞭解轉換。
進一步瞭解如何訓練分類或迴歸 AutoML。