在機器學習 (ML) 中,特徵是執行個體或實體的特徵屬性,可用於訓練模型或進行線上預測。特徵是透過特徵工程技術,將原始機器學習資料轉換為可評估及共用的屬性而產生,一般稱為特徵轉換。
特徵管理是指建立、維護、共用及提供儲存在集中式位置或存放區的機器學習特徵。特徵管理功能可讓您更輕鬆地重複使用特徵來訓練及重新訓練模型,縮短 AI 和機器學習部署的生命週期。
產品或服務若包含特徵管理服務,可儲存、探索、共用及提供機器學習特徵,則稱為特徵儲存庫。Vertex AI 整合了下列特徵儲存庫服務:
本頁面將介紹並比較這兩項功能管理服務,並提供功能總覽。本文也會說明如何將 Vertex AI 特徵儲存庫 (舊版) 中的現有特徵儲存庫遷移至新版 Vertex AI 特徵儲存庫。
Vertex AI 特徵儲存庫
Vertex AI 特徵儲存庫提供特徵管理的新方法,可讓您從 BigQuery 資料來源維護及提供特徵資料。在這個方法中,Vertex AI 特徵儲存庫會做為中繼資料層,為 BigQuery 中的特徵資料來源提供線上服務功能,讓您根據該資料線上提供特徵。您不需要將資料複製或匯入 Vertex AI 的獨立離線商店。
Vertex AI 特徵儲存庫與 Dataplex Universal Catalog 整合,可追蹤特徵中繼資料。此外,這項服務也支援嵌入項目,可讓您執行向量相似度搜尋,找出最鄰近的項目。
Vertex AI 特徵儲存庫經過最佳化,可提供超低延遲的服務,並支援下列功能:
在 BigQuery 中儲存及維護離線特徵資料,並善用 BigQuery 的資料管理功能。
將特徵新增至特徵登錄檔,即可分享及重複使用特徵。
使用 Bigtable 線上供應服務,以低延遲時間提供線上預測所需的特徵,或使用最佳化線上供應服務,以極低延遲時間提供特徵。
將嵌入項目儲存在特徵資料中,並使用最佳化線上服務執行向量相似度搜尋。
在 Dataplex Universal Catalog 中追蹤特徵中繼資料。
如要進一步瞭解 Vertex AI 特徵儲存庫,請參閱 Vertex AI 特徵儲存庫說明文件。
Vertex AI 特徵儲存庫 (舊版)
Vertex AI 特徵儲存庫 (舊版) 提供集中式存放區,可儲存、整理及提供機器學習特徵資料。這項服務會佈建資源階層,在 Vertex AI 中封裝線上商店和離線商店。線上商店會提供最新的特徵值,用於線上預測。離線儲存庫會儲存及維護特徵資料 (包括歷來資料),您可批次提供這些資料來訓練機器學習模型。
Vertex AI 特徵儲存庫 (舊版) 是功能齊全的特徵管理服務,可讓您執行下列操作:
從資料來源 (例如 Cloud Storage 值區或 BigQuery 來源),將特徵資料批次或串流匯入離線商店。
在線上提供特徵以進行預測。
批次提供或匯出特徵,用於訓練或分析機器學習模型。
在
EntityType和Featurestore資源上設定 Identity and Access Management (IAM) 政策。透過 Google Cloud 控制台管理特徵儲存庫資源。
Vertex AI 特徵儲存庫 (舊版) 不包含嵌入管理或向量擷取功能。如要管理特徵資料中的嵌入或執行向量相似度搜尋,請考慮改用 Vertex AI 特徵儲存庫。如要瞭解如何遷移至 Vertex AI 特徵儲存庫,請參閱「遷移至 Vertex AI 特徵儲存庫」。
如要進一步瞭解 Vertex AI 特徵儲存庫 (舊版),請參閱 Vertex AI 特徵儲存庫 (舊版) 說明文件。
比較 Vertex AI 特徵儲存庫和 Vertex AI 特徵儲存庫 (舊版)
下表比較了 Vertex AI 特徵儲存庫 (舊版) 和新版 Vertex AI 特徵儲存庫的各個方面:
| 類別 | Vertex AI 特徵儲存庫 | Vertex AI 特徵儲存庫 (舊版) |
|---|---|---|
| 資料模型 | ||
| 資源階層 (線上和線下商店) | 網路商店中的資源階層結構如下:FeatureOnlineStore -> FeatureView
|
資源階層如下:Featurestore -> EntityType -> Feature
|
| 資源階層 (功能登錄) | 功能登錄檔中的資源階層如下:FeatureGroup -> Feature
|
Vertex AI 特徵儲存庫 (舊版) 沒有特徵登錄。 |
| 功能管理 | ||
| 線上和實體商店 | 您需要建立線上商店例項,並定義功能檢視畫面。 Vertex AI 特徵儲存庫不需要獨立的離線儲存庫,因為 BigQuery 資料來源就是離線儲存庫。 |
您佈建特徵儲存庫時,Vertex AI 特徵儲存庫 (舊版) 會建立個別的線上和離線儲存庫。 |
| 匯入特徵 | 由於資料位於 BigQuery 中,因此您不需要將資料匯入離線商店,可以直接用於離線需求。如果是線上服務用途,您可以註冊 BigQuery 資料表,或將檢視表當做特徵檢視表,將特徵資料複製到線上商店。資料同步處理期間,Vertex AI 特徵儲存庫會重新整理線上儲存庫中的資料。 | 您需要從外部來源 (例如 BigQuery 資料表或 BigQuery 檢視區塊) 批次或串流匯入資料,將特徵資料匯入離線和線上商店。 |
| 線上和線下商店之間的資料移動 | Vertex AI 特徵儲存庫會使用 BigQuery 做為離線儲存庫,並只將最新的特徵值複製到線上儲存庫。Vertex AI 不會另外佈建離線商店。 | 特徵值會複製到離線儲存空間,然後再複製到線上儲存空間。 |
| 提供特徵 | ||
| 離線放送 | 如要與離線商店互動,必須使用 BigQuery API。基礎功能相同, | 如要與離線商店互動,您必須使用 Vertex AI API,因為離線商店是由 Vertex AI 特徵儲存庫 (舊版) 管理。這類互動的例子包括時間點查詢和匯出功能。 |
| 線上提供 |
Vertex AI 特徵儲存庫提供兩種線上服務:
每個線上讀取要求都會擷取特徵檢視區塊中的所有預設特徵,不需要額外處理,因此延遲時間較短。 |
Vertex AI 特徵儲存庫 (舊版) 只提供一種線上服務。您可以指定要擷取特徵資料的實體和特徵。 |
| 介面和 API | ||
| Google Cloud console 功能 | 使用 Google Cloud 控制台建立及管理資源,例如線上商店執行個體、特徵檢視畫面執行個體、特徵群組和特徵。你也可以查看線上商店清單和功能沿革資訊。 | 您可以使用 Google Cloud 控制台執行大部分的功能管理工作,包括監控資源建立作業。 |
| 資源建立 API | 包括用於建立 FeatureOnlineStore、FeatureView、FeatureGroup 和 Feature 資源的 API。您可以使用這些資源設定特徵登錄和線上商店。離線商店則使用 BigQuery。 |
包括用於線上和線下商店的 Featurestore、EntityType 和 Feature 資源建立 API。 |
| 批次匯入 API (離線商店) | 不需要使用 API 將批次資料匯入離線商店,因為不需要另外將批次資料匯入離線商店。 | 使用 Vertex AI API 將資料批次匯入離線商店。 |
| 批次匯入 API (網路商店) | 在資料同步期間,定期將資料從 BigQuery 複製到網路商店。 | 使用 Vertex AI API 將資料批次匯入線上商店。 |
| 串流匯入 API (離線商店) | 不需要 API 即可將串流匯入離線商店,因為不需要另外將串流匯入離線商店。 | 使用 Vertex AI 將資料串流匯入離線商店。 |
| 串流匯入 API (線上商店) | 不支援串流匯入。 | 使用 Vertex AI API 將資料串流匯入線上商店。 |
| 批次服務 API | 使用 BigQuery API,直接從特徵檢視區塊中定義的 BigQuery 資料來源批次提供資料。 | 使用 Vertex AI API 批次提供特徵資料。 |
| 線上服務 API | 使用 FetchFeatureValues(FetchFeatureValuesRequest) API。 |
使用 ReadFeatureValues(ReadFeatureValuesRequest) API 進行線上服務。 |
遷移至 Vertex AI 特徵儲存庫
Vertex AI 特徵儲存庫 (舊版) 資源和特徵資料無法在 Vertex AI 特徵儲存庫中直接使用。如果您是 Vertex AI 特徵儲存庫 (舊版) 的現有使用者,且想將專案遷移至 Vertex AI 特徵儲存庫,請按照下列步驟操作。請注意,Vertex AI 特徵儲存庫的資源階層與 Vertex AI 特徵儲存庫 (舊版) 的資源階層不同,因此遷移特徵資料後,您需要手動建立資源。
如果 BigQuery 中沒有特徵資料,請將特徵資料匯出至 BigQuery,然後建立 BigQuery 資料表和檢視區塊。匯出及準備資料時,請遵循「資料準備指南」。例如:
每個特徵對應一個資料欄。實體 ID 可以是獨立的資料欄,您可將其識別為
ID欄。Vertex AI 特徵儲存庫沒有
EntityType和Entity資源。在與實體 ID 對應的資料列中,提供每個實體的特徵值。
根據特徵資料建立線上儲存庫和特徵檢視執行個體,設定線上提供機制。