準備資料來源

如要使用 Vertex AI 特徵儲存庫開始線上提供特徵,您必須先在 BigQuery 中設定特徵資料來源,步驟如下:

  1. 使用特徵資料建立 BigQuery 資料表或檢視區塊。如要將特徵資料載入 BigQuery 資料表或檢視區塊,請使用資料建立 BigQuery 資料集、建立 BigQuery 資料表,然後將特徵資料從資料集載入資料表。

  2. 將特徵資料載入 BigQuery 資料表或檢視區塊後,您需要讓 Vertex AI 特徵儲存庫可存取這個資料來源,以進行線上提供。您可以透過兩種方式將資料來源連結至線上提供資源,例如網路商店和特徵檢視區塊執行個體:

    • 建立特徵群組和特徵,藉此註冊資料來源: 您可以將特徵群組和特徵與網路商店中的特徵檢視畫面執行個體建立關聯。您可以透過下列任一方式設定資料格式:

      • 加入特徵時間戳記欄,將資料格式設為時間序列。Vertex AI 特徵儲存庫只會根據這個資料欄中的特徵時間戳記,提供每個不重複實體 ID 的最新特徵值。

      • 設定資料格式,但不包含特徵時間戳記欄。 Vertex AI 特徵儲存庫會管理時間戳記,並只提供每個不重複實體 ID 的最新特徵值。

      如要瞭解如何建立特徵群組,請參閱「建立特徵群組」。如要瞭解如何在特徵群組中建立特徵,請參閱建立特徵

    • 直接從資料來源提供特徵,不必建立特徵群組和特徵: 您可以在特徵檢視畫面中指定資料來源的 URI。 請注意,在這種情況下,您無法將資料格式設為時間序列,也無法在 BigQuery 來源中納入歷來資料。每列都必須包含與不重複 ID 相對應的最新特徵值。不支援在不同資料列中多次出現相同實體 ID。

由於 Vertex AI 特徵儲存庫可讓您在 BigQuery 中維護特徵資料,並從 BigQuery 資料來源提供特徵,因此不必將特徵匯入或複製到離線商店。

資料來源準備指南

請按照下列規範瞭解結構定義和限制,以便在 BigQuery 中準備資料來源:

  1. 在資料來源中加入下列資料欄:

    • 實體 ID 資料欄:資料來源必須至少有一個包含 stringint 值的實體 ID 資料欄。這個資料欄的預設名稱為 entity_id,你也可以選擇使用其他名稱。這個資料欄中每個值的大小必須小於 4 KB。

      請注意,您也可以使用多個資料欄的特徵建構實體 ID,藉此指定特徵記錄。在這種情況下,您可以在資料來源中加入多個實體 ID 資料欄,但每個實體 ID 資料欄的名稱必須不重複。如果您是透過建立特徵群組來註冊資料來源,請為每個特徵群組設定實體 ID 資料欄。否則,如果您直接將資料來源與特徵檢視畫面建立關聯,請設定特徵檢視畫面,指定實體 ID 資料欄。

      請注意,您可以在資料來源中加入多個 ID 資料欄。在這種情況下,每個實體 ID 資料欄的名稱都必須不重複。您可以設定特徵群組或特徵檢視,使用特徵記錄中每個資料欄的值建構實體 ID。

    • 特徵時間戳記資料欄:選用。如果您使用特徵群組和特徵註冊資料來源,且需要將資料格式設為時間序列,請加入特徵時間戳記資料欄。時間戳記資料欄包含 timestamp 類型的值。時間戳記資料欄的預設名稱為 feature_timestamp。如要使用其他資料欄名稱,請使用 time_series 參數為特徵群組設定時間戳記資料欄。

      如果未指定時間戳記資料欄,將資料格式設為時間序列,Vertex AI 特徵儲存庫會管理特徵的時間戳記,並提供最新的特徵值。

      如果直接將 BigQuery 資料來源與特徵檢視區塊建立關聯,則不需要 feature_timestamp 資料欄。在這種情況下,資料來源中只能包含最新的特徵值,Vertex AI 特徵儲存庫不會查詢時間戳記。

    • 嵌入及篩選資料欄:選用。如要在為最佳化線上提供 (已淘汰) 建立的網路商店中使用嵌入管理功能,資料來源必須包含下列資料欄:

      • 包含 float 類型陣列的 embedding 資料欄。

      • 選用:一或多個 stringstring 陣列類型的篩選資料欄。

      • 選填:int 類型的擁擠程度資料欄。

  2. 資料來源中的每個資料列,都是與實體 ID 相關聯的完整特徵值記錄。如果其中一個資料欄缺少特徵值,則視為空值。

  3. BigQuery 資料表或檢視表的每個資料欄都代表一項特徵。在不同的資料欄中提供每個特徵的值。如果將資料來源與特徵群組和特徵建立關聯,請將每個資料欄與個別特徵建立關聯。

  4. 特徵值支援的資料類型包括 boolintfloatstringtimestamp、這些資料類型的陣列,以及位元組。請注意,在資料同步期間,timestamp 類型的特徵值會轉換為 int64

  5. 資料來源必須與網路商店執行個體位於相同區域,或位於包含/重疊網路商店區域的多區域。舉例來說,如果網路商店位於 us-central,BigQuery 來源可能位於 us-centralUS

  6. 在線上提供前同步處理特徵檢視區塊中的資料,確保只提供最新的特徵值。如果使用排定的資料同步處理作業,可能需要手動同步處理特徵檢視區塊中的資料。不過,如果使用持續資料同步處理作業搭配最佳化線上提供功能,就不需要手動同步處理資料。

後續步驟