Datenquelle vorbereiten

Bevor Sie Funktionen mit Vertex AI Feature Store online bereitstellen können, müssen Sie die Feature-Datenquelle in BigQuery folgendermaßen einrichten:

  1. Erstellen Sie eine BigQuery-Tabelle oder -Ansicht mit Ihren Feature-Daten. Um Feature-Daten in eine BigQuery-Tabelle oder -Ansicht zu laden, können Sie ein BigQuery-Dataset mit den Daten erstellen, eine BigQuery-Dataset erstellen und dann die Feature-Daten aus dem Dataset in die Tabelle laden.

  2. Nachdem Sie die Feature-Daten in die BigQuery-Tabelle oder -Ansicht geladen haben, müssen Sie Vertex AI Feature Store diese Datenquelle für die Onlinebereitstellung zur Verfügung stellen. Es gibt zwei Möglichkeiten, die Datenquelle mit Onlinebereitstellungsressourcen zu verbinden, z. B. Onlinespeicher und Featureansicht-Instanzen:

    • Registrieren Sie die Datenquelle durch Erstellen von Feature-Gruppen und Features:Sie können Feature-Gruppen und Features mit Featureansicht-Instanzen in Ihrem Onlinespeicher verknüpfen. Sie können die Daten auf eine der folgenden Arten formatieren:

      • Formatieren Sie die Daten als Zeitreihe, indem Sie eine Spalte mit Feature-Zeitstempeln einfügen. Vertex AI Feature Store stellt nur die neuesten Featurewerte für jede eindeutige Entitäts-ID basierend auf dem Feature-Zeitstempel in dieser Spalte bereit.

      • Formatieren Sie die Daten, ohne eine Spalte mit Feature-Zeitstempeln einzufügen. Vertex AI Feature Store verwaltet die Zeitstempel und stellt nur die neuesten Featurewerte für jede eindeutige Entitäts-ID bereit.

      Weitere Informationen zum Erstellen von Featuregruppen finden Sie unter Featuregruppe erstellen. Weitere Informationen zum Erstellen von Features innerhalb einer Featuregruppe finden Sie unter Feature erstellen.

    • Features direkt aus der Datenquelle bereitstellen, ohne Feature-Gruppen und Features zu erstellen:Sie können den URI der Datenquelle in der Feature-Ansicht angeben. Beachten Sie, dass Sie die Daten in diesem Szenario nicht als Zeitreihe formatieren oder Verlaufsdaten in die BigQuery-Quelle aufnehmen können. Jede Zeile muss die neuesten Featurewerte, die einer eindeutigen ID entsprechen, enthalten. Mehrmaliges Vorkommen derselben Entitäts-ID in verschiedenen Zeilen wird nicht unterstützt.

Da Sie mit Vertex AI Feature Store Feature-Daten in BigQuery verwalten können und Features aus der BigQuery-Datenquelle bereitgestellt werden können, müssen die Features nicht in einen Offlinespeicher importiert oder kopiert werden.

Richtlinien für die Vorbereitung von Datenquellen

Befolgen Sie diese Richtlinien, um das Schema und die Einschränkungen bei der Vorbereitung der Datenquelle in BigQuery zu verstehen:

  1. Fügen Sie der Datenquelle die folgenden Spalten hinzu:

    • Spalten mit Entitäts-IDs: Die Datenquelle muss mindestens eine Spalte mit Entitäts-IDs mit string oder int-Werten haben. Der Standardname für diese Spalte ist entity_id. Optional können Sie einen anderen Namen für diese Spalte verwenden. Die Größe jedes Werts in dieser Spalte muss weniger als 4 KB betragen.

      Sie können einen Feature-Datensatz auch festlegen, indem Sie die Entitäts-ID aus Features aus mehreren Spalten erstellen. In diesem Szenario können Sie mehrere Spalten mit Entitäts-IDs in die Datenquelle aufnehmen. Der Name jeder Spalte mit Entitäts-IDs muss eindeutig sein. Wenn Sie die Datenquelle durch Erstellen von Featuregruppen registrieren, legen Sie die Spalten mit Entitäts-IDs für jede Featuregruppe fest. Wenn Sie die Datenquelle direkt mit einer Featureansicht verknüpfen, konfigurieren Sie die Featureansichten, um die Spalten mit Entitäts-IDs anzugeben.

      Sie können mehrere ID-Spalten in eine Datenquelle aufnehmen. In diesem Fall muss der Name jeder Spalte mit Entitäts-IDs eindeutig sein. Sie können Ihre Featuregruppen oder Featureansichten so konfigurieren, dass die Entitäts-ID mit den Werten aus jeder Spalte für einen Featuredatensatz erstellt wird.

    • Spalte mit Feature-Zeitstempeln: Optional. Wenn Sie die Datenquelle mit Featuregruppen und Features registrieren und die Daten als Zeitreihe formatieren müssen, fügen Sie eine Spalte mit Feature-Zeitstempeln hinzu. Die Zeitstempelspalte enthält Werte vom Typ timestamp. Der Standardname für die Zeitstempelspalte ist feature_timestamp. Wenn Sie einen anderen Spaltennamen verwenden möchten, legen Sie die Zeitstempelspalte für die Featuregruppe mit dem Parameter time_series fest.

      Wenn Sie keine Zeitstempelspalte angeben, um die Daten als Zeitreihe zu formatieren, verwaltet Vertex AI Feature Store die Zeitstempel für die Features und stellt die neuesten Featurewerte bereit.

      Wenn Sie eine BigQuery-Datenquelle direkt mit einer Featureansicht verknüpfen, ist die Spalte feature_timestamp nicht erforderlich. In diesem Szenario müssen Sie nur die neuesten Featurewerte in der Datenquelle aufnehmen und Vertex AI Feature Store ruft den Zeitstempel nicht ab.

    • Spalten für Einbettungen und Filterung: Optional. Wenn Sie die Verwaltung von Einbettungen in einem Onlinespeicher verwenden möchten, der für die optimierte Onlinebereitstellung (eingestellt) erstellt wurde, muss die Datenquelle die folgenden Spalten enthalten:

      • Eine Spalte embedding mit Arrays vom Typ float.

      • Optional: Eine oder mehrere Filterspalten vom Typ string oder string-Array.

      • Optional: Eine Crowding-Spalte vom Typ int.

  2. Jede Zeile in der Datenquelle enthält einen vollständigen Datensatz der Feature-Werte, die mit einer Entitäts-ID verknüpft sind. Wenn in einer der Spalten ein Featurewert fehlt, wird er als Nullwert betrachtet.

  3. Jede Spalte der BigQuery-Tabelle oder -Ansicht stellt ein Feature dar. Geben Sie die Werte für jedes Feature in einer separaten Spalte an. Wenn Sie die Datenquelle mit einer Featuregruppe und Features verknüpfen, verknüpfen Sie jede Spalte mit einem separaten Feature.

  4. Zu den unterstützten Datentypen für die Featurewerte gehören bool, int, float, string, timestamp, Arrays dieser Datentypen und Byte. Beachten Sie, dass während der Datensynchronisierung Featurewerte vom Typ timestamp in int64 konvertiert werden.

  5. Die Datenquelle muss sich in derselben Region wie die Online-Instanz oder in einer Multi-Region befinden, die die Region für den Onlinespeicher enthält oder sich damit überschneidet. Wenn sich der Onlinespeicher beispielsweise in us-central befindet, kann sich die BigQuery-Quelle in us-central oder US befinden.

  6. Synchronisieren Sie die Daten in einer Feature-Ansicht vor der Onlinebereitstellung, um sicherzustellen, dass Sie nur die neuesten Featurewerte bereitstellen. Wenn Sie die geplante Datensynchronisierung verwenden, müssen Sie die Daten in der Featureansicht möglicherweise manuell synchronisieren in der Featureansicht. Wenn Sie jedoch die kontinuierliche Datensynchronisierung mit der optimierten Onlinebereitstellung verwenden, müssen Sie die Daten nicht manuell synchronisieren.

Nächste Schritte