Avant de pouvoir diffuser des caractéristiques en ligne à l'aide de Vertex AI Feature Store, vous devez configurer votre source de données de caractéristiques dans BigQuery comme suit:
Créez une table ou une vue BigQuery à l'aide de vos données de caractéristiques. Pour charger des données de caractéristiques dans une table ou une vue BigQuery, vous pouvez créer un ensemble de données BigQuery à l'aide de ces données, créer une table BigQuery, puis charger les données de caractéristiques à partir de l'ensemble de données dans la table.
Après avoir chargé les données de caractéristiques dans la table ou la vue BigQuery, vous devez rendre cette source de données disponible pour Vertex AI Feature Store pour la diffusion en ligne. Il existe deux manières de connecter la source de données à des ressources de diffusion en ligne, telles que les magasins en ligne et les instances de vue des caractéristiques:
Enregistrer la source de données en créant des groupes de caractéristiques et des caractéristiques:vous pouvez associer des groupes de caractéristiques et des caractéristiques à des instances de vue de caractéristiques dans votre magasin en ligne. Vous pouvez mettre en forme les données de l'une des manières suivantes:
Mettez en forme vos données en tant que séries temporelles en incluant une colonne de code temporel de caractéristiques. Feature Store Vertex AI ne diffuse que les dernières valeurs de caractéristiques pour chaque ID d'entité unique, en fonction de l'horodatage de la caractéristique dans cette colonne.
Mettez en forme les données sans inclure de colonnes de code temporel d'éléments géographiques. Vertex AI Feature Store gère les codes temporels et ne diffuse que les dernières valeurs de caractéristiques pour chaque ID d'entité unique.
Pour en savoir plus sur la création de groupes de caractéristiques, consultez la page Créer un groupe de caractéristiques. Pour en savoir plus sur la création de caractéristiques dans un groupe de caractéristiques, consultez la page Créer une caractéristique.
Diffuser directement les caractéristiques de la source de données sans créer de groupes de caractéristiques et de caractéristiques:vous pouvez spécifier l'URI de la source de données dans la vue des caractéristiques. Notez que dans ce scénario, vous ne pouvez pas mettre en forme vos données en tant que séries temporelles ni inclure de données historiques dans la source BigQuery. Chaque ligne doit contenir les dernières valeurs de caractéristiques correspondant à un ID unique. L'utilisation de plusieurs occurrences du même ID d'entité dans différentes lignes n'est pas acceptée.
Comme Vertex AI Feature Store vous permet de gérer les données de caractéristiques dans BigQuery et de les diffuser à partir de la source de données BigQuery, il n'est pas nécessaire d'importer ni de copier les caractéristiques dans un magasin hors connexion.
Consignes pour la préparation de la source de données
Suivez ces instructions pour comprendre le schéma et les contraintes lors de la préparation de la source de données dans BigQuery:
Incluez les colonnes suivantes dans la source de données:
Colonnes d'ID d'entité: la source de données doit comporter au moins une colonne d'ID d'entité avec des valeurs
string
ouint
. Le nom par défaut de cette colonne estentity_id
. Vous pouvez éventuellement utiliser un autre nom pour cette colonne. La taille de chaque valeur dans cette colonne doit être inférieure à 4 Ko.Notez que vous pouvez également désigner un enregistrement d'éléments géographiques en construisant l'ID d'entité à l'aide d'éléments de plusieurs colonnes. Dans ce scénario, vous pouvez inclure plusieurs colonnes d'ID d'entité dans la source de données. Le nom de chaque colonne d'ID d'entité doit être unique. Si vous enregistrez la source de données en créant des groupes de caractéristiques, définissez les colonnes d'ID d'entité pour chaque groupe de caractéristiques. Sinon, si vous associez directement la source de données à une vue d'éléments géographiques, configurez les vues d'éléments géographiques pour spécifier les colonnes d'ID d'entité.
Notez que vous pouvez inclure plusieurs colonnes d'ID dans une source de données. Dans ce cas, le nom de chaque colonne d'ID d'entité doit être unique. Vous pouvez configurer vos groupes d'éléments ou vos vues d'éléments pour créer l'ID d'entité à l'aide des valeurs de chaque colonne pour un enregistrement d'élément.
Colonne de code temporel des éléments géographiques: facultatif. Si vous enregistrez la source de données à l'aide de groupes de caractéristiques et de caractéristiques, et que vous devez mettre en forme les données en tant que séries temporelles, incluez une colonne d'horodatage de caractéristiques. La colonne d'horodatage contient des valeurs de type
timestamp
. Le nom par défaut de la colonne d'horodatage estfeature_timestamp
. Si vous souhaitez utiliser un autre nom de colonne, utilisez le paramètretime_series
pour définir la colonne d'horodatage du groupe d'éléments géographiques.Si vous ne spécifiez pas de colonne d'horodatage pour mettre en forme vos données en tant que série temporelle, Vertex AI Feature Store gère les codes temporels des caractéristiques et diffuse les dernières valeurs des caractéristiques.
Si vous associez directement une source de données BigQuery à une vue de caractéristiques, la colonne
feature_timestamp
n'est pas obligatoire. Dans ce scénario, vous devez inclure uniquement les dernières valeurs de caractéristiques dans la source de données, et Vertex AI Feature Store ne recherche pas l'horodatage.Colonnes d'intégration et de filtrage: facultatif. Si vous souhaitez utiliser la gestion des représentations vectorielles continues dans un magasin en ligne créé pour la diffusion en ligne optimisée, la source de données doit contenir les colonnes suivantes:
Une colonne
embedding
contenant des tableaux de typefloat
.Facultatif: une ou plusieurs colonnes de filtrage de type
string
ou tableaustring
.Facultatif: Colonne de regroupement de type
int
.
Chaque ligne de la source de données est un enregistrement complet des valeurs de caractéristiques associées à un ID d'entité. Si une valeur de caractéristique est manquante dans l'une des colonnes, elle est considérée comme une valeur nulle.
Chaque colonne de la table ou de la vue BigQuery représente une caractéristique. Indiquez les valeurs de chaque caractéristique dans une colonne distincte. Si vous associez la source de données à un groupe de caractéristiques et à des caractéristiques, associez chaque colonne à une caractéristique distincte.
Les types de données compatibles pour les valeurs de caractéristiques incluent
bool
,int
,float
,string
,timestamp
, des tableaux de ces types de données et des octets. Notez que lors de la synchronisation des données, les valeurs de caractéristiques de typetimestamp
sont converties enint64
.La source de données doit être située dans la même région que l'instance de magasin en ligne, ou dans un emplacement multirégional qui inclut ou chevauche la région du magasin en ligne. Par exemple, si le magasin en ligne se trouve dans
us-central
, la source BigQuery peut se trouver dansus-central
ouUS
.Synchronisez les données dans une vue de caractéristiques avant la diffusion en ligne pour vous assurer que vous ne diffusez que les dernières valeurs des caractéristiques. Si vous utilisez la synchronisation des données planifiée, vous devrez peut-être synchroniser manuellement les données dans la vue des caractéristiques. Toutefois, si vous utilisez la synchronisation de données continue avec la diffusion en ligne optimisée, vous n'avez pas besoin de synchroniser manuellement les données.
Étape suivante
Découvrez comment créer des groupes de caractéristiques et des caractéristiques.
Découvrez comment créer une vue de caractéristiques.
Obtenez des informations sur les types de diffusion en ligne dans Vertex AI Feature Store.