Guide de démarrage pour l'ingestion d'événements utilisateur

Cette page fournit des conseils et des bonnes pratiques générales pour ingérer des événements utilisateur. Pour commencer, consultez les tutoriels.

Avant de commencer

Tutoriels

Ces tutoriels vous expliquent comment importer des événements utilisateur depuis différentes sources.

Importer des événements à partir de Cloud Storage

Ce tutoriel explique comment importer des événements utilisateur depuis Cloud Storage.


Pour obtenir des instructions détaillées sur cette tâche directement dans l'éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Importer des événements depuis BigQuery

Ce tutoriel explique comment importer des événements utilisateur depuis BigQuery.


Pour obtenir des instructions détaillées sur cette tâche directement dans l'éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Importer des événements de manière intégrée

Ce tutoriel explique comment importer des données d'événements utilisateur de manière intégrée.


Pour obtenir des instructions détaillées sur cette tâche directement dans l'éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Le pipeline d'ingestion de données de Vertex AI Search for Commerce englobe à la fois le catalogue de produits et les données d'événements utilisateur. Ce flux de données constitue la base de l'entraînement des modèles et de l'évaluation continue grâce à des mécanismes de commentaires. L'ingestion de données précises et complètes est un processus continu qui permet de maintenir l'adaptabilité des modèles sous-jacents. Elle a un impact direct sur la qualité et la pertinence des résultats de recherche.

Bonnes pratiques générales pour l'ingestion d'événements utilisateur

Lorsque vous concevez votre solution de recherche, tenez compte de ces bonnes pratiques d'ingestion de données pour maximiser l'efficacité.

Ingérer des événements utilisateur dans Vertex AI Search pour le commerce

Comme pour l'ingestion de catalogue, Vertex AI Search pour le commerce propose deux mécanismes pour les données d'événements utilisateur. L'importation groupée et le streaming en temps réel offrent une flexibilité pour diverses architectures de backend client. Contrairement au catalogue, pour lequel une approche hybride est possible, une stratégie d'ingestion dédiée est préférable pour les événements utilisateur. Parmi les deux options, le streaming en temps réel est la norme dans les implémentations pratiques.

Les deux approches donnent des résultats comparables en termes d'entraînement du modèle, de mesure des KPI et d'optimisation des revenus, mais il existe de subtils compromis. Par exemple, l'importation groupée peut être plus efficace pour traiter des volumes de données historiques, tandis que le streaming est plus réactif aux utilisateurs.

Le choix dépend des exigences de votre environnement de vente au détail, par exemple :

  • Latence cible pour l'intégration des événements utilisateur dans l'entraînement du modèle.
  • Volume d'événements générés.

Mettre à l'échelle l'ingestion d'événements utilisateur dans Vertex AI Search pour le commerce

Préparez-vous aux pics de trafic et assurez l'intégrité des données en planifiant de manière proactive les scénarios de scaling. Les événements spéciaux à fort trafic, comme les soldes du week-end, peuvent entraîner une augmentation de l'activité des utilisateurs de 10 à 20 fois. Il est essentiel de disposer de quotas suffisants et d'un système d'ingestion évolutif pour gérer ces pics.

Ces événements se manifestent souvent par des pics de trafic soudains, et non par des augmentations progressives. L'absence d'événements pendant ces périodes de pointe peut nuire à l'entraînement du modèle, dégrader les performances de recherche et fausser les mesures des KPI. Le débogage peut être difficile, car les événements constituent la base du suivi des KPI et du dépannage général. La mise en place d'alertes robustes peut vous avertir d'une détérioration de la qualité des données, qui est souvent la conséquence de données d'événement manquantes ou erronées.

En anticipant ces scénarios et en prenant des mesures, vous préservez la fiabilité et l'exactitude de vos données d'événements utilisateur, même dans des conditions de charge extrêmes. Des données précises permettent à votre système Vertex AI Search for Commerce d'offrir des performances optimisées, des analyses précises et une expérience axée sur l'utilisateur lors des pics de trafic.

Architecture de référence pour l'ingestion d'événements par lot

Architecture de référence pour l'ingestion d'événements par lot

L'ingestion par lot nécessite une architecture évolutive conçue pour ingérer efficacement les événements utilisateur dans Vertex AI Search for Commerce. L'architecture est composée de Google Cloud services, y compris Pub/Sub, Dataflow, BigQuery, Workflows et Cloud Storage, pour gérer le processus d'ingestion de manière progressive et contrôlée.

Présentation de l'architecture

L'architecture d'ingestion d'événements par lot utilise une approche en plusieurs étapes pour assurer le transfert fiable et précis des données d'événements utilisateur dans Vertex AI Search for Commerce.

Voici les principaux composants :

  • Pub/Sub : sert de point d'entrée initial pour les événements utilisateur, en fournissant un système de messagerie évolutif et durable.
  • Dataflow (événements de flux) : lit en continu les événements utilisateur bruts à partir de Pub/Sub et les écrit dans les tables d'événements bruts BigQuery. Il capture également les événements ayant échoué pour le débogage.
  • BigQuery : sert de principale solution d'entreposage de données. Il stocke les événements bruts, les événements transformés et diverses métadonnées liées au processus d'ingestion.
  • Workflows : orchestre le traitement par lot horaire des événements bruts, en assurant l'intégrité des données et en facilitant la gestion des exceptions.
  • Cloud Storage : fournit un espace de stockage temporaire pour Dataflow pendant le traitement et pour l'archivage des journaux d'événements ayant échoué.
  • Vertex AI Search pour le commerce : destination finale des données d'événements utilisateur, qui permet des fonctionnalités avancées de recherche et de recommandation.

Flux de données détaillé

Voici le flux de données détaillé pour l'ingestion d'événements groupés.

  1. Streaming d'événements et persistance des données brutes :

    • Les événements utilisateur sont publiés dans des sujets Pub/Sub à partir du système source client.
    • Un pipeline de traitement de flux Dataflow (événements de flux) lit en continu les événements depuis Pub/Sub.
    • Les événements bruts réussis sont écrits dans les tables d'événements bruts BigQuery.
    • Tous les échecs survenus lors de cette ingestion initiale sont enregistrés et stockés dans des tables BigQuery brutes distinctes pour analyse et dépannage.
  2. Traitement et transformation par lot toutes les heures :

    • Les workflows déclenchent un pipeline Dataflow planifié toutes les heures (Incr Batch Events).
    • Ce pipeline lit les événements bruts à partir des tables BigQuery.
    • Les événements sont transformés au format requis par Vertex AI Search pour le commerce.
    • Les événements transformés sont écrits dans des tables d'événements BigQuery organisées.
    • Tous les échecs de transformation sont enregistrés dans les tables d'événements ayant échoué organisées dans BigQuery.
  3. Validation et préparation des données :

    • Workflows exécute une procédure stockée BigQuery pour créer ou mettre à jour une vue (vue "Incr Update Event") qui reflète les dernières données d'événement transformées de la dernière heure.
    • Le workflow effectue ensuite une vérification de la validation sur cette vue, en s'assurant que le nombre d'événements transformés se situe dans les seuils prédéfinis.
  4. Importation Vertex AI Search pour le commerce :

    • Si la validation réussit, Workflows appelle l'API d'événement d'importation Vertex AI Search pour le commerce, en la pointant vers la vue BigQuery contenant les événements transformés.
    • Vertex AI Search for commerce importe ensuite ces événements pour les traiter et les indexer.

Autres points à prendre en compte pour l'ingestion d'événements par lot

Voici d'autres aspects à prendre en compte lors de l'ingestion d'événements par lot :

  • Sécurité : des mesures de sécurité appropriées, telles que des contrôles d'accès et le chiffrement, doivent être mises en œuvre pour protéger les données sensibles sur les événements utilisateur.
  • Surveillance et journalisation : une surveillance et une journalisation complètes doivent être configurées pour suivre les performances du système et identifier les problèmes potentiels de manière proactive.
  • Optimisation des coûts : l'utilisation des ressources doit être surveillée pour optimiser les coûts et garantir une utilisation efficace des services Google Cloud .

Cette architecture fournit une base pour ingérer les événements utilisateur dans Vertex AI Search for Commerce. En utilisant différents services Google Cloud et en intégrant les bonnes pratiques pour le traitement des données et la gestion des exceptions, il permet aux entreprises de créer des solutions évolutives et faciles à gérer pour des expériences de recherche et de recommandation avancées.

Étapes suivantes