Guide de démarrage pour l'ingestion d'événements utilisateur

Cette page fournit des conseils et des bonnes pratiques générales pour l'ingestion d'événements utilisateur. Pour commencer, consultez les tutoriels.

Avant de commencer

Tutoriels

Ces tutoriels vous expliquent comment importer des événements utilisateur à partir de différentes sources.

Importer des événements à partir de Cloud Storage

Ce tutoriel explique comment importer des événements utilisateur à partir de Cloud Storage.


Pour obtenir des instructions détaillées sur cette tâche directement dans l' éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Importer des événements à partir de BigQuery

Ce tutoriel explique comment importer des événements utilisateur à partir de BigQuery.


Pour obtenir des instructions détaillées sur cette tâche directement dans l' éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Importer des événements de manière intégrée

Ce tutoriel explique comment importer des données d'événements utilisateur de manière intégrée.


Pour obtenir des instructions détaillées sur cette tâche directement dans l' éditeur Cloud Shell, cliquez sur Visite guidée :

Visite guidée


Le pipeline d'ingestion de données d'AI Commerce Search comprend à la fois le catalogue de produits et les données d'événements utilisateur. Ce flux de données constitue la base de l'entraînement du modèle et de l'évaluation continue grâce à des mécanismes de feedback. L'ingestion de données précises et complètes est un processus continu qui permet de maintenir l'adaptabilité des modèles sous-jacents, ce qui a une incidence directe sur la qualité et la pertinence des résultats de recherche.

Bonnes pratiques générales pour l'ingestion d'événements utilisateur

Tenez compte de ces bonnes pratiques d'ingestion de données lorsque vous concevez votre solution de recherche afin d'optimiser l'efficacité.

Ingérer des événements utilisateur dans AI Commerce Search

À l'image du processus d'ingestion de catalogue, AI Commerce Search propose deux mécanismes pour les données d'événements utilisateur. L'importation groupée et le streaming en temps réel offrent une flexibilité pour diverses architectures backend client. Contrairement au catalogue, où une approche hybride est possible, une stratégie d'ingestion dédiée est préférable pour les événements utilisateur. Parmi les deux options, le streaming en temps réel est la norme dans les implémentations pratiques.

Les deux options donnent des résultats comparables en termes d'entraînement de modèle, de mesure des KPI et d'optimisation des revenus, mais il existe des compromis subtils. Par exemple, l'importation groupée peut être plus efficace pour traiter des volumes de données historiques, tandis que le streaming est plus réactif aux utilisateurs.

Le choix dépend des exigences de votre environnement de vente au détail, par exemple :

  • La latence cible pour l'intégration des événements utilisateur dans l'entraînement de modèle.
  • Le volume d'événements générés.

Mettre à l'échelle l'ingestion d'événements utilisateur dans AI Commerce Search

Préparez-vous aux pics de trafic et assurez l'intégrité des données en planifiant de manière proactive les scénarios de scaling. Les événements spéciaux à fort trafic, comme les soldes du week-end, peuvent entraîner une augmentation de 10 à 20 fois de l'activité des utilisateurs. Il est essentiel de disposer de quotas suffisants et de la capacité de scaling de votre système d'ingestion pour gérer ces pics.

Ces événements se manifestent souvent par des pics de trafic soudains, et non par des augmentations progressives. Les événements manquants pendant ces périodes de pointe peuvent nuire à l'entraînement du modèle, dégrader les performances de recherche et fausser les mesures des KPI. Le débogage des problèmes peut être difficile, car les événements constituent la base du suivi des KPI et du dépannage général. La mise en œuvre d'alertes robustes peut vous informer de la détérioration de la qualité des données, qui est souvent une conséquence de données d'événements manquantes ou erronées.

En anticipant ces scénarios et en prenant des mesures, vous préservez la fiabilité et la précision de vos données d'événements utilisateur, même dans des conditions de charge extrêmes. Des données précises permettent à votre système AI Commerce Search d'offrir des performances optimisées, des analyses précises et une expérience centrée sur l'utilisateur pendant les pics de trafic.

Architecture de référence pour l'ingestion d'événements par lot

Architecture de référence pour l'ingestion d'événements par lot

L'ingestion par lot nécessite une architecture évolutive conçue pour l'ingestion efficace d'événements utilisateur dans AI Commerce Search. L'architecture est composée de Google Cloud services, y compris Pub/Sub, Dataflow, BigQuery, Workflows et Cloud Storage, pour gérer le processus d'ingestion de manière progressive et contrôlée.

Présentation de l'architecture

L'architecture d'ingestion d'événements par lot utilise une approche en plusieurs étapes pour garantir le transfert fiable et précis des données d'événements utilisateur dans AI Commerce Search.

Voici les principaux composants :

  • Pub/Sub : sert de point d'entrée initial pour les événements utilisateur, en fournissant un système de messagerie évolutif et durable.
  • Dataflow (événements de streaming) : lit en continu les événements utilisateur bruts à partir de Pub/Sub et les écrit dans des tables d'événements bruts BigQuery, tout en capturant les événements ayant échoué pour le débogage.
  • BigQuery : sert de solution d'entreposage de données principale, en stockant les événements bruts, les événements transformés et diverses métadonnées liées au processus d'ingestion.
  • Workflows : orchestre le traitement par lot toutes les heures des événements bruts, en garantissant l'intégrité des données et en facilitant la gestion des exceptions.
  • Cloud Storage : fournit un stockage temporaire pour Dataflow pendant le traitement et pour l'archivage des journaux d'événements ayant échoué.
  • AI Commerce Search : destination finale des données d'événements utilisateur, permettant des fonctionnalités avancées de recherche et de recommandation.

Flux de données pas à pas

Voici le flux de données pas à pas pour l'ingestion d'événements groupés.

  1. Streaming d'événements et persistance des données brutes :

    • Les événements utilisateur sont publiés dans des sujets Pub/Sub à partir du système source client.
    • Un pipeline de streaming Dataflow (événements de streaming) lit en continu les événements à partir de Pub/Sub.
    • Les événements bruts réussis sont écrits dans des tables d'événements bruts BigQuery.
    • Tous les échecs survenus lors de cette ingestion initiale sont capturés et stockés dans des tables d'échecs bruts BigQuery distinctes pour l'analyse et le dépannage.
  2. Traitement et transformation par lot toutes les heures :

    • Workflows déclenche un pipeline Dataflow planifié toutes les heures (Incr Batch Events).
    • Ce pipeline lit les événements bruts à partir des tables BigQuery.
    • Les événements sont transformés au format AI Commerce Search requis.
    • Les événements transformés sont écrits dans des tables d'événements organisées BigQuery.
    • Tous les échecs de transformation sont capturés dans des tables d'échecs d'événements organisées BigQuery.
  3. Validation et préparation des données :

    • Workflows exécute une procédure stockée BigQuery pour créer ou mettre à jour une vue (Incr Update Event View) qui reflète les dernières données d'événements transformées de la dernière heure.
    • Le workflow effectue ensuite une vérification de validation sur cette vue, en s'assurant que le nombre d'événements transformés se situe dans les seuils prédéfinis.
  4. Importation AI Commerce Search :

    • Si la validation réussit, Workflows appelle l'API d'événement d'importation AI Commerce Search, en la pointant vers la vue BigQuery contenant les événements transformés.
    • AI Commerce Search importe ensuite ces événements pour un traitement et une indexation plus poussés.

Autres considérations sur l'ingestion d'événements par lot

Voici d'autres aspects à prendre en compte lors de l'ingestion d'événements par lot :

  • Sécurité : des mesures de sécurité appropriées, telles que des contrôles d'accès et le chiffrement, doivent être mises en œuvre pour protéger les données d'événements utilisateur sensibles.
  • Surveillance et journalisation : une surveillance et une journalisation complètes doivent être configurées pour suivre les performances du système et identifier de manière proactive les problèmes potentiels.
  • Optimisation des coûts : l'utilisation des ressources doit être surveillée pour optimiser les coûts et garantir une utilisation efficace des Google Cloud services.

Cette architecture fournit une base pour l'ingestion d'événements utilisateur dans AI Commerce Search. En utilisant différents Google Cloud services et en intégrant les bonnes pratiques de traitement des données et de gestion des exceptions, elle permet aux organisations de créer des solutions évolutives et gérables pour des expériences avancées de recherche et de recommandation.

Étape suivante