ユーザー イベントの取り込みスタートガイド

このページでは、ユーザー イベントの取り込みに関するガイダンスと一般的なベスト プラクティスについて説明します。チュートリアルをご覧になって、使ってみましょう。

始める前に

チュートリアル

これらのチュートリアルでは、さまざまなソースからユーザー イベントをインポートする方法について説明します。

Cloud Storage からイベントをインポートする

このチュートリアルでは、Cloud Storage からユーザー イベントをインポートする方法を説明します。


このタスクを Cloud Shell エディタで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


BigQuery からイベントをインポートする

このチュートリアルでは、BigQuery からユーザー イベントをインポートする方法を説明します。


このタスクを Cloud Shell エディタで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


イベントをインラインでインポートする

このチュートリアルでは、ユーザー イベント データをインラインでインポートする方法について説明します。


このタスクを Cloud Shell エディタで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


AI Commerce Search のデータ取り込みパイプラインには、商品カタログとユーザー イベントデータの両方が含まれます。このデータ ストリームは、フィードバック メカニズムによるモデルのトレーニングと継続評価の基盤となります。正確で完全なデータの取り込みは、基盤となるモデルの適応性を維持するための継続的なプロセスであり、検索結果の品質と関連性に直接影響します。

ユーザー イベントの取り込みに関する一般的なベスト プラクティス

検索ソリューションを設計する際は、次のデータの取り込みのベスト プラクティスを考慮して、効率と有効性を最大限に高めます。

AI Commerce Search でユーザー イベントを取り込む

カタログ取り込みプロセスと同様に、AI Commerce Search ではユーザー イベント データに 2 つのメカニズムが用意されています。一括インポートとリアルタイム ストリーミングにより、さまざまなお客様のバックエンド アーキテクチャに対応できます。ただし、カタログではハイブリッド アプローチが実現可能ですが、ユーザー イベントでは専用の取り込み戦略が適しています。2 つのオプションのうち、実用的な実装ではリアルタイム ストリーミングが標準です。

どちらもモデルのトレーニング、KPI の測定、収益の最適化で同等の結果が得られますが、微妙なトレードオフが存在します。たとえば、過去の大量のデータを処理する場合は一括インポートの方が効率的ですが、ストリーミングの方がユーザーに対する応答性が高くなります。

選択は、次のような小売環境の要件によって異なります。

  • ユーザー イベントをモデルのトレーニングに組み込む際のレイテンシの目標。
  • 生成されるイベントの量。

AI Commerce Search でユーザー イベントの取り込みをスケーリングする

スケーリング シナリオを事前に計画することで、トラフィックの急増に備え、データの完全性を確保します。週末セールなどのトラフィックの多い特別なイベントでは、ユーザー アクティビティが 10 ~ 20 倍に急増することがあります。このような急増に対応するには、十分な割り当てと取り込みシステムのスケーラビリティが不可欠です。

こうしたイベントは、多くの場合、トラフィックの急増として現れ、徐々に増加することはありません。ピーク時のイベントが欠落すると、モデルのトレーニングが妨げられ、検索パフォーマンスが低下し、KPI の測定値が歪む可能性があります。イベントは KPI のトラッキングと一般的なトラブルシューティングの基礎となるため、問題のデバッグは難しい場合があります。堅牢なアラートを実装すると、データ品質の低下を通知できます。これは、イベントデータの欠落や誤りが原因で発生することがよくあります。

このようなシナリオを想定して対策を講じることで、極端な負荷条件下でもユーザー イベントデータの信頼性と精度を維持できます。正確なデータは、AI Commerce Search システムがトラフィックのピーク時に最適化されたパフォーマンス、正確な分析、ユーザー中心のエクスペリエンスを実現するための基盤となります。

バッチイベント取り込みのリファレンス アーキテクチャ

バッチイベント取り込みのリファレンス アーキテクチャ

バッチ取り込みには、ユーザー イベントを AI Commerce Search に効率的に取り込むように設計されたスケーラブルなアーキテクチャが必要です。このアーキテクチャは、Pub/Sub、Dataflow、BigQuery、Workflows、Cloud Storage などの Google Cloud サービスで構成されており、取り込みプロセスを段階的かつ制御された方法で管理します。

アーキテクチャの概要

バッチ イベント取り込みアーキテクチャでは、ユーザー イベントデータを AI Commerce Search に確実に正確に転送するために、マルチステージ アプローチを採用しています。

主なコンポーネントは次のとおりです。

  • Pub/Sub: ユーザー イベントの最初のエントリ ポイントとして機能し、スケーラブルで耐久性のあるメッセージング システムを提供します。
  • Dataflow(ストリーミング イベント): Pub/Sub から未加工のユーザー イベントを継続的に読み取り、BigQuery の未加工イベント テーブルに書き込みます。また、デバッグ用に失敗したイベントもキャプチャします。
  • BigQuery: 主要なデータ ウェアハウス ソリューションとして機能し、未加工のイベント、変換されたイベント、取り込みプロセスに関連するさまざまなメタデータを保存します。
  • ワークフロー: 生イベントの 1 時間ごとのバッチ処理をオーケストレートし、データの完全性を確保してエラー処理を容易にします。
  • Cloud Storage: 処理中の Dataflow と、失敗したイベントログのアーカイブ用に一時ストレージを提供します。
  • AI Commerce Search: ユーザー イベントデータの最終的な宛先。高度な検索機能とレコメンデーション機能を有効にします。

データフローの詳細

これは、一括イベントの取り込みのステップごとのデータフローです。

  1. イベント ストリーミングと元データの永続性:

    • ユーザー イベントは、顧客のソースシステムから Pub/Sub トピックにパブリッシュされます。
    • Dataflow ストリーミング パイプライン(ストリーミング イベント)は、Pub/Sub からイベントを継続的に読み取ります。
    • 成功した未加工のイベントは、BigQuery の未加工のイベント テーブルに書き込まれます。
    • この初期取り込み中に発生した障害は、分析とトラブルシューティングのために、個別の BigQuery 生失敗テーブルにキャプチャされて保存されます。
  2. 1 時間ごとのバッチ処理と変換:

    • Workflows は、1 時間ごとにスケジュールされた Dataflow パイプライン(Incr Batch Events)をトリガーします。
    • このパイプラインは、BigQuery テーブルから未加工のイベントを読み取ります。
    • イベントは、必要な AI Commerce Search 形式に変換されます。
    • 変換されたイベントは、BigQuery のキュレートされたイベント テーブルに書き込まれます。
    • 変換の失敗は、BigQuery のキュレートされた失敗イベント テーブルにキャプチャされます。
  3. データの検証と準備:

    • ワークフローは BigQuery ストアド プロシージャを実行して、過去 1 時間の最新の変換済みイベント データを反映するビュー(増分更新イベント ビュー)を作成または更新します。
    • ワークフローは、このビューに対して検証チェックを実行し、変換されたイベントの数が事前定義されたしきい値内に収まっていることを確認します。
  4. AI Commerce Search のインポート:

    • 検証に成功すると、Workflows は AI Commerce Search インポート イベント API を呼び出し、変換されたイベントを含む BigQuery ビューを指定します。
    • AI Commerce Search は、これらのイベントをインポートして、さらなる処理とインデックス登録を行います。

バッチイベントの取り込みに関するその他の考慮事項

バッチイベントを取り込む際に考慮すべき追加の側面は次のとおりです。

  • セキュリティ: 機密性の高いユーザー イベント データを保護するために、アクセス制御や暗号化などの適切なセキュリティ対策を実装する必要があります。
  • モニタリングとロギング: システムのパフォーマンスを追跡し、潜在的な問題を未然に特定するために、包括的なモニタリングとロギングを設定する必要があります。
  • 費用の最適化: 費用を最適化し、 Google Cloud サービスを効率的に使用するために、リソース使用率をモニタリングする必要があります。

このアーキテクチャは、ユーザー イベントを AI Commerce Search に取り込むための基盤となります。さまざまな Google Cloud サービスを使用し、データ処理とエラー処理のベスト プラクティスを取り入れることで、組織は高度な検索とレコメンデーション エクスペリエンスを実現するスケーラブルで保守可能なソリューションを構築できます。

次のステップ