Beitragsanalyse – Übersicht

In diesem Dokument werden der Anwendungsfall für die Beitragsanalyse und die Optionen für die Durchführung von Beitragsanalysen in BigQuery ML beschrieben.

Was ist eine Beitragsanalyse?

Die Beitragsanalyse, auch als Analyse der wichtigsten Treiber bezeichnet, ist eine Methode, mit der Sie Informationen zu Änderungen an wichtigen Messwerten in Ihren mehrdimensionalen Daten gewinnen können. Mithilfe der Beitragsanalyse können Sie beispielsweise sehen, welche Daten zu einer Änderung der Umsatzzahlen über zwei Quartale hinweg beigetragen haben, oder zwei Trainingsdatensätze vergleichen, um Änderungen an der Leistung eines ML-Modells zu verstehen.

Die Beitragsanalyse ist eine Form der erweiterten Analyse, bei der künstliche Intelligenz (KI) eingesetzt wird, um die Analyse und Auswertung von Daten zu verbessern und zu automatisieren. Mit der Beitragsanalyse wird eines der Hauptziele der erweiterten Analysen erreicht: Nutzern dabei zu helfen, Muster in ihren Daten zu finden.

Beitragsanalyse mit BigQuery ML

Wenn Sie die Beitragsanalyse in BigQuery ML verwenden möchten, erstellen Sie ein Beitragsanalysemodell mit der CREATE MODEL-Anweisung.

Mit einem Modell für die Beitragsanalyse werden Datensegmente erkannt, die Änderungen bei einem bestimmten Messwert aufweisen. Dazu wird ein Testdatensatz mit einem Kontrolldatensatz verglichen. Sie können beispielsweise einen Tabellen-Snapshot von Verkaufsdaten von Ende 2023 als Testdaten und einen Tabellen-Snapshot von Ende 2022 als Kontrolldaten verwenden und vergleichen, um zu sehen, wie sich Ihre Verkäufe im Laufe der Zeit verändert haben. Ein Modell für die Beitragserhebung kann Ihnen zeigen, welches Datensegment, z. B. Onlinekunden in einer bestimmten Region, die größte Umsatzänderung im Jahresvergleich verursacht hat.

Ein Messwert ist der numerische Wert, mit dem in Modellen zur Beitragsanalyse die Änderungen zwischen den Test- und Kontrolldaten gemessen und verglichen werden. Sie können die folgenden Messwerttypen für ein Beitragsanalysemodell angeben:

  • Summierbar: Die Werte einer von Ihnen angegebenen Messwertspalte werden summiert und dann wird für jedes Segment der Daten eine Summe ermittelt.
  • Summierbares Verhältnis: Summiert die Werte zweier von Ihnen angegebener numerischer Spalten und berechnet das Verhältnis zwischen ihnen für jedes Datensegment.
  • Nach Kategorie summierbar: Der Wert einer numerischen Spalte wird summiert und durch die Anzahl der eindeutigen Werte aus einer kategorischen Spalte dividiert.

Ein Segment ist ein Segment der Daten, das durch eine bestimmte Kombination von Dimensionswerten identifiziert wird. Bei einem Beitragsanalysemodell, das auf den Dimensionen store_number, customer_id und day basiert, stellt beispielsweise jede eindeutige Kombination dieser Dimensionswerte ein Segment dar. In der folgenden Tabelle steht jede Zeile für ein anderes Segment:

store_number customer_id day
Geschäft 1
Geschäft 1 Kund*in 1
Geschäft 1 Kund*in 1 Montag
Geschäft 1 Kund*in 1 Dienstag
Geschäft 1 Kund*in 2
Geschäft 2

Um die Modellierungszeit zu verkürzen, geben Sie einen Apriori-Supportschwellenwert an. Mit einem Apriori-Supportschwellenwert können Sie kleine und weniger relevante Segmente bereinigen, sodass das Modell nur die größten und relevantesten Segmente verwendet.

Nachdem Sie ein Modell für die Beitragsanalyse erstellt haben, können Sie mit der Funktion ML.GET_INSIGHTS die vom Modell berechneten Messwertinformationen abrufen. Die Modellausgabe besteht aus Zeilen mit Statistiken, wobei jede Statistik einem Segment entspricht und die entsprechenden Messwerte des Segments enthält.

Beitragsanalyse – Nutzerpfad

In der folgenden Tabelle werden die Anweisungen und Funktionen beschrieben, die Sie mit Modellen für die Beitragssanalyse verwenden können:

Modellerstellung Vorverarbeitung von Features Insights-Generierung Tutorials
CREATE MODEL Manuelle Vorverarbeitung ML.GET_INSIGHTS

Nächste Schritte