Beitragsanalyse – Übersicht
In diesem Dokument werden der Anwendungsfall der Beitragsanalyse und die Optionen für die Durchführung von Beitragsanalysen in BigQuery ML beschrieben.
Was ist eine Beitragsanalyse?
Die Beitragsanalyse, auch als Analyse der wichtigsten Treiber bezeichnet, ist eine Methode, mit der Sie Informationen zu Änderungen an wichtigen Messwerten in Ihren mehrdimensionalen Daten gewinnen können. Mithilfe der Beitragsanalyse können Sie beispielsweise sehen, welche Daten zu einer Änderung der Umsatzzahlen über zwei Quartale hinweg beigetragen haben, oder zwei Trainingsdatensätze vergleichen, um Änderungen an der Leistung eines ML-Modells zu verstehen.
Die Beitragsanalyse ist eine Form der erweiterten Analyse, bei der künstliche Intelligenz (KI) eingesetzt wird, um die Analyse und Auswertung von Daten zu verbessern und zu automatisieren. Mit der Beitragsanalyse wird eines der Hauptziele der erweiterten Analysen erreicht: Nutzern dabei zu helfen, Muster in ihren Daten zu finden.
Beitragsanalyse mit BigQuery ML
Bei der Beitragsanalyse werden Datensegmente erkannt, die Änderungen bei einem bestimmten Messwert aufweisen. Dazu wird ein Testdatensatz mit einem Kontrolldatensatz verglichen. Sie können beispielsweise einen Tabellen-Snapshot von Verkaufsdaten von Ende 2023 als Testdaten und einen Tabellen-Snapshot von Ende 2022 als Kontrolldaten verwenden und vergleichen, um zu sehen, wie sich Ihre Verkäufe im Laufe der Zeit verändert haben. Mit der Beitragssanalyse lässt sich ermitteln, welches Datensegment, z. B. Onlinekunden in einer bestimmten Region, die größte Umsatzänderung im Jahresvergleich verursacht hat.
Ein Messwert ist der numerische Wert, mit dem in Modellen zur Beitragsanalyse die Änderungen zwischen den Test- und Kontrolldaten gemessen und verglichen werden. Sie können die folgenden Arten von Messwerten für ein Beitragsanalysemodell angeben:
- Summierbar: Die Werte einer von Ihnen angegebenen Messwertspalte werden summiert und dann wird für jedes Segment der Daten eine Summe ermittelt.
- Summierbares Verhältnis: Die Werte zweier von Ihnen angegebener numerischer Spalten werden summiert und das Verhältnis zwischen ihnen für jedes Datensegment wird ermittelt.
- Nach Kategorie summierbar: Der Wert einer numerischen Spalte wird summiert und durch die Anzahl der eindeutigen Werte aus einer kategorischen Spalte dividiert.
Ein Segment ist ein Segment der Daten, das durch eine bestimmte Kombination von Dimensionswerten identifiziert wird. Bei einem Beitragsanalysemodell, das auf den Dimensionen store_number, customer_id und day basiert, stellt beispielsweise jede eindeutige Kombination dieser Dimensionswerte ein Segment dar. In der folgenden Tabelle steht jede Zeile für ein anderes Segment:
store_number |
customer_id |
day |
| Geschäft 1 | ||
| Geschäft 1 | Kund*in 1 | |
| Geschäft 1 | Kund*in 1 | Montag |
| Geschäft 1 | Kund*in 1 | Dienstag |
| Geschäft 1 | Kund*in 2 | |
| Geschäft 2 |
Daten ohne Modell analysieren
Wenn Sie weniger als 12 Dimensionen haben und einen summierbaren Messwert verwenden, können Sie die Beitragsanalyse mit der AI.KEY_DRIVERS-Funktion durchführen.
Für die meisten Anwendungen empfehlen wir, die Funktion AI.KEY_DRIVERS zu verwenden, anstatt ein Modell zu erstellen, da sie eine vereinfachte Syntax, schnellere Ergebnisse und automatisches Bereinigen bietet. Die Funktionsausgabe besteht aus Zeilen mit Statistiken, wobei jede Statistik einem Segment entspricht und die entsprechenden Messwerte des Segments enthält.
Modell zur Beitragsanalyse verwenden
Für wiederholte Analysen oder wenn Sie mehr als 12 Dimensionen oder andere Arten von Messwerten benötigen, können Sie mit der CREATE MODEL-Anweisung ein Modell für die Beitragsanalyse erstellen.
Um die Modellierungszeit zu verkürzen, geben Sie einen Apriori-Supportschwellenwert an. Mit einem Apriori-Supportschwellenwert können Sie kleine und weniger relevante Segmente bereinigen, sodass das Modell nur die größten und relevantesten Segmente verwendet.
Nachdem Sie ein Modell für die Beitragsanalyse erstellt haben, können Sie mit der Funktion ML.GET_INSIGHTS die vom Modell berechneten Messwertinformationen abrufen. Die Funktionsausgabe besteht aus Zeilen mit Statistiken, wobei jede Statistik einem Segment entspricht und die entsprechenden Messwerte des Segments enthält.
Beitragsanalyse – Nutzerpfad
In der folgenden Tabelle werden die Anweisungen und Funktionen beschrieben, die Sie für die Analyse von Beiträgen verwenden können:
| Anweisung oder Funktion | Vorverarbeitung von Features | Insights-Generierung | Tutorials |
|---|---|---|---|
AI.KEY_DRIVERS |
Manuelle Vorverarbeitung | – | Beispiel für die Beitragsanalyse von Daten zum Spirituosenverkauf in Iowa |
CREATE MODEL |
Manuelle Vorverarbeitung | ML.GET_INSIGHTS |