Übersicht über die Dimensionalitätsreduktion

Dimensionsreduzierung ist der gängige Begriff für eine Reihe von mathematischen Verfahren, mit denen die Form und die Beziehungen von Daten in einem hochdimensionalen Raum erfasst und in einen niedrigdimensionalen Raum übertragen werden.

Die Reduzierung der Dimensionalität ist wichtig, wenn Sie mit großen Datasets arbeiten, die Tausende von Merkmalen enthalten können. In einem so großen Datenraum kann der größere Bereich von Entfernungen zwischen Datenpunkten die Interpretation der Modellausgabe erschweren. So ist es beispielsweise schwierig zu erkennen, welche Datenpunkte näher beieinander liegen und daher ähnliche Daten darstellen. Mit der Dimensionalitätsreduktion können Sie die Anzahl der Merkmale verringern und gleichzeitig die wichtigsten Eigenschaften des Datasets beibehalten. Wenn Sie die Anzahl der Features reduzieren, verkürzt sich auch die Trainingszeit aller Modelle, die die Daten als Eingabe verwenden.

BigQuery ML bietet die folgenden Modelle zur Dimensionsreduzierung:

Sie können PCA- und Autoencoder-Modelle mit den Funktionen ML.PREDICT oder AI.GENERATE_EMBEDDING verwenden, um Daten in einen Raum mit weniger Dimensionen einzubetten, und mit der Funktion ML.DETECT_ANOMALIES, um eine Anomalieerkennung durchzuführen.

Sie können die Ausgabe von Modellen zur Dimensionsreduzierung für Aufgaben wie die folgenden verwenden:

  • Ähnlichkeitssuche: Suchen Sie anhand ihrer Einbettungen nach Datenpunkten, die einander ähneln. Das ist ideal, um ähnliche Produkte zu finden, ähnliche Inhalte zu empfehlen oder doppelte oder anomale Elemente zu identifizieren.
  • Clustering: Verwenden Sie Einbettungen als Eingabefunktionen für k-Means-Modelle, um Datenpunkte basierend auf ihren Ähnlichkeiten zu gruppieren. So können Sie verborgene Muster und Informationen in Ihren Daten aufdecken.
  • Machine Learning: Verwenden Sie Einbettungen als Eingabefeatures für Klassifizierungs- oder Regressionsmodelle.

Wenn Sie die Standardeinstellungen in den CREATE MODEL-Anweisungen und den Inferenzfunktionen verwenden, können Sie ein Modell zur Dimensionsreduzierung auch ohne viel ML-Wissen erstellen und verwenden. Grundlegende Kenntnisse über die ML-Entwicklung helfen Ihnen jedoch, sowohl Ihre Daten als auch Ihr Modell zu optimieren, um bessere Ergebnisse zu erzielen. Wir empfehlen die folgenden Ressourcen, um sich mit ML-Techniken und -Prozessen vertraut zu machen: