Clustering – Übersicht
Clustering ist eine Technik für unüberwachtes maschinelles Lernen, mit der Sie ähnliche Datensätze gruppieren können. Das ist ein nützlicher Ansatz, wenn Sie wissen möchten, welche Gruppen oder Cluster in Ihren Daten vorhanden sind, aber keine gelabelten Daten zum Trainieren eines Modells haben. Wenn Sie beispielsweise ungelabelte Daten zu U-Bahn-Fahrkartenkäufen haben, können Sie diese Daten nach Kaufzeitpunkt gruppieren, um besser zu verstehen, zu welchen Zeiten die U-Bahn am stärksten genutzt wird. Weitere Informationen finden Sie unter Was ist Clustering?
K-Means-Modelle werden häufig für das Clustering verwendet. Sie können k-Means-Modelle mit der ML.PREDICT-Funktion zum Clustern von Daten oder mit der ML.DETECT_ANOMALIES-Funktion zur Anomalieerkennung verwenden.
K-Means-Modelle verwenden schwerpunktbasiertes Clustering, um Daten in Clustern zu organisieren.
Mit der Funktion ML.CENTROIDS können Sie Informationen zu den Schwerpunkten eines k-Means-Modells abrufen.
Empfohlenes Wissen
Wenn Sie die Standardeinstellungen in den CREATE MODEL-Anweisungen und den Inferenzfunktionen verwenden, können Sie ein Clustering-Modell auch ohne viel ML-Wissen erstellen und verwenden. Grundkenntnisse in der ML-Entwicklung und insbesondere in Clustering-Modellen helfen Ihnen jedoch, sowohl Ihre Daten als auch Ihr Modell zu optimieren, um bessere Ergebnisse zu erzielen. Wir empfehlen die folgenden Ressourcen, um sich mit ML-Techniken und -Prozessen vertraut zu machen:
- Crashkurs zum maschinellen Lernen
- Einführung in das maschinelle Lernen
- Fortgeschrittenes Machine Learning
- Clustering