Panoramica del clustering
Il clustering è una tecnica di machine learning non supervisionato che puoi utilizzare per raggruppare record simili. È un approccio utile quando vuoi capire quali gruppi o cluster sono presenti nei tuoi dati, ma non disponi di dati etichettati per addestrare un modello. Ad esempio, se disponi di dati non etichettati sugli acquisti di biglietti della metropolitana, puoi raggrupparli in base all'ora di acquisto per comprendere meglio i periodi di maggiore utilizzo della metropolitana. Per saperne di più, vedi Che cos'è il clustering?
I modelli K-means
sono ampiamente utilizzati per eseguire il clustering. Puoi utilizzare i modelli k-means con la
funzione ML.PREDICT
per raggruppare i dati o con la
funzione ML.DETECT_ANOMALIES
per eseguire il rilevamento delle anomalie.
I modelli K-means utilizzano il
clustering basato sui centroidi per organizzare i dati in cluster.
Per ottenere informazioni sui centroidi di un modello k-means, puoi utilizzare la
funzione ML.CENTROIDS.
Conoscenze consigliate
Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle
funzioni di inferenza, puoi creare e utilizzare un modello di clustering anche
senza molte conoscenze di ML. Tuttavia, avere una conoscenza di base dello
sviluppo di ML e dei modelli di clustering in particolare
ti aiuta a ottimizzare sia i dati che il modello per
ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e i processi di ML:
- Machine Learning Crash Course
- Introduzione al machine learning
- Machine learning intermedio
- Clustering