Panoramica del clustering

Il clustering è una tecnica di machine learning non supervisionato che puoi utilizzare per raggruppare record simili. È un approccio utile quando vuoi capire quali gruppi o cluster sono presenti nei tuoi dati, ma non disponi di dati etichettati per addestrare un modello. Ad esempio, se disponi di dati non etichettati sugli acquisti di biglietti della metropolitana, puoi raggrupparli in base all'ora di acquisto per comprendere meglio i periodi di maggiore utilizzo della metropolitana. Per saperne di più, vedi Che cos'è il clustering?

I modelli K-means sono ampiamente utilizzati per eseguire il clustering. Puoi utilizzare i modelli k-means con la funzione ML.PREDICT per raggruppare i dati o con la funzione ML.DETECT_ANOMALIES per eseguire il rilevamento delle anomalie.

I modelli K-means utilizzano il clustering basato sui centroidi per organizzare i dati in cluster. Per ottenere informazioni sui centroidi di un modello k-means, puoi utilizzare la funzione ML.CENTROIDS.

Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle funzioni di inferenza, puoi creare e utilizzare un modello di clustering anche senza molte conoscenze di ML. Tuttavia, avere una conoscenza di base dello sviluppo di ML e dei modelli di clustering in particolare ti aiuta a ottimizzare sia i dati che il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e i processi di ML: