Visão geral do clustering
O clustering é uma técnica de machine learning não supervisionado que pode ser usada para agrupar registros semelhantes. É uma abordagem útil quando você quer entender quais grupos ou clusters tem nos seus dados, mas não tem dados rotulados para treinar um modelo. Por exemplo, se você tiver dados não rotulados sobre compras de passagens de metrô, poderá agrupar esses dados por horário de compra para entender melhor quais períodos têm o maior uso do metrô. Para mais informações, consulte O que é clustering?
Os modelos k-means
são amplamente usados para realizar clustering. É possível usar modelos k-means com a
função ML.PREDICT
para agrupar dados ou com a
função ML.DETECT_ANOMALIES
para realizar a detecção de anomalias.
Os modelos K-means usam clustering baseado em centroide para organizar dados em clusters.
Para receber informações sobre os centroides de um modelo k-means, use a função ML.CENTROIDS.
Conhecimento recomendado
Usando as configurações padrão nas instruções CREATE MODEL e as funções de inferência, é possível criar e usar um modelo de clusterização mesmo sem muito conhecimento de ML. No entanto, ter conhecimento básico sobre
desenvolvimento de ML e modelos de clustering em particular
ajuda a otimizar seus dados e seu modelo para
oferecer melhores resultados. Recomendamos usar os seguintes recursos para se familiarizar com técnicas e processos de ML:
- Curso intensivo de machine learning
- Introdução ao machine learning
- Aprendizado de máquina intermediário
- Clustering