Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral do clustering

O clustering é uma técnica de machine learning não supervisionado que pode ser usada para agrupar registros semelhantes. É uma abordagem útil quando você quer entender quais grupos ou clusters tem nos seus dados, mas não tem dados rotulados para treinar um modelo. Por exemplo, se você tiver dados não rotulados sobre compras de passagens de metrô, poderá agrupar esses dados por horário de compra para entender melhor quais períodos têm o maior uso do metrô. Para mais informações, consulte O que é clustering?

Os modelos k-means são amplamente usados para realizar clustering. É possível usar modelos k-means com a função ML.PREDICT para agrupar dados ou com a função ML.DETECT_ANOMALIES para realizar a detecção de anomalias.

Os modelos K-means usam clustering baseado em centroide para organizar dados em clusters. Para receber informações sobre os centroides de um modelo k-means, use a função ML.CENTROIDS.

Conhecimento recomendado

Usando as configurações padrão nas instruções CREATE MODEL e as funções de inferência, é possível criar e usar um modelo de clusterização mesmo sem muito conhecimento de ML. No entanto, ter conhecimento básico sobre desenvolvimento de ML e modelos de clustering em particular ajuda a otimizar seus dados e seu modelo para oferecer melhores resultados. Recomendamos usar os seguintes recursos para se familiarizar com técnicas e processos de ML: