Visão geral da redução de dimensionalidade

A redução de dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usadas para capturar a forma e as relações dos dados em um espaço de alta dimensão e traduzir essas informações para um espaço de baixa dimensão.

A redução de dimensionalidade é importante quando você trabalha com grandes conjuntos de dados que podem conter milhares de recursos. Em um espaço de dados tão grande, o intervalo maior de distâncias entre os pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, fica difícil entender quais pontos de dados estão mais próximos e, portanto, representam dados mais semelhantes. A redução de dimensionalidade ajuda a diminuir o número de atributos, mantendo as características mais importantes do conjunto de dados. Reduzir o número de recursos também ajuda a diminuir o tempo de treinamento de modelos que usam os dados como entrada.

O BigQuery ML oferece os seguintes modelos para redução de dimensionalidade:

É possível usar modelos de PCA e codificador automático com as funções ML.PREDICT ou AI.GENERATE_EMBEDDING para incorporar dados em um espaço de dimensão menor e com a função ML.DETECT_ANOMALIES para realizar a detecção de anomalias.

É possível usar a saída de modelos de redução de dimensionalidade para tarefas como as seguintes:

  • Pesquisa de similaridade: encontre pontos de dados semelhantes com base nos embeddings deles. Isso é ótimo para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anômalos.
  • Clustering: use embeddings como recursos de entrada para modelos k-means e agrupe pontos de dados com base nas semelhanças deles. Isso ajuda a descobrir padrões e insights ocultos nos seus dados.
  • Machine learning: use embeddings como recursos de entrada para modelos de classificação ou regressão.

Ao usar as configurações padrão nas instruções CREATE MODEL e nas funções de inferência, é possível criar e usar um modelo de redução de dimensionalidade mesmo sem muito conhecimento de ML. No entanto, ter conhecimentos básicos sobre o desenvolvimento de ML ajuda a otimizar seus dados e seu modelo para gerar resultados melhores. Recomendamos usar os seguintes recursos para se familiarizar com técnicas e processos de ML: