Descripción general de la reducción de dimensionalidad
La reducción de dimensionalidad es el término común para un conjunto de técnicas matemáticas que se usan para capturar la forma y las relaciones de los datos en un espacio de alta dimensionalidad y traducir esta información a un espacio de baja dimensionalidad.
La reducción de la dimensionalidad es importante cuando trabajas con conjuntos de datos grandes que pueden contener miles de atributos. En un espacio de datos tan grande, el rango más amplio de distancias entre los puntos de datos puede dificultar la interpretación del resultado del modelo. Por ejemplo, dificulta comprender qué puntos de datos están más cerca y, por lo tanto, representan datos más similares. La reducción de dimensionalidad te ayuda a reducir la cantidad de atributos y, al mismo tiempo, conservar las características más importantes del conjunto de datos. Reducir la cantidad de atributos también ayuda a reducir el tiempo de entrenamiento de los modelos que usan los datos como entrada.
BigQuery ML ofrece los siguientes modelos para la reducción de la dimensionalidad:
Puedes usar modelos de PCA y codificador automático con las funciones ML.PREDICT o AI.GENERATE_EMBEDDING para incorporar datos en un espacio de menor dimensión y con la función ML.DETECT_ANOMALIES para realizar la detección de anomalías.
Puedes usar el resultado de los modelos de reducción de dimensionalidad para tareas como las siguientes:
- Búsqueda de similitud: Encuentra puntos de datos que sean similares entre sí según sus incorporaciones. Esto es ideal para encontrar productos relacionados, recomendar contenido similar o identificar elementos duplicados o anómalos.
- Agrupamiento en clústeres: Usa las incorporaciones como atributos de entrada para los modelos de k-means con el fin de agrupar los datos según sus similitudes. Esto puede ayudarte a descubrir patrones y estadísticas ocultos en tus datos.
- Aprendizaje automático: Usa incorporaciones como atributos de entrada para modelos de clasificación o regresión.
Conocimientos recomendados
Si usas la configuración predeterminada en las instrucciones CREATE MODEL y las funciones de inferencia, puedes crear y usar un modelo de reducción de dimensiones incluso sin tener muchos conocimientos de AA. Sin embargo, tener conocimientos básicos sobre el desarrollo de AA te ayuda a optimizar tanto tus datos como tu modelo para obtener mejores resultados. Te recomendamos que uses los siguientes recursos para familiarizarte con las técnicas y los procesos de AA:
- Curso intensivo de aprendizaje automático
- Introducción al aprendizaje automático
- Intermediate Machine Learning