Panoramica della riduzione della dimensionalità
Riduzione della dimensionalità è il termine comune per un insieme di tecniche matematiche utilizzate per acquisire la forma e le relazioni dei dati in uno spazio ad alta dimensionalità e tradurre queste informazioni in uno spazio a bassa dimensionalità.
La riduzione della dimensionalità è importante quando lavori con set di dati di grandi dimensioni che possono contenere migliaia di funzionalità. In uno spazio di dati così ampio, la gamma più ampia di distanze tra i punti dati può rendere più difficile l'interpretazione dell'output del modello. Ad esempio, è difficile capire quali punti dati sono più vicini e quindi rappresentano dati più simili. La riduzione della dimensionalità consente di ridurre il numero di caratteristiche mantenendo le caratteristiche più importanti del set di dati. La riduzione del numero di funzionalità contribuisce anche a ridurre il tempo di addestramento di tutti i modelli che utilizzano i dati come input.
BigQuery ML offre i seguenti modelli per la riduzione della dimensionalità:
Puoi utilizzare i modelli PCA e autoencoder con le funzioni
ML.PREDICT
o
AI.GENERATE_EMBEDDING
per incorporare i dati in uno spazio a dimensioni inferiori e con la
funzioneML.DETECT_ANOMALIES
per eseguire il rilevamento delle anomalie.
Puoi utilizzare l'output dei modelli di riduzione della dimensionalità per attività come le seguenti:
- Ricerca per somiglianza: trova punti dati simili tra loro in base ai loro incorporamenti. È ideale per trovare prodotti correlati, consigliare contenuti simili o identificare elementi duplicati o anomali.
- Clustering: utilizza gli incorporamenti come funzionalità di input per i modelli k-means per raggruppare i punti dati in base alle loro somiglianze. In questo modo puoi scoprire pattern e approfondimenti nascosti nei tuoi dati.
- Machine learning: utilizza gli incorporamenti come caratteristiche di input per i modelli di classificazione o regressione.
Conoscenze consigliate
Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle
funzioni di inferenza, puoi creare e utilizzare un modello di riduzione della dimensionalità
anche senza molte conoscenze di ML. Tuttavia, avere una conoscenza di base dello sviluppo di ML ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e i processi di ML: