Sistemi di griglie per l'analisi spaziale

Questo documento spiega lo scopo e i metodi di utilizzo dei sistemi di griglie geospaziali (come S2 e H3) in BigQuery per organizzare i dati spaziali in aree geografiche standardizzate. Spiega anche come scegliere il sistema a griglia giusto per la tua applicazione. Questo documento è utile per chiunque lavori con dati spaziali ed esegua analisi spaziali in BigQuery.

Panoramica e sfide dell'utilizzo dell'analisi spaziale

L'analisi spaziale aiuta a mostrare la relazione tra entità (negozi o case) ed eventi in uno spazio fisico. L'analisi spaziale che utilizza la superficie della terra come spazio fisico è chiamata analisi geospaziale. BigQuery include funzionalità e funzioni geospaziali che ti consentono di eseguire analisi geospaziali su larga scala.

Molti casi d'uso geospaziali prevedono l'aggregazione dei dati all'interno di aree localizzate e il confronto delle aggregazioni statistiche di queste aree tra loro. Queste aree localizzate sono rappresentate come poligoni in una tabella del database spaziale. In alcuni contesti, questo metodo è chiamato geografia statistica. Il metodo di determinazione dell'estensione delle aree geografiche deve essere standardizzato per migliorare i report, l'analisi e l'indicizzazione spaziale. Ad esempio, un rivenditore potrebbe voler analizzare le variazioni dei dati demografici nel tempo nelle aree in cui si trovano i suoi negozi o in quelle in cui sta valutando di costruire un nuovo negozio. Oppure, una compagnia assicurativa potrebbe voler migliorare la propria comprensione dei rischi per la proprietà analizzando i rischi naturali prevalenti in una determinata area.

A causa delle rigide normative sulla privacy dei dati in molte aree, i set di dati che contengono informazioni sulla posizione devono essere de-identificati o parzialmente anonimizzati per contribuire a proteggere la privacy delle persone rappresentate nei dati. Ad esempio, potresti dover eseguire un'analisi del rischio di concentrazione del credito geografico su un set di dati che contiene dati sui mutui ipotecari in essere. Per anonimizzare il set di dati in modo da renderlo adatto all'analisi conforme, devi conservare le informazioni pertinenti sulla posizione delle proprietà, ma evitare di utilizzare un indirizzo specifico o coordinate di longitudine e latitudine.

Negli esempi precedenti, i progettisti di queste analisi si trovano di fronte alle seguenti sfide:

  • Come disegnare i confini dell'area in cui analizzare le modifiche nel tempo?
  • Come utilizzare i confini amministrativi esistenti, ad esempio i censimenti o un sistema di griglie multirisoluzione?

Questo documento ha lo scopo di rispondere a queste domande spiegando ogni opzione, descrivendo le best practice e aiutandoti a evitare le trappole più comuni.

Imprevisti comuni durante la scelta delle aree statistiche

I set di dati aziendali come vendite immobiliari, campagne di marketing, spedizioni di e-commerce e polizze assicurative sono adatti all'analisi spaziale. Spesso questi set di dati contengono quella che sembra essere una comoda chiave di join spaziale, ad esempio una sezione di censimento, un codice postale o il nome di una città. Sono facilmente disponibili set di dati pubblici che contengono rappresentazioni di sezioni censuarie, codici postali e città, il che li rende allettanti da utilizzare come confini amministrativi per l'aggregazione statistica.

Sebbene nominalmente convenienti, questi e altri confini amministrativi presentano inconvenienti. Inoltre, questi confini potrebbero funzionare bene nelle fasi iniziali di un progetto di analisi, ma gli svantaggi possono essere notati nelle fasi successive.

Codici postali

I codici postali vengono utilizzati per indirizzare la posta in vari paesi del mondo e, grazie a questa ubiquità, vengono spesso utilizzati per fare riferimento a località e aree in set di dati spaziali e non spaziali. Se ci riferiamo all'esempio precedente del mutuo, un set di dati spesso deve essere anonimizzato prima di poter eseguire l'analisi downstream. Poiché ogni indirizzo della proprietà contiene un codice postale, le tabelle di riferimento dei codici postali sono accessibili, il che le rende un'opzione conveniente per unachiave di joinne per l'analisi spaziale.

Un problema nell'utilizzo dei codici postali è che non sono rappresentati come poligoni e non esiste un'unica fonte attendibile per le aree dei codici postali. Inoltre, i codici postali non rappresentano bene il comportamento umano reale. I dati sui codici postali di uso comune negli Stati Uniti provengono dai TIGER/Line Shapefiles del US Census Bureau, che contengono un set di dati chiamato ZCTA5 (Zip Code Tabulation Area). Questo set di dati rappresenta un'approssimazione dei confini dei codici postali derivati dai percorsi di consegna della posta. Tuttavia, alcuni codici postali che rappresentano singoli edifici non hanno alcun confine. Questo problema è presente anche in altri paesi, il che rende difficile formare una singola tabella dei fatti globale che contenga un insieme autorevole di confini dei codici postali che possono essere utilizzati in tutti i sistemi e in tutti i set di dati.

Inoltre, non esiste un formato standardizzato del codice postale utilizzato in tutto il mondo. Alcuni sono numerici, da tre a dieci cifre, mentre altri sono alfanumerici. Esiste anche una sovrapposizione tra i paesi, il che rende necessario memorizzare il paese di origine in una colonna separata insieme al codice postale. Alcuni paesi non utilizzano i codici postali, il che complica ulteriormente l'analisi.

Sezioni di censimento, città e contee

Esistono alcune unità amministrative, come le sezioni censite, le città e le contee, che non soffrono della mancanza di un confine autorevole. I confini delle città, ad esempio, sono nella maggior parte dei casi ben stabiliti dalle autorità governative. Le sezioni di censimento sono ben definite dal Census Bureau degli Stati Uniti e dalle istituzioni analoghe nella maggior parte degli altri paesi.

Uno svantaggio dell'utilizzo di questi e altri confini amministrativi è che cambiano nel tempo e non sono geograficamente coerenti tra loro. Contee e città si uniscono o si dividono e a volte cambiano nome. I census tract vengono aggiornati una volta ogni dieci anni negli Stati Uniti e in momenti diversi negli altri paesi. In alcuni casi, il confine geografico può cambiare, ma il suo identificatore univoco rimane lo stesso, il che rende difficile analizzare e comprendere i cambiamenti nel tempo.

Un altro svantaggio comune ad alcuni confini amministrativi è che si tratta di aree discrete senza gerarchia geografica. Oltre a confrontare le singole aree tra loro, un requisito comune è confrontare le aggregazioni delle aree stesse con altre aggregazioni. Ad esempio, un rivenditore che implementa il modello di Huff potrebbe voler eseguire questa analisi utilizzando più distanze, che potrebbero non corrispondere alle aree amministrative utilizzate altrove nell'attività.

Griglie a risoluzione singola e multipla

Le griglie a risoluzione singola sono costituite da unità discrete che non hanno alcuna relazione geografica con le aree più grandi che le contengono. Ad esempio, i codici postali hanno una relazione geografica incoerente con i confini di unità amministrative più grandi, come città o contee che potrebbero contenere codici postali. Per l'analisi spaziale, è importante capire la relazione tra le diverse aree senza una conoscenza approfondita della storia e della legislazione che definiscono il poligono dell'area.

Le griglie multirisoluzione vengono talvolta chiamate griglie gerarchiche perché le celle a ogni livello di zoom sono suddivise in celle più piccole a livelli di zoom più elevati. Le griglie multirisoluzione sono costituite da una gerarchia ben definita di unità contenute in unità più grandi. I tratti censuari, ad esempio, contengono gruppi di isolati, che a loro volta contengono isolati. Questa relazione gerarchica coerente può essere utile per l'aggregazione statistica. Ad esempio, calcolando la media dei redditi di tutti i gruppi di isolati contenuti in una sezione di censimento, puoi mostrare il reddito medio per quella sezione di censimento contenente i gruppi di isolati. Ciò non sarebbe possibile con i codici postali perché tutte le aree postali si trovano a una singola risoluzione. Sarebbe difficile confrontare il reddito di un tratto con quelli circostanti, in quanto non esiste un modo standardizzato per definire l'adiacenza o confrontare il reddito in paesi diversi.

Sistemi a griglia S2 e H3

Questa sezione fornisce una panoramica dei sistemi di griglie S2 e H3.

S2

La geometria S2 è un sistema di griglie gerarchiche open source sviluppato da Google e rilasciato al pubblico nel 2011. Puoi utilizzare il sistema della griglia S2 per organizzare e indicizzare i dati spaziali assegnando un numero intero a 64 bit univoco a ogni cella. Esistono 31 livelli di risoluzione. Ogni cella è rappresentata come un quadrato ed è progettata per operazioni su geometrie sferiche (a volte chiamate geografie). Ogni quadrato è suddiviso in quattro quadrati più piccoli. L'attraversamento dei vicini, ovvero la capacità di identificare le celle S2 vicine, è meno ben definito perché i quadrati possono avere quattro o otto vicini pertinenti a seconda del tipo di analisi. Di seguito è riportato un esempio di celle della griglia S2 multirisoluzione:

Esempio di celle della griglia S2.

BigQuery utilizza le celle S2 per indicizzare i dati spaziali ed espone più funzioni. Ad esempio, S2_CELLIDFROMPOINT restituisce l'ID cella S2 che contiene un punto sulla superficie terrestre a un determinato livello.

H3

H3 è un sistema di griglia gerarchica open source sviluppato da Uber e utilizzato da Overture Maps. Esistono 16 livelli di risoluzione. Ogni cella è rappresentata come un esagono e, come in S2, a ogni cella viene assegnato un numero intero univoco a 64 bit. Nell'esempio relativo alla visualizzazione delle celle H3 che coprono il Golfo del Messico, le celle H3 più piccole non sono perfettamente contenute in quelle più grandi.

Ogni cella si suddivide in sette esagoni più piccoli. La suddivisione non è esatta, ma è adeguata per molti casi d'uso. Ogni cella condivide un bordo con sei celle adiacenti, semplificando l'attraversamento dei vicini. Ad esempio, a ogni livello, ci sono 12 pentagoni, che invece condividono un bordo con cinque vicini anziché sei. Sebbene H3 non sia supportato in BigQuery, puoi aggiungere il supporto H3 a BigQuery utilizzando Carto Analytics Toolbox per BigQuery.

Sebbene le librerie S2 e H3 siano open source e disponibili con la licenza Apache 2, la libreria H3 dispone di una documentazione più dettagliata.

HEALPix

Un ulteriore schema per suddividere la sfera in una griglia, di uso comune nel campo dell'astronomia, è noto come Hierarchical Equal Area isoLatitude Pixelation (HEALPix). HEALPix è indipendente dalla profondità gerarchica dei pixel, ma il tempo di calcolo rimane costante.

HEALPix è uno schema di pixelizzazione gerarchica di uguale area per la sfera. Viene utilizzato per rappresentare e analizzare i dati sulla sfera celeste (o su altre sfere). Oltre al tempo di calcolo costante, la griglia HEALPix ha le seguenti caratteristiche:

  • Le celle della griglia sono gerarchiche e le relazioni principale-secondaria vengono mantenute.
  • In una gerarchia specifica, le celle hanno aree uguali.
  • Le celle seguono una distribuzione iso-latitudine, consentendo prestazioni migliori per i metodi spettrali.

BigQuery non supporta HEALPix, ma esistono numerose implementazioni in una varietà di linguaggi, tra cui JavaScript, che lo rende comodo per l'uso nelle funzioni definite dall'utente (UDF) di BigQuery.

Esempi di casi d'uso per ogni strategia di indicizzazione

Questa sezione fornisce alcuni esempi che ti aiutano a valutare qual è il sistema di griglie migliore per il tuo caso d'uso.

Molti casi d'uso di analisi e report prevedono la visualizzazione, come parte dell'analisi stessa o per la generazione di report per gli stakeholder aziendali. Queste visualizzazioni vengono comunemente presentate in Web Mercator, la proiezione piana utilizzata da Google Maps e da molte altre applicazioni di mappatura web. Nei casi in cui la visualizzazione svolge un ruolo fondamentale, le celle H3 offrono un'esperienza di visualizzazione soggettivamente migliore. Le celle S2, soprattutto a latitudini più elevate, tendono ad apparire più distorte rispetto alle celle H3 e non appaiono coerenti con le celle a latitudini inferiori se presentate in una proiezione planare.

Le celle H3 semplificano l'implementazione laddove il confronto tra vicini svolge un ruolo importante nell'analisi. Ad esempio, un'analisi comparativa tra le sezioni di una città potrebbe aiutare a decidere quale posizione è adatta per aprire un nuovo negozio al dettaglio o un nuovo centro di distribuzione. L'analisi richiede calcoli statistici per gli attributi di una determinata cella che viene confrontata con le celle adiacenti.

Le celle S2 possono funzionare meglio nelle analisi di natura globale, come quelle che comportano misurazioni di distanze e angoli. Pokemon Go di Niantic utilizza le celle S2 per determinare dove vengono posizionati gli asset di gioco e come vengono distribuiti. La proprietà di suddivisione esatta delle celle S2 garantisce che gli asset di gioco possano essere distribuiti in modo uniforme in tutto il mondo.

Passaggi successivi