Sistem petak untuk analisis spasial

Dokumen ini menjelaskan tujuan dan metode penggunaan sistem petak geospasial (seperti S2 dan H3) di BigQuery untuk mengatur data spasial di area geografis standar. Bagian ini juga menjelaskan cara memilih sistem petak yang tepat untuk aplikasi Anda. Dokumen ini berguna bagi siapa saja yang bekerja dengan data spasial dan melakukan analisis spasial di BigQuery.

Ringkasan dan tantangan penggunaan analisis spasial

Analisis spasial membantu menunjukkan hubungan antara entitas (toko atau rumah) dan peristiwa di ruang fisik. Analisis spasial yang menggunakan permukaan bumi sebagai ruang fisik disebut analisis geospasial. BigQuery menyertakan fitur dan fungsi geospasial yang memungkinkan Anda melakukan analisis geospasial dalam skala besar.

Banyak kasus penggunaan geospasial melibatkan penggabungan data dalam area yang dilokalkan, dan membandingkan penggabungan statistik area tersebut satu sama lain. Area yang dilokalkan ini ditampilkan sebagai poligon dalam tabel database spasial. Dalam beberapa konteks, metode ini disebut geografi statistik. Metode penentuan luas wilayah geografis harus distandardisasi untuk pelaporan, analisis, dan pengindeksan spasial yang lebih baik. Misalnya, retailer mungkin ingin menganalisis perubahan demografi dari waktu ke waktu di area tempat toko mereka berada, atau di area tempat mereka berencana membangun toko baru. Atau, perusahaan asuransi mungkin ingin meningkatkan pemahaman mereka tentang risiko properti dengan menganalisis risiko bahaya alam yang berlaku di area tertentu.

Karena peraturan privasi data yang ketat di banyak area, set data yang berisi informasi lokasi harus dihilangkan identitasnya atau dianonimkan sebagian untuk membantu melindungi privasi individu yang datanya direpresentasikan. Misalnya, Anda mungkin perlu melakukan analisis risiko konsentrasi kredit geografis pada set data yang berisi data tentang pinjaman hipotek yang belum lunas. Untuk menganonimkan set data agar sesuai untuk analisis yang mematuhi kebijakan, Anda harus mempertahankan informasi yang relevan tentang lokasi properti, tetapi menghindari penggunaan alamat tertentu atau koordinat bujur dan lintang.

Dalam contoh sebelumnya, desainer analisis ini menghadapi tantangan berikut:

  • Bagaimana cara menggambar batas area tempat Anda menganalisis perubahan dari waktu ke waktu?
  • Bagaimana cara menggunakan batas administratif yang ada seperti wilayah sensus atau sistem petak multi-resolusi?

Dokumen ini bertujuan untuk menjawab pertanyaan tersebut dengan menjelaskan setiap opsi, menjelaskan praktik terbaik, dan membantu Anda menghindari kesalahan umum.

Kesalahan umum saat memilih area statistik

Set data bisnis seperti penjualan properti, kampanye pemasaran, pengiriman e-commerce, dan kebijakan asuransi cocok untuk analisis spasial. Sering kali set data ini berisi apa yang tampak sebagai kunci gabungan spasial yang mudah, seperti wilayah sensus, kode pos, atau nama kota. Set data publik yang berisi representasi wilayah sensus, kode pos, dan kota tersedia dengan mudah, sehingga menarik untuk digunakan sebagai batas administratif untuk agregasi statistik.

Meskipun secara nominal nyaman, batas administratif ini dan batas lainnya memiliki kekurangan. Selain itu, batas ini mungkin berfungsi dengan baik pada tahap awal project analisis, tetapi kekurangannya dapat terlihat pada tahap selanjutnya.

Kode pos

Kode pos digunakan untuk mengarahkan surat di berbagai negara di seluruh dunia, dan karena penggunaan yang luas ini, kode pos sering digunakan untuk mereferensikan lokasi dan area dalam set data spasial dan non-spasial. Mengacu pada contoh sebelumnya tentang pinjaman hipotek, set data sering kali perlu dianonimkan sebelum analisis hilir dapat dilakukan. Karena setiap alamat properti berisi kode pos, tabel referensi kode pos dapat diakses, sehingga menjadikannya opsi yang mudah untuk kunci gabungan analisis spasial.

Kesalahan dalam menggunakan kode pos adalah kode pos tidak ditampilkan sebagai poligon, dan tidak ada satu sumber tepercaya yang benar untuk area kode pos. Selain itu, kode pos bukan representasi yang baik dari perilaku manusia yang sebenarnya. Data kode pos yang paling umum digunakan di AS berasal dari File Shape TIGER/Line US Census Bureau, yang berisi set data bernama ZCTA5 (Zip Code Tabulation Area). Set data ini merepresentasikan perkiraan batas kode pos yang berasal dari rute pengiriman surat. Namun, beberapa kode pos yang mewakili setiap bangunan tidak memiliki batas sama sekali. Masalah ini juga terjadi di negara lain, sehingga sulit untuk membuat satu tabel fakta global yang berisi sekumpulan batas kode pos yang tepercaya yang dapat digunakan di seluruh sistem dan di seluruh set data.

Selain itu, tidak ada format kode pos standar yang digunakan di seluruh dunia. Sebagian berupa angka, mulai dari tiga hingga sepuluh digit, sementara sebagian lainnya berupa alfanumerik. Ada juga tumpang-tindih antarnegara, sehingga perlu menyimpan negara asal di kolom terpisah bersama dengan kode pos. Beberapa negara tidak menggunakan kode pos, sehingga semakin mempersulit analisis.

Wilayah sensus, kota, dan wilayah

Ada beberapa unit administratif, seperti wilayah sensus, kota, dan kabupaten yang tidak mengalami masalah karena tidak adanya batas resmi. Batas-batas kota, misalnya, dalam sebagian besar kasus telah ditetapkan dengan baik oleh otoritas pemerintah. Jalur sensus ditentukan dengan baik oleh US Census Bureau, dan oleh lembaga serupa di sebagian besar negara lain.

Kelemahan menggunakan batas administratif ini dan batas administratif lainnya adalah batas tersebut berubah dari waktu ke waktu, dan tidak konsisten secara geografis satu sama lain. Kabupaten dan kota bergabung atau terpisah satu sama lain dan terkadang diganti namanya. Tract sensus diperbarui sekali setiap dekade di Amerika Serikat, dan pada waktu yang berbeda di negara lain. Anehnya, dalam beberapa kasus, batas geografis dapat berubah, tetapi ID uniknya tetap sama, sehingga sulit untuk menganalisis dan memahami perubahan dari waktu ke waktu.

Kekurangan lain yang umum pada beberapa batas administratif adalah bahwa batas tersebut merupakan area terpisah tanpa hierarki geografis. Selain membandingkan masing-masing area, persyaratan umum adalah membandingkan agregasi area itu sendiri dengan agregasi lainnya. Misalnya, retailer yang menerapkan model Huff mungkin ingin menjalankan analisis ini menggunakan beberapa jarak, yang mungkin tidak sesuai dengan area administratif yang digunakan di tempat lain dalam bisnis.

Petak resolusi tunggal dan multi-resolusi

Grid resolusi tunggal terdiri dari unit terpisah yang tidak memiliki hubungan geografis dengan area yang lebih besar yang berisi unit tersebut. Misalnya, kode pos memiliki hubungan geografis yang tidak konsisten dengan batas unit administratif yang lebih besar, seperti kota atau kabupaten yang mungkin berisi kode pos. Untuk analisis spasial, penting untuk memahami hubungan antar-area tanpa pengetahuan mendalam tentang sejarah dan legislasi yang menentukan poligon area.

Petak multi-resolusi terkadang disebut petak hierarkis karena sel di setiap tingkat zoom dibagi lagi menjadi sel yang lebih kecil pada tingkat zoom yang lebih tinggi. Petak multi-resolusi terdiri dari hierarki unit yang terdefinisi dengan baik yang berada dalam unit yang lebih besar. Misalnya, wilayah sensus berisi kelompok blok, yang selanjutnya berisi blok. Hubungan hierarkis yang konsisten ini dapat berguna untuk agregasi statistik. Misalnya, dengan menghitung rata-rata pendapatan semua kelompok blok yang ada dalam suatu wilayah, Anda dapat menampilkan rata-rata pendapatan untuk wilayah sensus yang berisi kelompok blok tersebut. Hal ini tidak mungkin dilakukan dengan kode pos karena semua area kode pos terletak pada satu resolusi. Akan sulit untuk membandingkan pendapatan suatu wilayah dengan wilayah di sekitarnya karena tidak ada cara standar untuk menentukan kedekatan, atau membandingkan pendapatan di berbagai negara.

Sistem petak S2 dan H3

Bagian ini memberikan ringkasan sistem petak S2 dan H3.

S2

Geometri S2 adalah sistem petak hierarkis open source yang dikembangkan oleh Google dan dirilis ke publik pada tahun 2011. Anda dapat menggunakan sistem petak S2 untuk mengatur dan mengindeks data spasial dengan menetapkan bilangan bulat 64-bit unik ke setiap sel. Ada 31 tingkat resolusi. Setiap sel direpresentasikan sebagai persegi dan dirancang untuk operasi pada geometri bola (terkadang disebut geografi). Setiap kotak dibagi lagi menjadi empat kotak yang lebih kecil. Penelusuran tetangga, yang merupakan kemampuan untuk mengidentifikasi sel S2 tetangga, kurang terdefinisi dengan baik karena persegi dapat memiliki empat atau delapan tetangga yang relevan, bergantung pada jenis analisis. Berikut adalah contoh sel petak S2 multi-resolusi:

Contoh sel petak S2.

BigQuery menggunakan sel S2 untuk mengindeks data spasial dan mengekspos beberapa fungsi. Misalnya, S2_CELLIDFROMPOINT menampilkan ID sel S2 yang berisi titik di permukaan bumi pada tingkat tertentu.

H3

H3 adalah sistem petak hierarkis open source yang dikembangkan oleh Uber dan digunakan oleh Overture Maps. Ada 16 tingkat resolusi. Setiap sel ditampilkan sebagai segi enam, dan seperti S2, setiap sel diberi bilangan bulat 64-bit yang unik. Dalam contoh tentang visualisasi sel H3 yang mencakup Teluk Meksiko, sel H3 yang lebih kecil tidak sepenuhnya tercakup oleh sel yang lebih besar.

Setiap sel dibagi lagi menjadi tujuh heksagon yang lebih kecil. Subdivisi ini tidak persis, tetapi cukup untuk banyak kasus penggunaan. Setiap sel berbagi tepi dengan enam sel tetangga, sehingga menyederhanakan penelusuran tetangga. Misalnya, di setiap level, ada 12 pentagon, yang berbagi tepi dengan lima tetangga, bukan enam. Meskipun H3 tidak didukung di BigQuery, Anda dapat menambahkan dukungan H3 ke BigQuery menggunakan Carto Analytics Toolbox untuk BigQuery.

Meskipun library S2 dan H3 bersifat open source dan tersedia dalam lisensi Apache 2, library H3 memiliki dokumentasi yang lebih mendetail.

HEALPix

Skema tambahan untuk mengotak-otakkan bola, yang umum digunakan di bidang astronomi, dikenal sebagai Hierarchical Equal Area isoLatitude Pixelation (HEALPix). HEALPix tidak bergantung pada kedalaman piksel hierarkis, tetapi waktu komputasi tetap konstan.

HEALPix adalah skema pikselisasi area yang sama dan hierarkis untuk bola. Diagram ini digunakan untuk merepresentasikan dan menganalisis data pada bola langit (atau lainnya). Selain waktu komputasi yang konstan, petak HEALPix memiliki karakteristik berikut:

  • Sel petak bersifat hierarkis, dengan hubungan induk-turunan dipertahankan.
  • Pada hierarki tertentu, sel memiliki area yang sama.
  • Sel mengikuti distribusi iso-lintang, sehingga memungkinkan performa yang lebih tinggi untuk metode spektral.

BigQuery tidak mendukung HEALPix, tetapi ada banyak penerapan di berbagai bahasa, termasuk JavaScript, yang membuatnya mudah digunakan dalam fungsi yang ditentukan pengguna (UDF) BigQuery.

Contoh kasus penggunaan untuk setiap strategi pengindeksan

Bagian ini memberikan beberapa contoh yang membantu Anda mengevaluasi sistem petak terbaik untuk kasus penggunaan Anda.

Banyak kasus penggunaan analisis dan pelaporan melibatkan visualisasi, baik sebagai bagian dari analisis itu sendiri maupun untuk pelaporan kepada pemangku kepentingan bisnis. Visualisasi ini biasanya ditampilkan dalam Web Mercator, yang merupakan proyeksi planar yang digunakan oleh Google Maps dan banyak aplikasi pemetaan web lainnya. Dalam kasus ketika visualisasi memainkan peran penting, sel H3 memberikan pengalaman visualisasi yang lebih baik secara subjektif. Sel S2, terutama pada lintang yang lebih tinggi, cenderung tampak lebih terdistorsi daripada H3, dan tidak tampak konsisten dengan sel lintang yang lebih rendah saat ditampilkan dalam proyeksi planar.

Sel H3 menyederhanakan penerapan saat perbandingan tetangga memainkan peran penting dalam analisis. Misalnya, analisis komparatif antara bagian-bagian kota dapat membantu memutuskan lokasi mana yang cocok untuk membuka toko retail atau pusat distribusi baru. Analisis ini memerlukan perhitungan statistik untuk atribut sel tertentu yang dibandingkan dengan sel di sekitarnya.

Sel S2 dapat berfungsi lebih baik dalam analisis yang bersifat global, seperti analisis yang melibatkan pengukuran jarak dan sudut. Pokemon Go dari Niantic menggunakan sel S2 untuk menentukan lokasi penempatan aset game dan cara pendistribusiannya. Properti subdivisi yang tepat dari sel S2 memastikan bahwa aset game dapat didistribusikan secara merata di seluruh dunia.

Langkah berikutnya