Ringkasan pengurangan dimensi

Pengurangan dimensi adalah istilah umum untuk sekumpulan teknik matematika yang digunakan untuk merekam bentuk dan hubungan data dalam ruang berdimensi tinggi dan menerjemahkan informasi ini ke dalam ruang berdimensi rendah.

Pengurangan dimensi penting saat Anda bekerja dengan set data besar yang dapat berisi ribuan fitur. Dalam ruang data yang begitu besar, rentang jarak yang lebih luas antara titik data dapat membuat output model lebih sulit ditafsirkan. Misalnya, sulit untuk memahami titik data mana yang lebih berdekatan dan oleh karena itu merepresentasikan data yang lebih serupa. Pengurangan dimensi membantu Anda mengurangi jumlah fitur sambil mempertahankan karakteristik paling penting dari set data. Mengurangi jumlah fitur juga membantu mengurangi waktu pelatihan model apa pun yang menggunakan data sebagai input.

BigQuery ML menawarkan model berikut untuk reduksi dimensi:

Anda dapat menggunakan model PCA dan autoencoder dengan fungsi ML.PREDICT atau AI.GENERATE_EMBEDDING untuk menyematkan data ke dalam ruang berdimensi lebih rendah, dan dengan fungsi ML.DETECT_ANOMALIES untuk melakukan deteksi anomali.

Anda dapat menggunakan output dari model reduksi dimensi untuk tugas seperti berikut:

  • Penelusuran kesamaan: Temukan titik data yang mirip satu sama lain berdasarkan embedding-nya. Hal ini sangat berguna untuk menemukan produk terkait, merekomendasikan konten serupa, atau mengidentifikasi item duplikat atau anomali.
  • Pengelompokan: Gunakan penyematan sebagai fitur input untuk model k-means guna mengelompokkan titik data berdasarkan kesamaannya. Hal ini dapat membantu Anda menemukan pola dan insight tersembunyi dalam data Anda.
  • Machine learning: Gunakan penyematan sebagai fitur input untuk model klasifikasi atau regresi.

Dengan menggunakan setelan default dalam pernyataan CREATE MODEL dan fungsi inferensi, Anda dapat membuat dan menggunakan model pengurangan dimensi meskipun tanpa banyak pengetahuan ML. Namun, memiliki pengetahuan dasar tentang pengembangan ML membantu Anda mengoptimalkan data dan model untuk memberikan hasil yang lebih baik. Sebaiknya gunakan referensi berikut untuk mengembangkan pemahaman tentang teknik dan proses ML: