Pengantar ML di BigQuery
BigQuery ML memungkinkan Anda membuat dan menjalankan model machine learning (ML) menggunakan kueri GoogleSQL atau Google Cloud konsol. Model BigQuery ML disimpan dalam set data BigQuery, mirip dengan tabel dan tabel virtual. BigQuery ML juga memungkinkan Anda mengakses model Gemini Enterprise Agent Platform dan Cloud AI API untuk menjalankan tugas kecerdasan buatan (AI) seperti pembuatan teks atau terjemahan mesin. Gemini for Google Cloud juga menyediakan bantuan yang didukung AI untuk tugas BigQuery. Untuk melihat daftar fitur yang didukung AI di BigQuery, lihat Ringkasan Gemini di BigQuery.
Biasanya, menjalankan ML atau AI pada set data besar memerlukan banyak pemrograman dan pengetahuan tentang framework ML. Hal ini membuat upaya pengembangan solusi hanya dapat dilakukan oleh sekelompok kecil orang di perusahaan, tanpa melibatkan data analyst yang memiliki pemahaman atas data, tetapi tidak cukup memiliki pengetahuan ML dan keahlian pemrograman. Namun, dengan BigQuery ML, praktisi SQL dapat menggunakan alat dan keterampilan SQL yang ada untuk membangun dan mengevaluasi model, serta membuat hasil dari LLM dan Cloud AI API.
Anda dapat menggunakan kemampuan BigQuery ML dengan menggunakan hal berikut:
- Antarmuka pengguna konsol, untuk menggunakan model menggunakan UI. Google Cloud (Pratinjau)
- Editor kueri konsol, untuk menggunakan model menggunakan kueri SQL. Google Cloud
- Alat command line bq
- REST API BigQuery
- Notebook Colab Enterprise yang terintegrasi di BigQuery
- Alat eksternal seperti Jupyter notebook atau platform business intelligence
Keunggulan BigQuery ML
BigQuery ML menawarkan beberapa keunggulan dibandingkan dengan pendekatan lain dalam menggunakan ML atau AI dengan data warehouse berbasis cloud:
- BigQuery ML mendemokrasikan penggunaan ML dan AI dengan memberdayakan analis data, pengguna data warehouse utama, untuk membangun dan menjalankan model menggunakan alat dan spreadsheet business intelligence yang sudah ada. Analisis prediktif dapat memandu proses pengambilan keputusan bisnis di seluruh perusahaan.
- Anda tidak perlu memprogram solusi ML atau AI menggunakan Python atau Java. Anda melatih model dan mengakses resource AI menggunakan SQL — bahasa yang tidak asing bagi analis data.
BigQuery ML meningkatkan kecepatan pengembangan dan inovasi model dengan meniadakan kebutuhan untuk memindahkan data dari data warehouse. Sebagai gantinya, BigQuery ML menghadirkan ML ke data, yang menawarkan manfaat berikut:
- Mengurangi kerumitan karena memerlukan lebih sedikit alat.
- Meningkatkan kecepatan ke produksi karena memindahkan dan memformat data dalam jumlah besar untuk framework ML berbasis Python tidak diperlukan dalam melatih model di BigQuery.
Untuk mengetahui informasi selengkapnya, tonton video Cara mempercepat pengembangan machine learning dengan BigQuery ML.
Pengetahuan yang direkomendasikan
Dengan menggunakan setelan default dalam pernyataan CREATE MODEL dan fungsi inferensi, Anda dapat membuat dan menggunakan model BigQuery ML meskipun tanpa banyak pengetahuan ML. Namun, memiliki pengetahuan dasar tentang siklus proses pengembangan ML, seperti rekayasa fitur dan pelatihan model, akan membantu Anda mengoptimalkan data dan model untuk memberikan hasil yang lebih baik. Sebaiknya gunakan referensi berikut untuk mengembangkan pemahaman tentang teknik dan proses ML:
- Kursus Singkat Machine Learning
- Pengantar Machine Learning
- Pembersihan Data
- Rekayasa Fitur
- Machine Learning Tingkat Menengah
Menggunakan deret waktu
Anda dapat menggunakan model TimesFM, ARIMA_PLUS, dan ARIMA_PLUS_XREG untuk melakukan
perkiraan dan
deteksi anomali
pada data deret waktu.
Melakukan analisis kontribusi
Anda dapat membuat model analisis kontribusi untuk menghasilkan insight tentang perubahan pada metrik utama dalam data multi-dimensi. Misalnya, Anda dapat mengetahui data apa yang berkontribusi pada perubahan pendapatan.
Model yang didukung
Model di BigQuery ML mewakili apa yang telah dipelajari sistem ML dari data pelatihan. Bagian berikut menjelaskan jenis model yang didukung BigQuery ML. Untuk mengetahui informasi selengkapnya tentang cara membuat penetapan pemesanan untuk berbagai jenis model, lihat Menetapkan slot ke workload BigQuery ML.
Model yang dilatih secara internal
Model berikut merupakan bawaan di BigQuery ML:
- Analisis kontribusi digunakan untuk menentukan efek satu atau beberapa dimensi pada nilai untuk metrik tertentu. Misalnya, melihat efek lokasi toko dan tanggal penjualan pada pendapatan toko. Untuk mengetahui informasi selengkapnya, lihat Ringkasan analisis kontribusi.
- Regresi linear digunakan untuk memprediksi nilai metrik numerik untuk data baru menggunakan model yang dilatih pada data jarak jauh yang serupa. Label bernilai nyata, artinya tidak boleh bernilai tak terhingga positif atau tak terhingga negatif atau NaN (Bukan Angka).
- Regresi logistik
digunakan untuk klasifikasi dua atau beberapa nilai yang mungkin, seperti apakah
inputnya
low-value,medium-value, atauhigh-value. Label dapat memiliki hingga 50 nilai unik. - Pengelompokan k-means ditujukan untuk segmentasi data. Misalnya, model ini mengidentifikasi segmen pelanggan. K-means adalah teknik unsupervised learning, sehingga pelatihan model tidak memerlukan label atau data terpisah untuk pelatihan atau evaluasi.
- Faktorisasi matriks digunakan untuk membuat sistem rekomendasi produk. Anda dapat membuat rekomendasi produk menggunakan histori perilaku pelanggan, transaksi, dan rating produk, lalu menggunakan rekomendasi tersebut untuk pengalaman pelanggan yang dipersonalisasi.
- Analisis komponen utama (PCA) adalah proses komputasi komponen utama dan penggunaan komponen tersebut untuk melakukan perubahan dasar pada data. Analisis ini biasanya digunakan untuk pengurangan dimensi dengan memproyeksikan setiap titik data ke hanya beberapa komponen utama pertama guna mendapatkan data dimensi yang lebih rendah sekaligus mempertahankan variasi data sebanyak mungkin.
Deret waktu digunakan untuk menjalankan perkiraan deret waktu dan deteksi anomali. Model deret waktu
ARIMA_PLUSdanARIMA_PLUS_XREGmenawarkan beberapa opsi penyetelan, dan otomatis menangani anomali, tren musiman, dan hari libur.Jika tidak ingin mengelola model perkiraan deret waktu Anda sendiri, Anda dapat menggunakan fungsi
AI.FORECASTdengan model deret waktu TimesFMbawaan BigQuery ML (Pratinjau) untuk melakukan perkiraan.
Anda dapat menjalankan uji coba pada
CREATE MODEL pernyataan untuk model yang dilatih secara internal guna mendapatkan perkiraan
jumlah data yang akan diproses jika Anda menjalankannya.
Model yang dilatih secara eksternal
Model berikut merupakan model eksternal dari BigQuery ML dan dilatih di Agent Platform:
- Deep neural network (DNN) digunakan untuk membuat jaringan neural dalam berbasis TensorFlow untuk model klasifikasi dan regresi.
- Wide & Deep berguna untuk masalah regresi dan klasifikasi generik berskala besar dengan input sparse (fitur kategoris dengan sejumlah besar nilai fitur yang mungkin), seperti sistem pemberi rekomendasi, penelusuran, dan masalah peringkat.
- Autoencoder digunakan untuk membuat model berbasis TensorFlow dengan dukungan representasi data sparse. Anda dapat menggunakan model di BigQuery ML untuk tugas-tugas seperti deteksi anomali yang tidak diawasi dan pengurangan dimensi non-linear.
- Boosted trees digunakan untuk membuat model klasifikasi dan regresi yang didasarkan pada XGBoost.
- Hutan acak digunakan untuk membuat beberapa pohon keputusan metode pembelajaran untuk klasifikasi, regresi, dan tugas lainnya pada waktu pelatihan.
- AutoML adalah layanan ML yang diawasi yang membangun dan men-deploy model klasifikasi dan regresi pada data berbentuk tabel dengan kecepatan dan skala tinggi.
Anda tidak dapat menjalankan uji coba pada
CREATE MODEL pernyataan untuk model yang dilatih secara eksternal guna mendapatkan perkiraan
jumlah data yang akan diproses jika Anda menjalankannya.
Model jarak jauh
Anda dapat membuat
model jarak jauh
di BigQuery yang menggunakan model yang di-deploy ke Vertex AI.
Anda merujuk model yang di-deploy dengan menentukan
endpoint HTTPS
model tersebut dalam pernyataan CREATE MODEL pada model jarak jauh.
Pernyataan CREATE MODEL untuk model jarak jauh tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.
Model yang diimpor
Dengan BigQuery ML, Anda dapat mengimpor model kustom yang dilatih di luar BigQuery, lalu melakukan prediksi dalam BigQuery. Anda dapat mengimpor model berikut ke BigQuery dari Cloud Storage:
- Pertukaran Jaringan Neural Terbuka (ONNX) adalah format standar terbuka untuk merepresentasikan model ML. Dengan ONNX, Anda dapat membuat model yang dilatih dengan framework ML populer, seperti PyTorch dan scikit-learn yang tersedia di BigQuery ML.
- TensorFlow adalah library software open source gratis untuk ML dan kecerdasan buatan. Anda dapat menggunakan TensorFlow di berbagai tugas, tetapi ia memiliki fokus khusus pada pelatihan dan inferensi jaringan neural dalam. Anda dapat memuat model TensorFlow yang telah dilatih sebelumnya ke BigQuery sebagai model BigQuery ML, lalu melakukan prediksi di BigQuery ML.
- TensorFlow Lite adalah versi ringan dari TensorFlow untuk deployment di perangkat seluler, mikrokontroler, dan perangkat edge lainnya. TensorFlow mengoptimalkan model TensorFlow yang ada untuk mengurangi ukuran model dan inferensi yang lebih cepat.
- XGBoost adalah library peningkatan gradien terdistribusi yang dioptimalkan dan dirancang agar sangat efisien, fleksibel, dan portabel. Solusi ini menerapkan algoritma ML dalam framework peningkatan gradien.
Pernyataan CREATE MODEL untuk model yang diimpor tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.
Di BigQuery ML, Anda dapat menggunakan model dengan data dari beberapa Set Data BigQuery untuk pelatihan dan untuk prediksi.
Panduan pemilihan model
Download pohon keputusan pemilihan model.
BigQuery ML dan Agent Platform
BigQuery ML terintegrasi dengan Agent Platform, yang merupakan platform menyeluruh untuk AI dan ML di Google Cloud. Anda dapat mendaftarkan model BigQuery ML ke Model Registry untuk men-deploy model ini ke endpoint untuk prediksi online. Untuk informasi selengkapnya, lihat referensi berikut:
- Untuk mempelajari lebih lanjut cara menggunakan model BigQuery ML dengan Agent Platform, lihat Mengelola model BigQuery ML dengan Agent Platform.
- Jika Anda tidak terbiasa dengan Agent Platform dan ingin mempelajari lebih lanjut caranya berintegrasi dengan BigQuery ML, lihat Agent Platform untuk pengguna BigQuery.
- Tonton video Cara menyederhanakan model AI dengan Agent Platform dan BigQuery ML.
BigQuery ML dan Colab Enterprise
Anda kini dapat menggunakan notebook Colab Enterprise untuk menjalankan alur kerja ML di BigQuery. Notebook memungkinkan Anda menggunakan SQL, Python, serta library dan bahasa populer lainnya untuk menyelesaikan tugas ML. Untuk mengetahui informasi selengkapnya, lihat Membuat notebook.
Region yang didukung
BigQuery ML didukung di region yang sama dengan BigQuery. Untuk mengetahui informasi selengkapnya, baca artikel Lokasi BigQuery ML.
Harga
Anda akan dikenai biaya untuk resource komputasi yang Anda gunakan untuk melatih model dan menjalankan kueri terhadap model. Jenis model yang Anda buat memengaruhi tempat model dilatih dan harga yang berlaku untuk operasi tersebut. Kueri terhadap model selalu berjalan di BigQuery dan menggunakan harga komputasi BigQuery. Karena model jarak jauh melakukan panggilan ke Agent Platform model, kueri terhadap model jarak jauh juga dikenai biaya dari Agent Platform.
Anda akan dikenai biaya untuk penyimpanan yang digunakan oleh model terlatih, menggunakan harga penyimpanan BigQuery.
Untuk mengetahui informasi selengkapnya, lihat Harga BigQuery ML.
Kuota
Selain batas khusus BigQuery ML, kueri yang menggunakan fungsi BigQuery ML dan pernyataan CREATE MODEL tunduk pada kuota dan batasan di tugas kueri BigQuery.
Batasan
- BigQuery ML tidak tersedia dalam edisi Standar.
Langkah berikutnya
- Untuk mulai menggunakan BigQuery ML, lihat Membuat model machine learning di BigQuery ML.
- Untuk mempelajari machine learning dan BigQuery ML lebih lanjut, baca referensi berikut:
- Program pelatihan Analisis smart dan pengelolaan data
- Kursus singkat machine learning
- Glosarium machine learning
- Untuk mempelajari MLOps dengan Model Registry, lihat Mengelola model BigQuery ML di Agent Platform.
Untuk mengetahui informasi selengkapnya tentang pernyataan dan fungsi SQL yang didukung untuk berbagai jenis model, lihat dokumen berikut: