Tutorial ini menunjukkan cara mengimpor model Open Neural Network Exchange (ONNX) yang dilatih dengan scikit-learn. Anda mengimpor model ke set data BigQuery dan menggunakannya untuk membuat prediksi menggunakan kueri SQL.
ONNX menyediakan format seragam yang dirancang untuk merepresentasikan framework machine learning (ML) apa pun. Dengan dukungan ML BigQuery untuk ONNX, Anda dapat melakukan hal berikut:
- Melatih model menggunakan framework favorit Anda.
- Mengonversi model ke format model ONNX.
- Impor model ONNX ke BigQuery dan buat prediksi menggunakan BigQuery ML.
Opsional: Melatih model dan mengonversinya ke format ONNX
Contoh kode berikut menunjukkan cara melatih model klasifikasi dengan scikit-learn dan cara mengonversi pipeline yang dihasilkan ke format ONNX. Tutorial
ini menggunakan contoh model bawaan yang disimpan di
gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx
. Anda tidak harus
menyelesaikan langkah-langkah ini jika menggunakan model contoh.
Melatih model klasifikasi dengan scikit-learn
Gunakan contoh kode berikut untuk membuat dan melatih pipeline scikit-learn pada set data Iris. Untuk mengetahui petunjuk tentang cara menginstal dan menggunakan scikit-learn, lihat panduan penginstalan scikit-learn.
import numpy
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
data = load_iris()
X = data.data[:, :4]
y = data.target
ind = numpy.arange(X.shape[0])
numpy.random.shuffle(ind)
X = X[ind, :].copy()
y = y[ind].copy()
pipe = Pipeline([('scaler', StandardScaler()),
('clr', RandomForestClassifier())])
pipe.fit(X, y)
Mengonversi pipeline menjadi model ONNX
Gunakan contoh kode berikut di sklearn-onnx untuk mengonversi pipeline scikit-learn menjadi model ONNX yang diberi nama pipeline_rf.onnx
.
from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType
# Disable zipmap as it is not supported in BigQuery ML.
options = {id(pipe): {'zipmap': False}}
# Define input features. scikit-learn does not store information about the
# training dataset. It is not always possible to retrieve the number of features
# or their types. That's why the function needs another argument called initial_types.
initial_types = [
('sepal_length', FloatTensorType([None, 1])),
('sepal_width', FloatTensorType([None, 1])),
('petal_length', FloatTensorType([None, 1])),
('petal_width', FloatTensorType([None, 1])),
]
# Convert the model.
model_onnx = convert_sklearn(
pipe, 'pipeline_rf', initial_types=initial_types, options=options
)
# And save.
with open('pipeline_rf.onnx', 'wb') as f:
f.write(model_onnx.SerializeToString())
Mengupload model ONNX ke Cloud Storage
Setelah menyimpan model, lakukan hal berikut:
- Buat bucket Cloud Storage untuk menyimpan model.
- Upload model ONNX ke bucket Cloud Storage Anda.
Membuat set data
Buat set data BigQuery untuk menyimpan model ML Anda.
Konsol
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, klik nama project Anda.
Klik
View actions > Create dataset.Di halaman Create dataset, lakukan hal berikut:
Untuk Dataset ID, masukkan
bqml_tutorial
.Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).
Jangan ubah setelan default yang tersisa, lalu klik Create dataset.
bq
Untuk membuat set data baru, gunakan perintah bq mk
dengan flag --location
. Untuk daftar lengkap kemungkinan parameter, lihat referensi
perintah bq mk --dataset
.
Buat set data bernama
bqml_tutorial
dengan lokasi data yang ditetapkan keUS
dan deskripsiBigQuery ML tutorial dataset
:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Perintah ini menggunakan pintasan
-d
, bukan flag--dataset
. Jika Anda menghapus-d
dan--dataset
, perintah defaultnya adalah membuat set data.Pastikan set data telah dibuat:
bq ls
API
Panggil metode datasets.insert
dengan resource set data yang ditentukan.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
BigQuery DataFrames
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.
Mengimpor model ONNX ke BigQuery
Langkah-langkah berikut menunjukkan cara mengimpor model ONNX contoh dari
Cloud Storage menggunakan pernyataan CREATE MODEL
.
Untuk mengimpor model ONNX ke set data Anda, pilih salah satu opsi berikut:
Konsol
Di konsol Google Cloud , buka halaman BigQuery Studio.
Di editor kueri, masukkan pernyataan
CREATE MODEL
berikut.CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model` OPTIONS (MODEL_TYPE='ONNX', MODEL_PATH='BUCKET_PATH')
Ganti
BUCKET_PATH
dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model sampel, gantiBUCKET_PATH
dengan nilai berikut:gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx
.Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut:
Successfully created model named imported_onnx_model
.Model baru Anda akan muncul di panel Resources. Model ditunjukkan dengan ikon model:
Jika Anda memilih model baru di panel Resources, informasi tentang model akan muncul di samping Query editor.
bq
Impor model ONNX dari Cloud Storage dengan memasukkan pernyataan
CREATE MODEL
berikut.bq query --use_legacy_sql=false \ "CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model` OPTIONS (MODEL_TYPE='ONNX', MODEL_PATH='BUCKET_PATH')"
Ganti
BUCKET_PATH
dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model sampel, gantiBUCKET_PATH
dengan nilai berikut:gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx
.Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut:
Successfully created model named imported_onnx_model
.Setelah mengimpor model, verifikasi bahwa model muncul di set data.
bq ls -m bqml_tutorial
Outputnya mirip dengan hal berikut ini:
tableId Type --------------------- ------- imported_onnx_model MODEL
BigQuery DataFrames
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.
Impor model menggunakan objek ONNXModel
.
Untuk mengetahui informasi selengkapnya tentang cara mengimpor model ONNX ke BigQuery, termasuk persyaratan format dan penyimpanan, lihat Pernyataan CREATE MODEL
untuk mengimpor model ONNX.
Membuat prediksi dengan model ONNX yang diimpor
Setelah mengimpor model ONNX, Anda menggunakan fungsi ML.PREDICT
untuk membuat
prediksi dengan model.
Kueri dalam langkah-langkah berikut menggunakan imported_onnx_model
untuk membuat prediksi menggunakan data input dari tabel iris
dalam set data publik ml_datasets
. Model
ONNX mengharapkan empat nilai FLOAT
sebagai input:
sepal_length
sepal_width
petal_length
petal_width
Input ini cocok dengan initial_types
yang ditentukan saat Anda mengonversi model ke format ONNX.
Output mencakup kolom label
dan probabilities
, serta kolom dari tabel input. label
merepresentasikan label class yang diprediksi.
probabilities
adalah array probabilitas yang mewakili probabilitas untuk setiap class.
Untuk membuat prediksi dengan model ONNX yang diimpor, pilih salah satu opsi berikut:
Konsol
Buka halaman BigQuery Studio.
Di editor kueri, masukkan kueri ini yang menggunakan fungsi
ML.PREDICT
.SELECT * FROM ML.PREDICT(MODEL `bqml_tutorial.imported_onnx_model`, ( SELECT * FROM `bigquery-public-data.ml_datasets.iris` ) )
Hasil kuerinya mirip dengan berikut ini:
bq
Jalankan kueri yang menggunakan ML.PREDICT
.
bq query --use_legacy_sql=false \ 'SELECT * FROM ML.PREDICT( MODEL `example_dataset.imported_onnx_model`, (SELECT * FROM `bigquery-public-data.ml_datasets.iris`))'
BigQuery DataFrames
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.
Gunakan fungsi predict
untuk menjalankan model ONNX.
Hasilnya mirip dengan berikut ini: