Membuat prediksi dengan model scikit-learn dalam format ONNX

Tutorial ini menunjukkan cara mengimpor model Open Neural Network Exchange (ONNX) yang dilatih dengan scikit-learn. Anda mengimpor model ke set data BigQuery dan menggunakannya untuk membuat prediksi menggunakan kueri SQL.

ONNX menyediakan format seragam yang dirancang untuk merepresentasikan framework machine learning (ML) apa pun. Dengan dukungan ML BigQuery untuk ONNX, Anda dapat melakukan hal berikut:

  • Melatih model menggunakan framework favorit Anda.
  • Mengonversi model ke format model ONNX.
  • Impor model ONNX ke BigQuery dan buat prediksi menggunakan BigQuery ML.

Opsional: Melatih model dan mengonversinya ke format ONNX

Contoh kode berikut menunjukkan cara melatih model klasifikasi dengan scikit-learn dan cara mengonversi pipeline yang dihasilkan ke format ONNX. Tutorial ini menggunakan contoh model bawaan yang disimpan di gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx. Anda tidak harus menyelesaikan langkah-langkah ini jika menggunakan model contoh.

Melatih model klasifikasi dengan scikit-learn

Gunakan contoh kode berikut untuk membuat dan melatih pipeline scikit-learn pada set data Iris. Untuk mengetahui petunjuk tentang cara menginstal dan menggunakan scikit-learn, lihat panduan penginstalan scikit-learn.

import numpy
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data[:, :4]
y = data.target

ind = numpy.arange(X.shape[0])
numpy.random.shuffle(ind)
X = X[ind, :].copy()
y = y[ind].copy()

pipe = Pipeline([('scaler', StandardScaler()),
                ('clr', RandomForestClassifier())])
pipe.fit(X, y)

Mengonversi pipeline menjadi model ONNX

Gunakan contoh kode berikut di sklearn-onnx untuk mengonversi pipeline scikit-learn menjadi model ONNX yang diberi nama pipeline_rf.onnx.

from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType

# Disable zipmap as it is not supported in BigQuery ML.
options = {id(pipe): {'zipmap': False}}

# Define input features. scikit-learn does not store information about the
# training dataset. It is not always possible to retrieve the number of features
# or their types. That's why the function needs another argument called initial_types.
initial_types = [
   ('sepal_length', FloatTensorType([None, 1])),
   ('sepal_width', FloatTensorType([None, 1])),
   ('petal_length', FloatTensorType([None, 1])),
   ('petal_width', FloatTensorType([None, 1])),
]

# Convert the model.
model_onnx = convert_sklearn(
   pipe, 'pipeline_rf', initial_types=initial_types, options=options
)

# And save.
with open('pipeline_rf.onnx', 'wb') as f:
 f.write(model_onnx.SerializeToString())

Mengupload model ONNX ke Cloud Storage

Setelah menyimpan model, lakukan hal berikut:

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda.

Konsol

  1. Di konsol Google Cloud , buka halaman BigQuery.

    Buka halaman BigQuery

  2. Di panel Explorer, klik nama project Anda.

  3. Klik View actions > Create dataset.

  4. Di halaman Create dataset, lakukan hal berikut:

    • Untuk Dataset ID, masukkan bqml_tutorial.

    • Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).

    • Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

bq

Untuk membuat set data baru, gunakan perintah bq mk dengan flag --location. Untuk daftar lengkap kemungkinan parameter, lihat referensi perintah bq mk --dataset.

  1. Buat set data bernama bqml_tutorial dengan lokasi data yang ditetapkan ke US dan deskripsi BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Perintah ini menggunakan pintasan -d, bukan flag --dataset. Jika Anda menghapus -d dan --dataset, perintah defaultnya adalah membuat set data.

  2. Pastikan set data telah dibuat:

    bq ls

API

Panggil metode datasets.insert dengan resource set data yang ditentukan.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Mengimpor model ONNX ke BigQuery

Langkah-langkah berikut menunjukkan cara mengimpor model ONNX contoh dari Cloud Storage menggunakan pernyataan CREATE MODEL.

Untuk mengimpor model ONNX ke set data Anda, pilih salah satu opsi berikut:

Konsol

  1. Di konsol Google Cloud , buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan pernyataan CREATE MODEL berikut.

     CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model`
      OPTIONS (MODEL_TYPE='ONNX',
       MODEL_PATH='BUCKET_PATH')

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model sampel, ganti BUCKET_PATH dengan nilai berikut: gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut: Successfully created model named imported_onnx_model.

    Model baru Anda akan muncul di panel Resources. Model ditunjukkan dengan ikon model: Ikon model di panel Resources Jika Anda memilih model baru di panel Resources, informasi tentang model akan muncul di samping Query editor.

    Panel informasi untuk `imported_onnx_model`

bq

  1. Impor model ONNX dari Cloud Storage dengan memasukkan pernyataan CREATE MODEL berikut.

    bq query --use_legacy_sql=false \
    "CREATE OR REPLACE MODEL
    `bqml_tutorial.imported_onnx_model`
    OPTIONS
    (MODEL_TYPE='ONNX',
      MODEL_PATH='BUCKET_PATH')"

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model sampel, ganti BUCKET_PATH dengan nilai berikut: gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut: Successfully created model named imported_onnx_model.

  2. Setelah mengimpor model, verifikasi bahwa model muncul di set data.

    bq ls -m bqml_tutorial

    Outputnya mirip dengan hal berikut ini:

    tableId               Type
    --------------------- -------
    imported_onnx_model  MODEL

BigQuery DataFrames

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

Impor model menggunakan objek ONNXModel.

import bigframes
from bigframes.ml.imported import ONNXModel

bigframes.options.bigquery.project = PROJECT_ID
# You can change the location to one of the valid locations: https://cloud.google.com/bigquery/docs/locations#supported_locations
bigframes.options.bigquery.location = "US"

imported_onnx_model = ONNXModel(
    model_path="gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx"
)

Untuk mengetahui informasi selengkapnya tentang cara mengimpor model ONNX ke BigQuery, termasuk persyaratan format dan penyimpanan, lihat Pernyataan CREATE MODEL untuk mengimpor model ONNX.

Membuat prediksi dengan model ONNX yang diimpor

Setelah mengimpor model ONNX, Anda menggunakan fungsi ML.PREDICT untuk membuat prediksi dengan model.

Kueri dalam langkah-langkah berikut menggunakan imported_onnx_model untuk membuat prediksi menggunakan data input dari tabel iris dalam set data publik ml_datasets. Model ONNX mengharapkan empat nilai FLOAT sebagai input:

  • sepal_length
  • sepal_width
  • petal_length
  • petal_width

Input ini cocok dengan initial_types yang ditentukan saat Anda mengonversi model ke format ONNX.

Output mencakup kolom label dan probabilities, serta kolom dari tabel input. label merepresentasikan label class yang diprediksi. probabilities adalah array probabilitas yang mewakili probabilitas untuk setiap class.

Untuk membuat prediksi dengan model ONNX yang diimpor, pilih salah satu opsi berikut:

Konsol

  1. Buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan kueri ini yang menggunakan fungsi ML.PREDICT.

    SELECT *
      FROM ML.PREDICT(MODEL `bqml_tutorial.imported_onnx_model`,
        (
        SELECT * FROM `bigquery-public-data.ml_datasets.iris`
        )
    )

    Hasil kuerinya mirip dengan berikut ini:

    Output kueri ML.PREDICT

bq

Jalankan kueri yang menggunakan ML.PREDICT.

bq query --use_legacy_sql=false \
'SELECT *
FROM ML.PREDICT(
MODEL `example_dataset.imported_onnx_model`,
(SELECT * FROM `bigquery-public-data.ml_datasets.iris`))'

BigQuery DataFrames

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

Gunakan fungsi predict untuk menjalankan model ONNX.

import bigframes.pandas as bpd

df = bpd.read_gbq("bigquery-public-data.ml_datasets.iris")
predictions = imported_onnx_model.predict(df)
predictions.peek(5)

Hasilnya mirip dengan berikut ini:

Output fungsi prediksi