Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Melakukan klasifikasi dengan model hierarki yang ditingkatkan

Tutorial ini mengajarkan cara menggunakan model pengklasifikasi hierarki yang ditingkatkan untuk memprediksi rentang penghasilan individu berdasarkan data demografis mereka. Model memprediksi apakah suatu nilai termasuk dalam salah satu dari dua kategori, dalam hal ini apakah pendapatan tahunan seseorang berada di atas atau di bawah $50.000.

Tutorial ini menggunakan set data bigquery-public-data.ml_datasets.census_adult_income. Set data ini berisi informasi demografis dan pendapatan penduduk AS dari tahun 2000 hingga 2010.

Tujuan

Tutorial ini memandu Anda menyelesaikan tugas-tugas berikut:

Membuat model hierarki yang ditingkatkan untuk memprediksi rentang pendapatan responden sensus dengan menggunakan pernyataan CREATE MODEL.
Mengevaluasi model menggunakan fungsi ML.EVALUATE.
Mendapatkan prediksi dari model menggunakan fungsi ML.PREDICT.

Biaya

Tutorial ini menggunakan komponen Google Cloudyang dapat ditagih, termasuk:

BigQuery
BigQuery ML

Untuk informasi selengkapnya tentang biaya BigQuery, lihat halaman harga BigQuery.

Untuk informasi selengkapnya tentang biaya BigQuery ML, lihat harga BigQuery ML.

Sebelum memulai

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

BigQuery secara otomatis diaktifkan dalam project baru. Untuk mengaktifkan BigQuery dalam project yang sudah ada, buka
Aktifkan BigQuery API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan izin serviceusage.services.enable. Jika Anda membuat project, kemungkinan Anda sudah memiliki izin ini melalui peran Pemilik (roles/owner). Jika tidak, Anda bisa mendapatkan izin ini melalui peran Admin Penggunaan Layanan (roles/serviceusage.serviceUsageAdmin). Pelajari cara memberikan peran.
Mengaktifkan API

Izin yang Diperlukan

Untuk membuat set data, Anda memerlukan izin IAM bigquery.datasets.create.
Untuk membuat model, Anda memerlukan izin berikut:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Untuk menjalankan inferensi, Anda memerlukan izin berikut:
- bigquery.models.getData
- bigquery.jobs.create

Untuk mengetahui informasi lebih lanjut tentang peran dan izin IAM di BigQuery, baca Pengantar IAM.

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda.

Konsol

Di konsol Google Cloud , buka halaman BigQuery.

Buka halaman BigQuery
Di panel Explorer, klik nama project Anda.
Klik View actions > Create dataset.
Di halaman Create dataset, lakukan hal berikut:
- Untuk Dataset ID, masukkan bqml_tutorial.
- Untuk Location type, pilih Multi-region, lalu pilih US.
- Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

bq

Untuk membuat set data baru, gunakan perintah bq mk --dataset.

Buat set data bernama bqml_tutorial dengan lokasi data ditetapkan ke US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Pastikan set data telah dibuat:
```
bq ls
```

API

Panggil metode datasets.insert dengan resource set data yang ditentukan.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Menyiapkan data sampel

Model yang Anda buat dalam tutorial ini memprediksi rentang pendapatan responden sensus, berdasarkan fitur berikut:

Usia
Jenis pekerjaan yang dilakukan
Status pernikahan
Tingkat pendidikan
Pekerjaan
Jam kerja per minggu

Kolom education tidak disertakan dalam data pelatihan, karena kolom education dan education_num mengekspresikan tingkat pendidikan responden dalam format yang berbeda.

Anda memisahkan data ke dalam set pelatihan, evaluasi, dan prediksi dengan membuat kolom dataframe baru yang berasal dari kolom functional_weight. Delapan puluh persen data digunakan untuk melatih model, dan dua puluh persen data yang tersisa digunakan untuk evaluasi dan prediksi.

SQL

Untuk menyiapkan data sampel, buat tampilan untuk berisi data pelatihan. Tampilan ini digunakan oleh pernyataan CREATE MODEL nanti dalam tutorial ini.

Jalankan kueri yang menyiapkan data sampel:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

CREATE OR REPLACE VIEW
  `bqml_tutorial.input_data` AS
SELECT
  age,
  workclass,
  marital_status,
  education_num,
  occupation,
  hours_per_week,
  income_bracket,
  CASE
    WHEN MOD(functional_weight, 10) < 8 THEN 'training'
    WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
    WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
  END AS dataframe
FROM
  `bigquery-public-data.ml_datasets.census_adult_income`;

Di panel kiri, klik Explorer:

Jika Anda tidak melihat panel kiri, klik Luaskan panel kiri untuk membuka panel.
Di panel Explorer, telusuri set data bqml_tutorial.
Klik set data, lalu klik Ringkasan > Tabel.
Klik tampilan input_data untuk membuka panel informasi. Skema tabel virtual muncul di tab Schema.

BigQuery DataFrames

Buat DataFrame bernama input_data. Anda akan menggunakan input_data nanti dalam tutorial ini untuk melatih model, mengevaluasinya, dan membuat prediksi.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Membuat model pohon keputusan yang ditingkatkan

Buat model hierarki yang ditingkatkan untuk memprediksi rentang pendapatan responden sensus, dan latih model tersebut menggunakan data sensus. Kueri membutuhkan waktu sekitar 30 menit untuk menyelesaikannya.

SQL

Ikuti langkah-langkah berikut untuk membuat model:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, tempel kueri berikut, lalu klik Run:

CREATE MODEL `bqml_tutorial.tree_model`
OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER',
        BOOSTER_TYPE = 'GBTREE',
        NUM_PARALLEL_TREE = 1,
        MAX_ITERATIONS = 50,
        TREE_METHOD = 'HIST',
        EARLY_STOP = FALSE,
        SUBSAMPLE = 0.85,
        INPUT_LABEL_COLS = ['income_bracket'])
AS SELECT * EXCEPT(dataframe)
FROM `bqml_tutorial.input_data`
WHERE dataframe = 'training';

Setelah kueri selesai, model tree_model dapat diakses melalui panel Explorer. Karena kueri tersebut menggunakan pernyataan CREATE MODEL untuk membuat model, Anda tidak akan melihat hasil kueri.

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

from bigframes.ml import ensemble

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

# create and train the model
tree_model = ensemble.XGBClassifier(
    n_estimators=1,
    booster="gbtree",
    tree_method="hist",
    max_iterations=1,  # For a more accurate model, try 50 iterations.
    subsample=0.85,
)
tree_model.fit(X, y)

tree_model.to_gbq(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
    replace=True,
)

Mengevaluasi model

SQL

Ikuti langkah-langkah berikut untuk mengevaluasi model:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, tempel kueri berikut, lalu klik Run:

  SELECT
    *
  FROM
    ML.EVALUATE (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'evaluation'
      )
    );

Hasilnya akan terlihat seperti berikut:

+---------------------+---------------------+---------------------+-------------------+---------------------+---------------------+
| precision           | recall              | accuracy            | f1_score          | log_loss            | roc_auc             |
+---------------------+---------------------+---------------------+-------------------+-------------------------------------------+
| 0.67192429022082023 | 0.57880434782608692 | 0.83942963422194672 | 0.621897810218978 | 0.34405456040833338 | 0.88733566433566435 |
+---------------------+---------------------+ --------------------+-------------------+---------------------+---------------------+

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from the previous step.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = tree_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.671924  0.578804  0.839429  0.621897  0.344054  0.887335

Metrik evaluasi menunjukkan performa model yang baik, khususnya, fakta bahwa skor roc_auc lebih besar daripada 0.8.

Untuk mengetahui informasi selengkapnya tentang metrik evaluasi, lihat Output.

Menggunakan model untuk memprediksi klasifikasi

SQL

Ikuti langkah-langkah berikut untuk memperkirakan data dengan model:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, tempel kueri berikut, lalu klik Run:

  SELECT
    *
  FROM
    ML.PREDICT (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'prediction'
      )
    );

Beberapa kolom pertama hasil akan terlihat seperti berikut:

  +---------------------------+--------------------------------------+-------------------------------------+
  | predicted_income_bracket  | predicted_income_bracket_probs.label | predicted_income_bracket_probs.prob |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.05183430016040802                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.94816571474075317                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.00365859130397439                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.99634140729904175                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.037775970995426178                |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.96222406625747681                 |
  +---------------------------+--------------------------------------+-------------------------------------+

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from previous steps.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = tree_model.predict(prediction_data)
predictions.peek()
# Output:
# predicted_income_bracket   predicted_income_bracket_probs.label  predicted_income_bracket_probs.prob
#                   <=50K                                   >50K                   0.05183430016040802
#                                                           <50K                   0.94816571474075317
#                   <=50K                                   >50K                   0.00365859130397439
#                                                           <50K                   0.99634140729904175
#                   <=50K                                   >50K                   0.037775970995426178
#                                                           <50K                   0.96222406625747681

predicted_income_bracket berisi nilai prediksi dari model. predicted_income_bracket_probs.label menampilkan dua label yang harus dipilih model, dan kolom predicted_income_bracket_probs.prob menampilkan probabilitas bahwa label tertentu adalah yang benar.

Untuk mengetahui informasi selengkapnya tentang kolom output, lihat Model klasifikasi.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus resource satu per satu.

Anda dapat menghapus project yang dibuat.
Atau, Anda dapat menyimpan project dan menghapus set data.

Menghapus set data

Jika project Anda dihapus, semua set data dan semua tabel dalam project akan dihapus. Jika ingin menggunakan kembali project tersebut, Anda dapat menghapus set data yang dibuat dalam tutorial ini:

Jika perlu, buka halaman BigQuery di konsolGoogle Cloud .

Buka halaman BigQuery
Di navigasi, klik set data bqml_tutorial yang telah Anda buat.
Klik Delete dataset di sisi kanan jendela. Tindakan ini akan menghapus set data, tabel, dan semua data.
Pada dialog Hapus set data, konfirmasi perintah hapus dengan mengetikkan nama set data Anda (bqml_tutorial), lalu klik Hapus.

Menghapus project Anda

Untuk menghapus project:

Perhatian: Penghapusan project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika Anda menggunakan project yang ada untuk mengerjakan tugas di dokumen ini, saat Anda menghapusnya, pekerjaan lain dalam project tersebut juga akan dihapus.
Project ID kustom akan hilang. Saat membuat project ini, Anda mungkin juga membuat project ID kustom yang masih ingin digunakan pada masa mendatang. Agar tidak kehilangan URL yang menggunakan project ID tersebut, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Di konsol Google Cloud , buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah berikutnya

Pelajari cara membuat model klasifikasi regresi logistik.
Untuk ringkasan BigQuery ML, lihat Pengantar AI dan ML di BigQuery.

Melakukan klasifikasi dengan model hierarki yang ditingkatkan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Tujuan

Biaya

Sebelum memulai

Izin yang Diperlukan

Membuat set data

Konsol

bq

API

BigQuery DataFrames

Menyiapkan data sampel

SQL

BigQuery DataFrames

Membuat model pohon keputusan yang ditingkatkan

SQL

BigQuery DataFrames

Mengevaluasi model

SQL

BigQuery DataFrames

Menggunakan model untuk memprediksi klasifikasi

SQL

BigQuery DataFrames

Pembersihan

Menghapus set data

Menghapus project Anda

Langkah berikutnya

Melakukan klasifikasi dengan model hierarki yang ditingkatkan