Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Esegui la classificazione con un modello boosted tree

Questo tutorial ti insegna a utilizzare un modello di classificazione basato su alberi potenziati per prevedere la fascia di reddito delle persone in base ai loro dati demografici. Il modello prevede se un valore rientra in una delle due categorie, in questo caso se il reddito annuo di un individuo è superiore o inferiore a 50.000 $.

Questo tutorial utilizza il set di dati bigquery-public-data.ml_datasets.census_adult_income. Questo set di dati contiene informazioni demografiche e sul reddito dei residenti negli Stati Uniti nel 2000 e nel 2010.

Obiettivi

Questo tutorial ti guida nel completamento delle seguenti attività:

Creazione di un modello di alberi potenziati per prevedere la fascia di reddito dei partecipanti al censimento utilizzando l'istruzione CREATE MODEL.
Valutazione del modello utilizzando la funzione ML.EVALUATE.
Ottenere previsioni dal modello utilizzando la funzione ML.PREDICT.

Costi

Questo tutorial utilizza componenti fatturabili di Google Cloud, tra cui:

BigQuery
BigQuery ML

Per ulteriori informazioni sui costi di BigQuery, consulta la pagina Prezzi di BigQuery.

Per ulteriori informazioni sui costi di BigQuery ML, consulta Prezzi di BigQuery ML.

Prima di iniziare

Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei carichi di lavoro.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

BigQuery viene attivato automaticamente nei nuovi progetti. Per attivare BigQuery in un progetto preesistente, vai a
Abilita l'API BigQuery.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre dell'autorizzazione serviceusage.services.enable. Se hai creato il progetto, probabilmente disponi già di questa autorizzazione tramite il ruolo Proprietario (roles/owner). In caso contrario, puoi ottenere questa autorizzazione tramite il ruolo Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin). Scopri come concedere i ruoli.
Abilitare l'API

Autorizzazioni richieste

Per creare il set di dati, devi disporre dell'autorizzazione IAM bigquery.datasets.create.
Per creare il modello, devi disporre delle seguenti autorizzazioni:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:
- bigquery.models.getData
- bigquery.jobs.create

Per saperne di più sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Introduzione a IAM.

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML.

Console

Nella console Google Cloud , vai alla pagina BigQuery.

Vai alla pagina BigQuery
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su Visualizza azioni > Crea set di dati.
Nella pagina Crea set di dati, segui questi passaggi:
- In ID set di dati, inserisci bqml_tutorial.
- Per Tipo di località, seleziona Più regioni, quindi seleziona Stati Uniti.
- Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk --dataset.

Crea un set di dati denominato bqml_tutorial con la località dei dati impostata su US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Verifica che il set di dati sia stato creato:
```
bq ls
```

API

Chiama il metodo datasets.insert con una risorsa dataset definita.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Prima di provare questo esempio, segui le istruzioni di configurazione di BigQuery DataFrames nella guida rapida di BigQuery per l'utilizzo di BigQuery DataFrames. Per ulteriori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Preparare i dati di esempio

Il modello che crei in questo tutorial prevede la fascia di reddito per i rispondenti al censimento, in base alle seguenti caratteristiche:

Età
Tipo di lavoro svolto
Stato civile
Livello di istruzione
Professione
Ore lavorate a settimana

La colonna education non è inclusa nei dati di addestramento perché le colonne education e education_num esprimono entrambe il livello di istruzione del rispondente in formati diversi.

Separa i dati in set di addestramento, valutazione e previsione creando una nuova colonna dataframe derivata dalla colonna functional_weight. L'80% dei dati viene utilizzato per l'addestramento del modello, mentre il restante 20% viene utilizzato per la valutazione e la previsione.

SQL

Per preparare i dati di esempio, crea una visualizzazione che contenga i dati di addestramento. Questa vista viene utilizzata dall'istruzione CREATE MODEL più avanti in questo tutorial.

Esegui la query che prepara i dati di esempio:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, esegui la seguente query:

CREATE OR REPLACE VIEW
  `bqml_tutorial.input_data` AS
SELECT
  age,
  workclass,
  marital_status,
  education_num,
  occupation,
  hours_per_week,
  income_bracket,
  CASE
    WHEN MOD(functional_weight, 10) < 8 THEN 'training'
    WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
    WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
  END AS dataframe
FROM
  `bigquery-public-data.ml_datasets.census_adult_income`;

Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.
Nel riquadro Spazio di esplorazione, cerca il set di dati bqml_tutorial.
Fai clic sul set di dati, poi su Panoramica > Tabelle.
Fai clic sulla visualizzazione input_data per aprire il riquadro delle informazioni. Lo schema della vista viene visualizzato nella scheda Schema.

BigQuery DataFrames

Crea un DataFrame chiamato input_data. Utilizzerai input_data più avanti in questo tutorial per addestrare il modello, valutarlo e fare previsioni.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Crea il modello boosted tree

Crea un modello di alberi potenziati per prevedere la fascia di reddito dei partecipanti al censimento e addestralo sui dati del censimento. Il completamento della query richiede circa 30 minuti.

SQL

Per creare il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

CREATE MODEL `bqml_tutorial.tree_model`
OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER',
        BOOSTER_TYPE = 'GBTREE',
        NUM_PARALLEL_TREE = 1,
        MAX_ITERATIONS = 50,
        TREE_METHOD = 'HIST',
        EARLY_STOP = FALSE,
        SUBSAMPLE = 0.85,
        INPUT_LABEL_COLS = ['income_bracket'])
AS SELECT * EXCEPT(dataframe)
FROM `bqml_tutorial.input_data`
WHERE dataframe = 'training';

Una volta completata la query, è possibile accedere al modello tree_model tramite il riquadro Explorer. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non vengono visualizzati i risultati della query.

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale.

from bigframes.ml import ensemble

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

# create and train the model
tree_model = ensemble.XGBClassifier(
    n_estimators=1,
    booster="gbtree",
    tree_method="hist",
    max_iterations=1,  # For a more accurate model, try 50 iterations.
    subsample=0.85,
)
tree_model.fit(X, y)

tree_model.to_gbq(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
    replace=True,
)

Valuta il modello

SQL

Per valutare il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

  SELECT
    *
  FROM
    ML.EVALUATE (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'evaluation'
      )
    );

I risultati dovrebbero essere simili ai seguenti:

+---------------------+---------------------+---------------------+-------------------+---------------------+---------------------+
| precision           | recall              | accuracy            | f1_score          | log_loss            | roc_auc             |
+---------------------+---------------------+---------------------+-------------------+-------------------------------------------+
| 0.67192429022082023 | 0.57880434782608692 | 0.83942963422194672 | 0.621897810218978 | 0.34405456040833338 | 0.88733566433566435 |
+---------------------+---------------------+ --------------------+-------------------+---------------------+---------------------+

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from the previous step.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = tree_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.671924  0.578804  0.839429  0.621897  0.344054  0.887335

Le metriche di valutazione indicano un buon rendimento del modello, in particolare, il fatto che il punteggio roc_auc sia superiore a 0.8.

Per ulteriori informazioni sulle metriche di valutazione, vedi Output.

Utilizzare il modello per prevedere le classificazioni

SQL

Per prevedere i dati con il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

  SELECT
    *
  FROM
    ML.PREDICT (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'prediction'
      )
    );

Le prime colonne dei risultati dovrebbero essere simili alle seguenti:

  +---------------------------+--------------------------------------+-------------------------------------+
  | predicted_income_bracket  | predicted_income_bracket_probs.label | predicted_income_bracket_probs.prob |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.05183430016040802                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.94816571474075317                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.00365859130397439                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.99634140729904175                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.037775970995426178                |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.96222406625747681                 |
  +---------------------------+--------------------------------------+-------------------------------------+

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura ADC per un ambiente di sviluppo locale.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from previous steps.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = tree_model.predict(prediction_data)
predictions.peek()
# Output:
# predicted_income_bracket   predicted_income_bracket_probs.label  predicted_income_bracket_probs.prob
#                   <=50K                                   >50K                   0.05183430016040802
#                                                           <50K                   0.94816571474075317
#                   <=50K                                   >50K                   0.00365859130397439
#                                                           <50K                   0.99634140729904175
#                   <=50K                                   >50K                   0.037775970995426178
#                                                           <50K                   0.96222406625747681

predicted_income_bracket contiene il valore previsto dal modello. predicted_income_bracket_probs.label mostra le due etichette tra cui il modello doveva scegliere, mentre la colonna predicted_income_bracket_probs.prob mostra la probabilità che l'etichetta specificata sia quella corretta.

Per saperne di più sulle colonne di output, consulta Modelli di classificazione.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Puoi eliminare il progetto che hai creato.
In alternativa, puoi conservare il progetto ed eliminare il set di dati.

Elimina il set di dati

L'eliminazione del progetto rimuove tutti i set di dati e tutte le tabelle nel progetto. Se preferisci riutilizzare il progetto, puoi eliminare il set di dati creato in questo tutorial:

Se necessario, apri la pagina BigQuery nella consoleGoogle Cloud .

Vai alla pagina BigQuery
Nel riquadro di navigazione, fai clic sul set di dati bqml_tutorial che hai creato.
Fai clic su Elimina set di dati sul lato destro della finestra. Questa azione elimina il set di dati, la tabella e tutti i dati.
Nella finestra di dialogo Elimina set di dati, conferma il comando di eliminazione digitando il nome del set di dati (bqml_tutorial) e poi fai clic su Elimina.

Elimina il progetto

Per eliminare il progetto:

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per, le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

Nella console Google Cloud , vai alla pagina Gestisci risorse.
Vai a Gestisci risorse
Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Scopri come creare un modello di classificazione di regressione logistica.
Per una panoramica di BigQuery ML, consulta Introduzione all'AI e al ML in BigQuery.

Esegui la classificazione con un modello boosted tree Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Obiettivi

Costi

Prima di iniziare

Autorizzazioni richieste

Crea un set di dati

Console

bq

API

BigQuery DataFrames

Preparare i dati di esempio

SQL

BigQuery DataFrames

Crea il modello boosted tree

SQL

BigQuery DataFrames

Valuta il modello

SQL

BigQuery DataFrames

Utilizzare il modello per prevedere le classificazioni

SQL

BigQuery DataFrames

Esegui la pulizia

Elimina il set di dati

Elimina il progetto

Passaggi successivi

Esegui la classificazione con un modello boosted tree