O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Realizar classificação com um modelo de árvores otimizadas

Neste tutorial, você vai aprender a usar um modelo de classificador de árvores otimizadas para prever a faixa de renda de indivíduos com base nos dados demográficos deles. O modelo prevê se um valor se enquadra em uma das duas categorias. Nesse caso, se a renda anual de um indivíduo fica acima ou abaixo de US $50.000.

Neste tutorial, usamos o conjunto de dados bigquery-public-data.ml_datasets.census_adult_income. Esse conjunto contém as informações demográficas e de renda de residentes dos EUA entre 2000 e 2010.

Objetivos

Este tutorial vai orientar você nas tarefas a seguir:

Criar um modelo de árvores otimizadas para prever a faixa de renda dos participantes do censo usando a instrução CREATE MODEL.
Avalie o modelo usando a função ML.EVALUATE.
Receber previsões do modelo usando a função ML.PREDICT.

Custos

Neste tutorial, usamos componentes faturáveis do Google Cloud, incluindo:

BigQuery
BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços.

Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.

Antes de começar

Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, acesse
Ative a API BigQuery.
Funções necessárias para ativar APIs
Para ativar APIs, você precisa da permissão serviceusage.services.enable. Se você criou o projeto, provavelmente já tem essa permissão com o papel de Proprietário (roles/owner). Caso contrário, é possível receber essa permissão com o papel de Administrador do Service Usage (roles/serviceusage.serviceUsageAdmin). Saiba como conceder papéis.
Ativar a API

Permissões exigidas

Para criar o conjunto de dados, é preciso ter a permissão de IAM bigquery.datasets.create.
Para criar o modelo, você precisa das seguintes permissões:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Para executar a inferência, você precisa das seguintes permissões:
- bigquery.models.getData
- bigquery.jobs.create

Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.

Console

No console do Google Cloud , acesse a página BigQuery.

Acessar a página do BigQuery
No painel Explorer, clique no nome do seu projeto.
Clique em Conferir ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Para o código do conjunto de dados, insira bqml_tutorial.
- Em Tipo de local, selecione Multirregião e EUA.
- Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um conjunto de dados, use o comando bq mk --dataset.

Crie um conjunto de dados chamado bqml_tutorial com o local dos dados definido como US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Confirme se o conjunto de dados foi criado:
```
bq ls
```

API

Chame o método datasets.insert com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Preparar os dados de amostra

O modelo criado neste tutorial prevê a faixa de renda dos entrevistados do censo com base nos seguintes recursos:

Idade
Tipo de trabalho realizado
Estado civil
Grau de escolaridade
Profissão
Horas trabalhadas por semana

A coluna education não está incluída nos dados de treinamento porque as colunas education e education_num expressam o grau de escolaridade do entrevistado em formatos diferentes.

Separe os dados em conjuntos de treinamento, avaliação e previsão criando uma nova coluna dataframe derivada da coluna functional_weight. Oitenta por cento dos dados são usados para treinar o modelo, e os 20% restantes são usados para avaliação e previsão.

SQL

Para preparar os dados de amostra, crie uma visualização para conter os dados de treinamento. Essa visualização é usada pela instrução CREATE MODEL posteriormente neste tutorial.

Execute a consulta que prepara os dados de amostra:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No Editor de consultas, execute esta consulta:

CREATE OR REPLACE VIEW
  `bqml_tutorial.input_data` AS
SELECT
  age,
  workclass,
  marital_status,
  education_num,
  occupation,
  hours_per_week,
  income_bracket,
  CASE
    WHEN MOD(functional_weight, 10) < 8 THEN 'training'
    WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
    WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
  END AS dataframe
FROM
  `bigquery-public-data.ml_datasets.census_adult_income`;

No painel à esquerda, clique em Explorer:

Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.
No painel Explorador, pesquise o conjunto de dados bqml_tutorial.
Clique no conjunto de dados e em Visão geral > Tabelas.
Clique na visualização input_data para abrir o painel de informações. O esquema de visualização aparece na guia Esquema.

BigQuery DataFrames

Crie um DataFrame chamado input_data. Você usará input_data posteriormente neste tutorial para treinar o modelo, avaliá-lo e fazer previsões.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Criar o modelo de árvores otimizadas

Crie um modelo de árvores otimizadas para prever a faixa de renda dos entrevistados do censo e treine-o com os dados do censo. A consulta leva cerca de 30 minutos para ser concluída.

SQL

Siga estas etapas para criar o modelo:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta a seguir e clique em Executar:

CREATE MODEL `bqml_tutorial.tree_model`
OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER',
        BOOSTER_TYPE = 'GBTREE',
        NUM_PARALLEL_TREE = 1,
        MAX_ITERATIONS = 50,
        TREE_METHOD = 'HIST',
        EARLY_STOP = FALSE,
        SUBSAMPLE = 0.85,
        INPUT_LABEL_COLS = ['income_bracket'])
AS SELECT * EXCEPT(dataframe)
FROM `bqml_tutorial.input_data`
WHERE dataframe = 'training';

Depois que a consulta for concluída, o modelo tree_model poderá ser acessado pelo painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não é possível ver os resultados dela.

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

from bigframes.ml import ensemble

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

# create and train the model
tree_model = ensemble.XGBClassifier(
    n_estimators=1,
    booster="gbtree",
    tree_method="hist",
    max_iterations=1,  # For a more accurate model, try 50 iterations.
    subsample=0.85,
)
tree_model.fit(X, y)

tree_model.to_gbq(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
    replace=True,
)

Avaliar o modelo

SQL

Siga estas etapas para avaliar o modelo:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta a seguir e clique em Executar:

  SELECT
    *
  FROM
    ML.EVALUATE (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'evaluation'
      )
    );

A resposta deve ficar assim:

+---------------------+---------------------+---------------------+-------------------+---------------------+---------------------+
| precision           | recall              | accuracy            | f1_score          | log_loss            | roc_auc             |
+---------------------+---------------------+---------------------+-------------------+-------------------------------------------+
| 0.67192429022082023 | 0.57880434782608692 | 0.83942963422194672 | 0.621897810218978 | 0.34405456040833338 | 0.88733566433566435 |
+---------------------+---------------------+ --------------------+-------------------+---------------------+---------------------+

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from the previous step.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = tree_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.671924  0.578804  0.839429  0.621897  0.344054  0.887335

As métricas de avaliação indicam um bom desempenho do modelo, principalmente o fato de que a pontuação roc_auc é maior que 0.8.

Para mais informações sobre as métricas de avaliação, consulte Saída.

Usar o modelo para prever classificações

SQL

Siga estas etapas para prever dados com o modelo:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta a seguir e clique em Executar:

  SELECT
    *
  FROM
    ML.PREDICT (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'prediction'
      )
    );

As primeiras colunas dos resultados serão semelhantes a estas:

  +---------------------------+--------------------------------------+-------------------------------------+
  | predicted_income_bracket  | predicted_income_bracket_probs.label | predicted_income_bracket_probs.prob |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.05183430016040802                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.94816571474075317                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.00365859130397439                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.99634140729904175                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.037775970995426178                |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.96222406625747681                 |
  +---------------------------+--------------------------------------+-------------------------------------+

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from previous steps.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = tree_model.predict(prediction_data)
predictions.peek()
# Output:
# predicted_income_bracket   predicted_income_bracket_probs.label  predicted_income_bracket_probs.prob
#                   <=50K                                   >50K                   0.05183430016040802
#                                                           <50K                   0.94816571474075317
#                   <=50K                                   >50K                   0.00365859130397439
#                                                           <50K                   0.99634140729904175
#                   <=50K                                   >50K                   0.037775970995426178
#                                                           <50K                   0.96222406625747681

O predicted_income_bracket contém o valor previsto do modelo. O predicted_income_bracket_probs.label mostra os dois rótulos entre os quais o modelo teve que escolher, e a coluna predicted_income_bracket_probs.prob mostra a probabilidade de o rótulo fornecido ser o correto.

Para mais informações sobre as colunas de saída, consulte Modelos de classificação.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

exclua o projeto que você criou; ou
Mantenha o projeto e exclua o conjunto de dados.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

Se necessário, abra a página do BigQuery no consoleGoogle Cloud .

Acesse a página do BigQuery
Na navegação, clique no conjunto de dados bqml_tutorial criado.
Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.
Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial). Em seguida, clique em Excluir.

Excluir o projeto

Para excluir o projeto:

No console Google Cloud , acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir

Saiba como criar um modelo de classificação de regressão logística.
Para uma visão geral do BigQuery ML, consulte Introdução à IA e ao ML no BigQuery.

Realizar classificação com um modelo de árvores otimizadas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Objetivos

Custos

Antes de começar

Permissões exigidas

crie um conjunto de dados

Console

bq

API

BigQuery DataFrames

Preparar os dados de amostra

SQL

BigQuery DataFrames

Criar o modelo de árvores otimizadas

SQL

BigQuery DataFrames

Avaliar o modelo

SQL

BigQuery DataFrames

Usar o modelo para prever classificações

SQL

BigQuery DataFrames

Limpar

Excluir o conjunto de dados

Excluir o projeto

A seguir

Realizar classificação com um modelo de árvores otimizadas