Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Realiza la clasificación con un modelo de árboles potenciados

En este instructivo, aprenderás a usar un modelo de clasificador de árboles potenciados para predecir el rango de ingresos de las personas según sus datos demográficos. El modelo predice si un valor pertenece a una de dos categorías, en este caso, si el ingreso anual de una persona es superior o inferior a USD 50,000.

En este instructivo, se usa el conjunto de datos bigquery-public-data.ml_datasets.census_adult_income. Este conjunto de datos contiene la información demográfica y de ingresos de los residentes de EE.UU. de los años 2000 y 2010.

Objetivos

En este instructivo, se te guiará para que completes las siguientes tareas:

Crea un modelo de árboles potenciados para predecir el rango de ingresos de los encuestados del censo con la sentencia CREATE MODEL.
Evaluar el modelo con la función ML.EVALUATE
Obtener predicciones del modelo con la función ML.PREDICT

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

BigQuery
BigQuery ML

Para obtener más información sobre los costos de BigQuery, consulta la página de precios de BigQuery.

Para obtener más información sobre los costos de BigQuery ML, consulta los precios de BigQuery ML.

Antes de comenzar

Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

BigQuery se habilita automáticamente en proyectos nuevos. Para activar BigQuery en un proyecto existente, ve a
Habilita la API de BigQuery.
Roles necesarios para habilitar las APIs
Para habilitar APIs, necesitas el permiso serviceusage.services.enable. Si creaste el proyecto, es probable que ya tengas este permiso a través del rol de propietario (roles/owner). De lo contrario, puedes obtener este permiso a través del rol de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin). Obtén más información para otorgar roles.
Habilitar la API

Permisos necesarios

Para crear el conjunto de datos, necesitas el permiso bigquery.datasets.create de IAM.
Para crear el modelo, necesitas los siguientes permisos:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Para ejecutar inferencias, necesitas los siguientes permisos:
- bigquery.models.getData
- bigquery.jobs.create

Para obtener más información sobre los roles y permisos de IAM en BigQuery, consulta Introducción a IAM.

Crea un conjunto de datos

Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA.

Console

En la consola de Google Cloud , ve a la página BigQuery.

Ir a la página de BigQuery
En el panel Explorador, haz clic en el nombre de tu proyecto.
Haz clic en Ver acciones > Crear conjunto de datos.
En la página Crear conjunto de datos, haz lo siguiente:
- En ID del conjunto de datos, ingresa bqml_tutorial.
- En Tipo de ubicación, selecciona Multirregión y, luego, EE.UU..
- Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.

bq

Para crear un conjunto de datos nuevo, usa el comando bq mk --dataset.

Crea un conjunto de datos llamado bqml_tutorial con la ubicación de los datos establecida en US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Confirma que se haya creado el conjunto de datos:
```
bq ls
```

API

Llama al método datasets.insert con un recurso de conjunto de datos definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Permite trabajar con BigQuery DataFrames.

Antes de probar este ejemplo, sigue las instrucciones de configuración de BigQuery DataFrames en la guía de inicio rápido de BigQuery con BigQuery DataFrames. Para obtener más información, consulta la documentación de referencia de BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Prepara los datos de muestra

El modelo que crearás en este instructivo predecirá el rango de ingresos de los encuestados del censo en función de las siguientes características:

Edad
Tipo de trabajo realizado
Estado civil
Nivel de educación
Ocupación
Horas trabajadas por semana

La columna education no se incluye en los datos de entrenamiento, ya que las columnas education y education_num expresan el nivel de educación del encuestado en diferentes formatos.

Para separar los datos en conjuntos de entrenamiento, evaluación y predicción, crea una columna dataframe nueva que se derive de la columna functional_weight. El ochenta por ciento de los datos se usa para entrenar el modelo, y el veinte por ciento restante se usa para la evaluación y la predicción.

SQL

Para preparar tus datos de muestra, crea una vista que contenga los datos de entrenamiento. Esta vista se usa en la instrucción CREATE MODEL más adelante en este instructivo.

Ejecuta la consulta que prepara los datos de muestra:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, ejecuta la siguiente consulta:

CREATE OR REPLACE VIEW
  `bqml_tutorial.input_data` AS
SELECT
  age,
  workclass,
  marital_status,
  education_num,
  occupation,
  hours_per_week,
  income_bracket,
  CASE
    WHEN MOD(functional_weight, 10) < 8 THEN 'training'
    WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
    WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
  END AS dataframe
FROM
  `bigquery-public-data.ml_datasets.census_adult_income`;

En el panel de la izquierda, haz clic en Explorar.

Si no ves el panel izquierdo, haz clic en Expandir panel izquierdo para abrirlo.
En el panel Explorador, busca el conjunto de datos bqml_tutorial.
Haz clic en el conjunto de datos y, luego, en Descripción general > Tablas.
Haz clic en la vista input_data para abrir el panel de información. El esquema de la vista aparece en la pestaña Esquema.

Permite trabajar con BigQuery DataFrames.

Crea un DataFrame llamado input_data. Usarás input_data más adelante en este instructivo para entrenar el modelo, evaluarlo y hacer predicciones.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Crea el modelo de árboles potenciados

Crea un modelo de árboles potenciados para predecir el rango de ingresos de los encuestados y entrénalo con los datos del censo. La consulta tarda alrededor de 30 minutos en completarse.

SQL

Sigue estos pasos para crear el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

CREATE MODEL `bqml_tutorial.tree_model`
OPTIONS(MODEL_TYPE='BOOSTED_TREE_CLASSIFIER',
        BOOSTER_TYPE = 'GBTREE',
        NUM_PARALLEL_TREE = 1,
        MAX_ITERATIONS = 50,
        TREE_METHOD = 'HIST',
        EARLY_STOP = FALSE,
        SUBSAMPLE = 0.85,
        INPUT_LABEL_COLS = ['income_bracket'])
AS SELECT * EXCEPT(dataframe)
FROM `bqml_tutorial.input_data`
WHERE dataframe = 'training';

Una vez que se completa la consulta, se puede acceder al modelo tree_model a través del panel Explorador. Debido a que en la consulta se usa una declaración CREATE MODEL para crear un modelo, no se muestran los resultados.

Permite trabajar con BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

from bigframes.ml import ensemble

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

# create and train the model
tree_model = ensemble.XGBClassifier(
    n_estimators=1,
    booster="gbtree",
    tree_method="hist",
    max_iterations=1,  # For a more accurate model, try 50 iterations.
    subsample=0.85,
)
tree_model.fit(X, y)

tree_model.to_gbq(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
    replace=True,
)

Evalúa el modelo

SQL

Sigue estos pasos para evaluar el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

  SELECT
    *
  FROM
    ML.EVALUATE (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'evaluation'
      )
    );

Los resultados debería ser similar al siguiente:

+---------------------+---------------------+---------------------+-------------------+---------------------+---------------------+
| precision           | recall              | accuracy            | f1_score          | log_loss            | roc_auc             |
+---------------------+---------------------+---------------------+-------------------+-------------------------------------------+
| 0.67192429022082023 | 0.57880434782608692 | 0.83942963422194672 | 0.621897810218978 | 0.34405456040833338 | 0.88733566433566435 |
+---------------------+---------------------+ --------------------+-------------------+---------------------+---------------------+

Permite trabajar con BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from the previous step.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = tree_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.671924  0.578804  0.839429  0.621897  0.344054  0.887335

Las métricas de evaluación indican un buen rendimiento del modelo, en particular, el hecho de que la puntuación de roc_auc es mayor que 0.8.

Para obtener más información sobre las métricas de evaluación, consulta Salida.

Usa el modelo para predecir clasificaciones

SQL

Sigue estos pasos para predecir datos con el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

  SELECT
    *
  FROM
    ML.PREDICT (MODEL `bqml_tutorial.tree_model`,
      (
      SELECT
        *
      FROM
        `bqml_tutorial.input_data`
      WHERE
        dataframe = 'prediction'
      )
    );

Las primeras columnas de los resultados deberían ser similares a las siguientes:

  +---------------------------+--------------------------------------+-------------------------------------+
  | predicted_income_bracket  | predicted_income_bracket_probs.label | predicted_income_bracket_probs.prob |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.05183430016040802                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.94816571474075317                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.00365859130397439                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.99634140729904175                 |
  +---------------------------+--------------------------------------+-------------------------------------+
  |  <=50K                    |  >50K                                | 0.037775970995426178                |
  +---------------------------+--------------------------------------+-------------------------------------+
  |                           |  <50K                                | 0.96222406625747681                 |
  +---------------------------+--------------------------------------+-------------------------------------+

Permite trabajar con BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `tree_model` object
# from previous steps.
tree_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.bqml_tutorial.tree_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = tree_model.predict(prediction_data)
predictions.peek()
# Output:
# predicted_income_bracket   predicted_income_bracket_probs.label  predicted_income_bracket_probs.prob
#                   <=50K                                   >50K                   0.05183430016040802
#                                                           <50K                   0.94816571474075317
#                   <=50K                                   >50K                   0.00365859130397439
#                                                           <50K                   0.99634140729904175
#                   <=50K                                   >50K                   0.037775970995426178
#                                                           <50K                   0.96222406625747681

El predicted_income_bracket contiene el valor predicho del modelo. El predicted_income_bracket_probs.label muestra las dos etiquetas entre las que tuvo que elegir el modelo, y la columna predicted_income_bracket_probs.prob muestra la probabilidad de que la etiqueta determinada sea la correcta.

Para obtener más información sobre las columnas de salida, consulta Modelos de clasificación.

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Puedes borrar el proyecto que creaste.
De lo contrario, puedes mantener el proyecto y borrar el conjunto de datos.

Borra tu conjunto de datos

Borrar tu proyecto quita todos sus conjuntos de datos y tablas. Si prefieres volver a usar el proyecto, puedes borrar el conjunto de datos que creaste en este instructivo:

Si es necesario, abre la página de BigQuery en la consola deGoogle Cloud .

Ir a la página de BigQuery
En el panel de navegación, haz clic en el conjunto de datos bqml_tutorial que creaste.
Haz clic en Borrar conjunto de datos en el lado derecho de la ventana. Esta acción borra el conjunto de datos, la tabla y todos los datos.
En el cuadro de diálogo Borrar conjunto de datos, escribe el nombre del conjunto de datos (bqml_tutorial) para confirmar el comando de borrado y, luego, haz clic en Borrar.

Borra tu proyecto

Para borrar el proyecto, haz lo siguiente:

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo su contenido. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los IDs personalizados de los proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID personalizado del proyecto que desees utilizar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto, en lugar de todo el proyecto.

Si planeas explorar varios instructivos, arquitecturas o guías de inicio rápido, reutilizar proyectos puede ser útil para no exceder los límites de cuota de los proyectos.

En la Google Cloud consola, ve a la página Administrar recursos.
Ir a Administrar recursos
En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?

Aprende a crear un modelo de clasificación de regresión logística.
Para obtener una descripción general de BigQuery ML, consulta Introducción a la IA y el aprendizaje automático en BigQuery.

Realiza la clasificación con un modelo de árboles potenciados Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Objetivos

Costos

Antes de comenzar

Permisos necesarios

Crea un conjunto de datos

Console

bq

API

Permite trabajar con BigQuery DataFrames.

Prepara los datos de muestra

SQL

Permite trabajar con BigQuery DataFrames.

Crea el modelo de árboles potenciados

SQL

Permite trabajar con BigQuery DataFrames.

Evalúa el modelo

SQL

Permite trabajar con BigQuery DataFrames.

Usa el modelo para predecir clasificaciones

SQL

Permite trabajar con BigQuery DataFrames.

Realiza una limpieza

Borra tu conjunto de datos

Borra tu proyecto

¿Qué sigue?

Realiza la clasificación con un modelo de árboles potenciados