En este instructivo, se muestra cómo compilar un modelo de aprendizaje automático (AA) con instrucciones en lenguaje natural con el Agente de ciencia de datos de Colab Enterprise.
En el instructivo, compilas un modelo de AA para predecir las ventas de bebidas alcohólicas con el conjunto de datos público de ventas minoristas de bebidas alcohólicas de Iowa. El agente potenciado por IA te permite usar instrucciones en lenguaje natural para escribir, explicar y solucionar problemas de código directamente en un notebook para acelerar tus flujos de trabajo de ciencia de datos.
Este instructivo está dirigido a profesionales de datos.
Objetivos
En este instructivo, aprenderás a usar el Agente de ciencia de datos para realizar las siguientes tareas:
- Realizar un análisis exploratorio de datos (EDA) del conjunto de datos público de ventas minoristas de bebidas alcohólicas de Iowa para comprender las distribuciones de datos, verificar si hay valores faltantes y verificar la calidad general de los datos.
- Encontrar las tiendas que vendieron más galones de alcohol en todos los productos
- Compilar, entrenar y evaluar un modelo que prediga las ventas de bebidas alcohólicas con BigQuery ML
- Generar y resumir información clave y el rendimiento del modelo
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
Para generar una estimación de costos en función del uso previsto,
usa la calculadora de precios.
Cuando completes las tareas que se describen en este documento, podrás borrar los recursos que creaste para evitar que se te siga facturando. Para obtener más información, consulta Realiza una limpieza.
Antes de comenzar
- Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Habilita las APIs de BigQuery, Gemini for Google Cloud, Dataform y Compute Engine.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.Para los proyectos nuevos, la API de BigQuery se habilita de forma automática.
Roles obligatorios
Si creaste un proyecto nuevo, tienes todos los permisos necesarios para completar este instructivo. Si usas un proyecto existente, pídele a tu administrador que te otorgue los siguientes roles.
Permisos para crear y ejecutar notebooks
Para obtener los permisos que
necesitas para crear y ejecutar notebooks,
pídele a tu administrador que te otorgue el
rol de IAM de usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Para ver los permisos necesarios para crear y ejecutar notebooks, consulta los pasos de configuración en la página Crea notebooks.
Para obtener más información sobre Identity and Access Management (IAM) de BigQuery, consulta Control de acceso con IAM.
Crea un notebook de Colab Enterprise y conéctate a un entorno de ejecución
Los notebooks de Colab Enterprise son recursos de código de BigQuery Studio con tecnología de Dataform. Puedes usar notebooks para completar flujos de trabajo de análisis y AA con SQL, Python y otros paquetes y APIs comunes.
Para crear un notebook nuevo y conectarlo al entorno de ejecución predeterminado, sigue estos pasos:
Ve a la página de BigQuery.
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
Haz clic en Notebook nuevo > Notebook vacío.
Haz clic en Guardar.
Para ver el notebook nuevo, haz clic en la pestaña Notebooks. Es posible que debas hacer clic en actualizar Actualizar .
En el caso de tu notebook sin título, haz clic en more_vert Abrir acciones y, luego, elige Cambiar nombre.
En Nombre del notebook, ingresa
predict_liquor_salesy, luego, haz clic en Cambiar nombre.Haz clic en la pestaña
predict_liquor_sales.En la barra de herramientas del notebook, haz clic en Conectar para conectarlo al entorno de ejecución predeterminado.
Usa el Agente de ciencia de datos para analizar los datos
El Agente de ciencia de datos es un asistente potenciado por Gemini que puede escribir, explicar y solucionar problemas de código directamente en tu notebook. Puede ayudarte con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático, incluidas las siguientes:
- Generación de planes: Crea un plan paso a paso para resolver un problema de ciencia de datos.
- Exploración y limpieza de datos : Identifica los valores faltantes y atípicos, y visualiza las distribuciones.
- Ingeniería de atributos : Convierte atributos categóricos y crea otros nuevos.
- Entrenamiento y evaluación del modelo : Entrena modelos como la regresión lineal o el bosque aleatorio, y compara su rendimiento.
En este instructivo, usarás el Agente de ciencia de datos para analizar datos en el conjunto de datos público de ventas minoristas de bebidas alcohólicas de Iowa, y para crear un modelo que prediga las ventas de bebidas alcohólicas.
Para usar el Agente de ciencia de datos para analizar los datos, sigue estos pasos:
En tu
predict_liquor_salesnotebook, si la ventana de chat de Gemini no está abierta, haz clic en spark Alternar Gemini en Colab para abrir el diálogo de chat.En la interfaz de chat, ingresa la siguiente instrucción:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.Verifica que el modelo esté configurado en Gemini 3.0 Flash.
Haz clic en Enviar.
Revisa el plan generado por el agente. El plan es similar al siguiente.
"Analicé la solicitud de datos de ventas de bebidas alcohólicas de Iowa y creé un plan estratégico. Como los datos se almacenan en BigQuery y especificaste el uso de BigQuery ML, comenzaremos con la exploración de datos, identificaremos las tiendas con mejor rendimiento y, luego, compilaremos un modelo de regresión para predecir las ventas. Este es el plan paso a paso:
- Exploración y creación de perfiles de datos: Realiza una exploración inicial de la tabla "bigquery-public-data.iowa_liquor_sales.sales" para comprender la distribución de datos, verificar si hay valores faltantes y verificar la calidad de los datos de las columnas clave, como la información de la tienda, el volumen vendido y los dólares de ventas.
- Identifica las tiendas principales por volumen: Agrega los galones totales de alcohol que vendió cada tienda en todos los productos y, luego, identifica las tiendas con mejor rendimiento.
- Preparación de datos: Prepara los datos de entrenamiento agregando las ventas de bebidas alcohólicas por tienda y seleccionando los atributos relevantes para el modelo de predicción.
- Desarrollo de modelos: Entrena un modelo de regresión con BigQuery ML para predecir las ventas de bebidas alcohólicas de cada tienda.
- Evaluación del modelo: Evalúa el rendimiento del modelo entrenado con métricas de regresión estándar.
- Predicción del modelo: Genera predicciones para las ventas de bebidas alcohólicas con el modelo entrenado.
- Visualización: Crea un diagrama de dispersión que compare las ventas de bebidas alcohólicas predichas con los valores reales para evaluar visualmente la exactitud del modelo.
- Finalizar tarea: Resume el rendimiento del modelo, proporciona información clave sobre las ventas en la tienda y concluye el análisis.
Después de revisar el plan, haz clic en Aceptar y ejecutar. El agente genera la primera subtarea: explorar y crear perfiles de los datos. El agente se detiene hasta que revises y aceptes el código. Si el agente espera la entrada del usuario, las celdas generadas se renderizan con un fondo verde.
Revisa la celda de código generada y el razonamiento que proporciona el agente.
Haz clic en Aceptar y ejecutar. Si el agente encuentra problemas con su enfoque, proporciona razonamientos sobre cómo corregir el problema y te solicita que aceptes el código modificado.
Revisa el resultado en la celda de código.
Debajo de los resultados, el agente crea una celda nueva para completar la siguiente subtarea: encontrar las tiendas con las mayores ventas de bebidas alcohólicas.
Revisa el código SQL generado que consulta los datos de las tiendas principales por galones de alcohol vendidos. Puedes examinar el razonamiento del agente si ves la celda de texto Razonamiento sobre el código. Si estás satisfecho con que el código sea correcto, haz clic en Aceptar y ejecutar.
Examina los resultados de la consulta en el resultado de la celda. Los resultados son similares a los siguientes:
Revisa el código y el razonamiento que generó el agente para la siguiente subtarea: preparar los datos para el entrenamiento de modelos.
Después de verificar que el código SQL sea correcto, haz clic en Aceptar y ejecutar.
Revisa el resultado en la celda de código. Verás un mensaje similar a
JOB ID 123456 successfully executed.Revisa el código y el razonamiento que generó el agente para la siguiente subtarea: entrenar el modelo de regresión.
Después de ver el código y el razonamiento, haz clic en Aceptar y ejecutar.
Revisa el resultado en la celda de código. Verás un mensaje similar a
JOB ID 123456 successfully executed.Revisa el código y el razonamiento que generó el agente para la siguiente subtarea: evaluación del modelo.
Después de ver el código y el razonamiento, haz clic en Aceptar y ejecutar.
Revisa el resultado en la celda de código.
Revisa el código y el razonamiento que generó el agente para la siguiente subtarea: generar predicciones.
Después de ver el código y el razonamiento, haz clic en Aceptar y ejecutar.
Revisa el resultado en la celda de código. Verás un mensaje similar a
JOB ID 123456 successfully executed.Después de que se ejecuta la consulta, el agente crea una celda de código para la siguiente subtarea: visualizar los datos.
Después de ver el código y el razonamiento, haz clic en Aceptar y ejecutar.
Revisa el resultado en la celda de código. Verás un gráfico que representa las ventas de bebidas alcohólicas reales en comparación con las predichas. El gráfico es similar al siguiente:
Después de generar el gráfico, el agente genera un resumen de los resultados con hallazgos y estadísticas clave.
Después de revisar el resumen, haz clic en Aceptar para completar el plan.
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Para evitar que se apliquen cargos a tu Google Cloud cuenta de por los recursos que usaste en este instructivo, puedes borrar el notebook que creaste. Para borrar el notebook, sigue estos pasos:Ve a la página de BigQuery.
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
En el caso de tu
predict_liquor_salesnotebook, haz clic en more_vert Abrir acciones y, luego, elige Borrar.Haz clic en Borrar para quitar el notebook.
¿Qué sigue?
- Obtén información sobre las capacidades del Agente de ciencia de datos.
- Obtén más información sobre los notebooks de Colab Enterprise en BigQuery.
- Lee la documentación sobre Gemini en BigQuery.