Usa el agente de ciencia de datos de Colab Enterprise con BigQuery
El agente de ciencia de datos (DSA) para Colab Enterprise y BigQuery te permite automatizar el análisis exploratorio de datos, realizar tareas de aprendizaje automático y entregar estadísticas, todo en un notebook de Colab Enterprise.
Antes de comenzar
- Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Habilita las APIs de BigQuery, Gemini for Google Cloud, Dataform y Compute Engine.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.Para los proyectos nuevos, la API de BigQuery se habilita de forma automática.
Si es la primera vez que usas Colab Enterprise en BigQuery, consulta los pasos de configuración en la página Crea notebooks.
Limitaciones
- El agente de ciencia de datos solo está disponible en el entorno de Colab Enterprise.
- El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
- El código que produce el agente de ciencia de datos solo se ejecuta en el entorno de ejecución de tu notebook.
- La búsqueda de tablas de BigQuery con la función
@mentionse limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos. - La función
@mentionsolo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo+. - PySpark en el agente de ciencia de datos solo genera código de Managed Service para Apache Spark 4.0. El DSA puede ayudarte a actualizar a Managed Service para Apache Spark 4.0, pero los usuarios que requieren versiones anteriores no deben usar el agente de ciencia de datos.
- No se admiten las claves de encriptación administradas por el cliente (CMEK).
Cuándo usar el agente de ciencia de datos
El agente de ciencia de datos te ayuda con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar el DSA para lo siguiente:
- Procesamiento de datos a gran escala: Usa BigQuery ML, BigQuery DataFrames o Managed Service para Apache Spark para realizar el procesamiento de datos distribuidos en conjuntos de datos grandes. Esto te permite limpiar, transformar y analizar de manera eficiente datos que son demasiado grandes para caber en la memoria de una sola máquina.
- Generar un plan: Genera y modifica un plan para completar una tarea en particular con herramientas comunes, como Python, SQL, Managed Service para Apache Spark y BigQuery DataFrames.
- Exploración de datos: Explora un conjunto de datos para comprender su estructura, identifica posibles problemas, como valores faltantes y valores atípicos, y examina la distribución de variables clave con Python o SQL.
- Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
- Tratamiento de datos: Convierte atributos categóricos en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas, o bien con las herramientas de transformación de atributos de BigQuery ML. Crea atributos nuevos para el análisis.
- Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
- Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representan las distribuciones de variables individuales y las relaciones entre ellas. También puedes crear visualizaciones en Python para las tablas almacenadas en BigQuery.
- Ingeniería de atributos: Crea atributos nuevos a partir de un conjunto de datos limpio.
- División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación, y prueba.
- Entrenamiento de modelos: Entrena un modelo con los datos de entrenamiento en un
DataFrame de pandas (
X_train,y_train), BigQuery DataFrames, un DataFrame de PySpark o con la instrucciónCREATE MODELde BigQuery ML con tablas de BigQuery. - Optimización de modelos: Optimiza un modelo con el conjunto de validación.
Explora modelos alternativos como
DecisionTreeRegressoryRandomForestRegressor, y compara su rendimiento. - Evaluación de modelos: Evalúa el rendimiento del modelo en un conjunto de datos de prueba con un DataFrame de pandas, BigQuery DataFrames o un DataFrame de PySpark. También puedes evaluar la calidad del modelo y comparar modelos con las funciones de evaluación de modelos de BigQuery ML para los modelos entrenados con BigQuery ML.
- Inferencia de modelos: Realiza la inferencia con modelos entrenados de BigQuery ML
, modelos importados y modelos remotos con las funciones de inferencia de BigQuery ML
. También puedes usar
el método
model.predict()de BigFrames o los transformadores de PySpark para realizar predicciones.
Usa el agente de ciencia de datos en BigQuery
En los siguientes pasos, se muestra cómo usar el agente de ciencia de datos en BigQuery.
Crea o abre un notebook de Colab Enterprise.
Opcional: Haz referencia a tus datos de una de las siguientes maneras:
- Sube un archivo CSV o usa el símbolo
+en tu instrucción para buscar archivos disponibles. - Elige una o más tablas de BigQuery en el selector de tablas de tu proyecto actual o de otros proyectos a los que tengas acceso.
- Haz referencia a un nombre de tabla de BigQuery en tu instrucción con este
formato:
project_id:dataset.table. - Escribe el símbolo
@para buscar un nombre de tabla de BigQuery con la función@mention.
- Sube un archivo CSV o usa el símbolo
Ingresa una instrucción que describa el análisis de datos que deseas realizar o el prototipo que quieres compilar. El comportamiento predeterminado del agente de ciencia de datos es generar código de Python con bibliotecas de código abierto, como sklearn, para realizar tareas complejas de aprendizaje automático. Para usar una herramienta específica, incluye las siguientes palabras clave en tu instrucción:
- Si quieres usar BigQuery ML, incluye la palabra clave "SQL".
- Si quieres usar "BigQuery DataFrames", especifica las palabras clave "BigFrames" o "BigQuery DataFrames".
- Si quieres usar PySpark, incluye las palabras clave "Apache Spark" o "PySpark".
Para obtener ayuda, consulta los ejemplos de instrucciones.
Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Envía tu instrucción y examina los resultados.
Analiza un archivo CSV
Para analizar un CSV con el agente de ciencia de datos en BigQuery, sigue estos pasos.
Ve a la página de BigQuery.
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
Haz clic en Notebook nuevo > Notebook vacío.
Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable arrow_drop_down junto al ícono add_box Agregar y, luego, haz clic en Notebook > Notebook vacío.
Haz clic en el botón spark Activar Gemini en Colab para abrir el diálogo de chat.
Sube tu archivo CSV.
En el diálogo de chat, haz clic en Agregar a Gemini > Subir.
Si es necesario, autoriza tu Cuenta de Google.
Navega hasta la ubicación del archivo CSV y, luego, haz clic en Abrir.
Como alternativa, escribe el símbolo
+en tu instrucción para buscar archivos disponibles para subir.Ingresa tu instrucción en la ventana de chat. Por ejemplo:
Identify trends and anomalies in this file.Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Haz clic en Enviar. Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Haz clic en Cancelar para detenerlo.
Analiza tablas de BigQuery
Para analizar una tabla de BigQuery, elige una o más tablas en el selector de tablas, proporciona una referencia a la tabla en tu instrucción o busca una tabla con el símbolo @.
Ve a la página de BigQuery.
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
Haz clic en Notebook nuevo > Notebook vacío.
Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable arrow_drop_down junto al ícono add_box Agregar y, luego, haz clic en Notebook > Notebook vacío.
Haz clic en el botón spark Activar Gemini en Colab para abrir el diálogo de chat.
Ingresa tu instrucción en la ventana de chat.
Haz referencia a tus datos de una de las siguientes maneras:
Elige una o más tablas con el selector de tablas:
Haz clic en Agregar a Gemini > Tablas de BigQuery.
En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
Incluye un nombre de tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Ayúdame a realizar un análisis de datos exploratorio y a obtener información sobre los datos de esta tabla:
project_id:dataset.table."Reemplaza lo siguiente:
project_id: Es el ID del proyecto.dataset: Es el nombre del conjunto de datos que contiene la tabla que estás analizando.table: Es el nombre de la tabla que estás analizando.
Escribe
@para buscar una tabla de BigQuery en tu proyecto actual.
Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Haz clic en Enviar.
Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Para los pasos adicionales del plan, es posible que debas volver a hacer clic en Aceptar y ejecutar. Haz clic en Cancelar para detenerlo.
Ejemplos de instrucciones
Independientemente de la complejidad de la instrucción que uses, el agente de ciencia de datos genera un plan que puedes ajustar para satisfacer tus necesidades.
En los siguientes ejemplos, se muestran los tipos de instrucciones que puedes usar con el DSA.
Instrucciones de Python
El código de Python se genera de forma predeterminada, a menos que uses una palabra clave específica en la instrucción, como "BigQuery ML" o "SQL".
- "Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
- "Create a plot of salary by experience level. Use the
experience_levelcolumn to group the salaries, and create a box plot for each group showing the values from thesalary_in_usdcolumn." - "Use the XGBoost algorithm to make a model for determining the
classvariable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Crea una matriz de confusión para mostrar las predicciones entre cada clase, incluidas todas las predicciones que son correctas e incorrectas. - "Forecast
target_variablefromfilename.csvfor the next six months."
Instrucciones de SQL y BigQuery ML
- Create and evaluate a classification model on
bigquery-public-data.ml_datasets.census_adult_incomeusing BigQuery SQL. - "Using SQL, forecast the future traffic of my website for the next month based on
bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values." - "Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for
clustering. Then visualize the results by creating a series of 2D scatter
plots. Use the table
bigquery-public-data.ml_datasets.census_adult_income." - "Generate text embeddings in BigQuery ML using the review content in
bigquery-public-data.imdb.reviews."
Para obtener una lista de los modelos y las tareas de aprendizaje automático admitidos, consulta la documentación de BigQuery ML.
Instrucciones de DataFrame
- "Create a pandas DataFrame for the data in
project_id:dataset.table. Analyze the data for null values, and then graph the distribution of each column using the graph type. Use violin plots for measured values and bar plots for categories." - "Read
filename.csvand construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)." - Crea y evalúa un modelo de clasificación en
project_id:dataset.tablecon BigQuery DataFrames. - "Create a time series forecasting model on
project_id:dataset.tableusing BigQuery DataFrames, and visualize the model evaluations." - "Visualize the sales figures in the past year in BigQuery
table
project_id:dataset.tableusing BigQuery DataFrames." - "Find the features that can best predict the penguin species from the table
bigquery-public_data.ml_datasets.penguinsusing BigQuery DataFrames."
Instrucciones de PySpark
- Create and evaluate a classification model on
project_id:dataset.tableusing Managed Service para Apache Spark. - "Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this
on table
project_id:dataset.table."
Desactiva Gemini en BigQuery
Para desactivar Gemini en BigQuery en un Google Cloud proyecto, un administrador debe desactivar la API de Gemini para Google Cloud. Consulta Cómo inhabilitar servicios.
Para desactivar Gemini en BigQuery para un usuario específico, un
administrador debe revocar el
rol de
Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user) de ese usuario. Consulta
Cómo revocar
un solo rol de IAM.
Precios
Los precios del agente de ciencia de datos se basan en tus datos de entrada y salida. Para obtener más información, consulta Precios de los agentes en Cómo funcionan los precios de BigQuery.
Regiones admitidas
Para ver las regiones admitidas para el agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.