Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Usa el agente de ciencia de datos de Colab Enterprise con BigQuery

El agente de ciencia de datos (DSA) para Colab Enterprise y BigQuery te permite automatizar el análisis exploratorio de datos, realizar tareas de aprendizaje automático y entregar estadísticas, todo en un notebook de Colab Enterprise.

Antes de comenzar

Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Habilita las APIs de BigQuery, Gemini for Google Cloud, Dataform y Compute Engine.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.
Habilitar las API

Para los proyectos nuevos, la API de BigQuery se habilita de forma automática.

Si es la primera vez que usas Colab Enterprise en BigQuery, consulta los pasos de configuración en la página Crea notebooks.

Limitaciones

El agente de ciencia de datos solo está disponible en el entorno de Colab Enterprise.
El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
El código que produce el agente de ciencia de datos solo se ejecuta en el entorno de ejecución de tu notebook.
La búsqueda de tablas de BigQuery con la función @mention se limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos.
La función @mention solo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo +.
PySpark en el agente de ciencia de datos solo genera código de Managed Service para Apache Spark 4.0. El DSA puede ayudarte a actualizar a Managed Service para Apache Spark 4.0, pero los usuarios que requieren versiones anteriores no deben usar el agente de ciencia de datos.
No se admiten las claves de encriptación administradas por el cliente (CMEK).

Cuándo usar el agente de ciencia de datos

El agente de ciencia de datos te ayuda con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar el DSA para lo siguiente:

Procesamiento de datos a gran escala: Usa BigQuery ML, BigQuery DataFrames o Managed Service para Apache Spark para realizar el procesamiento de datos distribuidos en conjuntos de datos grandes. Esto te permite limpiar, transformar y analizar de manera eficiente datos que son demasiado grandes para caber en la memoria de una sola máquina.
Generar un plan: Genera y modifica un plan para completar una tarea en particular con herramientas comunes, como Python, SQL, Managed Service para Apache Spark y BigQuery DataFrames.
Exploración de datos: Explora un conjunto de datos para comprender su estructura, identifica posibles problemas, como valores faltantes y valores atípicos, y examina la distribución de variables clave con Python o SQL.
Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
Tratamiento de datos: Convierte atributos categóricos en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas, o bien con las herramientas de transformación de atributos de BigQuery ML. Crea atributos nuevos para el análisis.
Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representan las distribuciones de variables individuales y las relaciones entre ellas. También puedes crear visualizaciones en Python para las tablas almacenadas en BigQuery.
Ingeniería de atributos: Crea atributos nuevos a partir de un conjunto de datos limpio.
División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación, y prueba.
Entrenamiento de modelos: Entrena un modelo con los datos de entrenamiento en un DataFrame de pandas (X_train, y_train), BigQuery DataFrames, un DataFrame de PySpark o con la instrucción CREATE MODEL de BigQuery ML con tablas de BigQuery.
Optimización de modelos: Optimiza un modelo con el conjunto de validación. Explora modelos alternativos como DecisionTreeRegressor y RandomForestRegressor, y compara su rendimiento.
Evaluación de modelos: Evalúa el rendimiento del modelo en un conjunto de datos de prueba con un DataFrame de pandas, BigQuery DataFrames o un DataFrame de PySpark. También puedes evaluar la calidad del modelo y comparar modelos con las funciones de evaluación de modelos de BigQuery ML para los modelos entrenados con BigQuery ML.
Inferencia de modelos: Realiza la inferencia con modelos entrenados de BigQuery ML , modelos importados y modelos remotos con las funciones de inferencia de BigQuery ML . También puedes usar el método model.predict() de BigFrames o los transformadores de PySpark para realizar predicciones.

Usa el agente de ciencia de datos en BigQuery

En los siguientes pasos, se muestra cómo usar el agente de ciencia de datos en BigQuery.

Crea o abre un notebook de Colab Enterprise.
Opcional: Haz referencia a tus datos de una de las siguientes maneras:
- Sube un archivo CSV o usa el símbolo + en tu instrucción para buscar archivos disponibles.
- Elige una o más tablas de BigQuery en el selector de tablas de tu proyecto actual o de otros proyectos a los que tengas acceso.
- Haz referencia a un nombre de tabla de BigQuery en tu instrucción con este formato: project_id:dataset.table.
- Escribe el símbolo @ para buscar un nombre de tabla de BigQuery con la función @mention.
Ingresa una instrucción que describa el análisis de datos que deseas realizar o el prototipo que quieres compilar. El comportamiento predeterminado del agente de ciencia de datos es generar código de Python con bibliotecas de código abierto, como sklearn, para realizar tareas complejas de aprendizaje automático. Para usar una herramienta específica, incluye las siguientes palabras clave en tu instrucción:
- Si quieres usar BigQuery ML, incluye la palabra clave "SQL".
- Si quieres usar "BigQuery DataFrames", especifica las palabras clave "BigFrames" o "BigQuery DataFrames".
- Si quieres usar PySpark, incluye las palabras clave "Apache Spark" o "PySpark".
Para obtener ayuda, consulta los ejemplos de instrucciones.
Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Envía tu instrucción y examina los resultados.

Analiza un archivo CSV

Para analizar un CSV con el agente de ciencia de datos en BigQuery, sigue estos pasos.

Ve a la página de BigQuery.

Ir a BigQuery
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
Haz clic en Notebook nuevo > Notebook vacío.

Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable arrow_drop_down junto al ícono add_box Agregar y, luego, haz clic en Notebook > Notebook vacío.
Haz clic en el botón spark Activar Gemini en Colab para abrir el diálogo de chat.

Nota: Puedes alternar entre mostrar el diálogo de chat en un panel separado y mostrarlo dentro de tu notebook haciendo clic en el Mover ícono.
Sube tu archivo CSV.
1. En el diálogo de chat, haz clic en Agregar a Gemini > Subir.
2. Si es necesario, autoriza tu Cuenta de Google.
3. Navega hasta la ubicación del archivo CSV y, luego, haz clic en Abrir.
Como alternativa, escribe el símbolo + en tu instrucción para buscar archivos disponibles para subir.
Ingresa tu instrucción en la ventana de chat. Por ejemplo: Identify trends and anomalies in this file.
Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Haz clic en Enviar. Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Haz clic en Cancelar para detenerlo.

Analiza tablas de BigQuery

Para analizar una tabla de BigQuery, elige una o más tablas en el selector de tablas, proporciona una referencia a la tabla en tu instrucción o busca una tabla con el símbolo @.

Ve a la página de BigQuery.

Ir a BigQuery
En el panel izquierdo, expande tu proyecto y, luego, haz clic en Notebooks.
Haz clic en Notebook nuevo > Notebook vacío.

Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable arrow_drop_down junto al ícono add_box Agregar y, luego, haz clic en Notebook > Notebook vacío.
Haz clic en el botón spark Activar Gemini en Colab para abrir el diálogo de chat.

Nota: Puedes alternar entre mostrar el diálogo de chat en un panel separado y mostrarlo dentro de tu notebook haciendo clic en el Mover ícono.
Ingresa tu instrucción en la ventana de chat.
Haz referencia a tus datos de una de las siguientes maneras:
1. Elige una o más tablas con el selector de tablas:
  1. Haz clic en Agregar a Gemini > Tablas de BigQuery.
  2. En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
2. Incluye un nombre de tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Ayúdame a realizar un análisis de datos exploratorio y a obtener información sobre los datos de esta tabla: project_id:dataset.table."
  
  Reemplaza lo siguiente:
  - project_id: Es el ID del proyecto.
  - dataset: Es el nombre del conjunto de datos que contiene la tabla que estás analizando.
  - table: Es el nombre de la tabla que estás analizando.
3. Escribe @ para buscar una tabla de BigQuery en tu proyecto actual.
Elige tu modelo. El modelo predeterminado es Gemini 3.0 Flash.
Haz clic en Enviar.

Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Para los pasos adicionales del plan, es posible que debas volver a hacer clic en Aceptar y ejecutar. Haz clic en Cancelar para detenerlo.

Ejemplos de instrucciones

Independientemente de la complejidad de la instrucción que uses, el agente de ciencia de datos genera un plan que puedes ajustar para satisfacer tus necesidades.

En los siguientes ejemplos, se muestran los tipos de instrucciones que puedes usar con el DSA.

Instrucciones de Python

El código de Python se genera de forma predeterminada, a menos que uses una palabra clave específica en la instrucción, como "BigQuery ML" o "SQL".

"Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
"Create a plot of salary by experience level. Use the experience_level column to group the salaries, and create a box plot for each group showing the values from the salary_in_usd column."
"Use the XGBoost algorithm to make a model for determining the class variable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Crea una matriz de confusión para mostrar las predicciones entre cada clase, incluidas todas las predicciones que son correctas e incorrectas.
"Forecast target_variable from filename.csv for the next six months."

Instrucciones de SQL y BigQuery ML

Create and evaluate a classification model on bigquery-public-data.ml_datasets.census_adult_income using BigQuery SQL.
"Using SQL, forecast the future traffic of my website for the next month based on bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values."
"Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for clustering. Then visualize the results by creating a series of 2D scatter plots. Use the table bigquery-public-data.ml_datasets.census_adult_income."
"Generate text embeddings in BigQuery ML using the review content in bigquery-public-data.imdb.reviews."

Para obtener una lista de los modelos y las tareas de aprendizaje automático admitidos, consulta la documentación de BigQuery ML.

Instrucciones de DataFrame

"Create a pandas DataFrame for the data in project_id:dataset.table. Analyze the data for null values, and then graph the distribution of each column using the graph type. Use violin plots for measured values and bar plots for categories."
"Read filename.csv and construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)."
Crea y evalúa un modelo de clasificación en project_id:dataset.table con BigQuery DataFrames.
"Create a time series forecasting model on project_id:dataset.table using BigQuery DataFrames, and visualize the model evaluations."
"Visualize the sales figures in the past year in BigQuery table project_id:dataset.table using BigQuery DataFrames."
"Find the features that can best predict the penguin species from the table bigquery-public_data.ml_datasets.penguins using BigQuery DataFrames."

Instrucciones de PySpark

Create and evaluate a classification model on project_id:dataset.table using Managed Service para Apache Spark.
"Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this on table project_id:dataset.table."

Desactiva Gemini en BigQuery

Para desactivar Gemini en BigQuery en un Google Cloud proyecto, un administrador debe desactivar la API de Gemini para Google Cloud. Consulta Cómo inhabilitar servicios.

Para desactivar Gemini en BigQuery para un usuario específico, un administrador debe revocar el rol de Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user) de ese usuario. Consulta Cómo revocar un solo rol de IAM.

Precios

Los precios del agente de ciencia de datos se basan en tus datos de entrada y salida. Para obtener más información, consulta Precios de los agentes en Cómo funcionan los precios de BigQuery.

Regiones admitidas

Para ver las regiones admitidas para el agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.