Usa el agente de ciencia de datos de Colab Enterprise con BigQuery
El agente de ciencia de datos (DSA) para Colab Enterprise y BigQuery te permite automatizar el análisis exploratorio de datos, realizar tareas de aprendizaje automático y entregar estadísticas, todo en un notebook de Colab Enterprise.
Antes de comenzar
- Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Habilita las APIs de BigQuery, Vertex AI, Dataform y Compute Engine.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.Para los proyectos nuevos, la API de BigQuery se habilita de forma automática.
Si es la primera vez que usas Colab Enterprise en BigQuery, consulta los pasos de configuración en la página Crea notebooks.
Limitaciones
- El agente de ciencia de datos solo está disponible en el entorno de Colab Enterprise.
- El agente de ciencia de datos admite las siguientes fuentes de datos:
- Archivos CSV
- Tablas de BigQuery
- El código que produce el agente de ciencia de datos solo se ejecuta en el entorno de ejecución de tu notebook.
- El agente de ciencia de datos no es compatible con los proyectos que tienen habilitados los Controles del servicio de VPC.
- La búsqueda de tablas de BigQuery con la función
@mentionse limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos. - La función
@mentionsolo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo+. - PySpark en el agente de ciencia de datos solo genera código de Managed Service for Apache Spark 4.0. El DSA puede ayudarte a actualizar a Managed Service for Apache Spark 4.0, pero los usuarios que requieren versiones anteriores no deben usar el agente de ciencia de datos.
Cuándo usar el agente de ciencia de datos
El agente de ciencia de datos te ayuda con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar el DSA para lo siguiente:
- Procesamiento de datos a gran escala: Usa BigQuery ML, BigQuery DataFrames o Managed Service for Apache Spark para realizar el procesamiento de datos distribuidos en conjuntos de datos grandes. Esto te permite limpiar, transformar y analizar de manera eficiente datos que son demasiado grandes para caber en la memoria de una sola máquina.
- Generar un plan: Genera y modifica un plan para completar una tarea específica con herramientas comunes, como Python, SQL, Managed Service for Apache Spark y BigQuery DataFrames.
- Exploración de datos: Explora un conjunto de datos para comprender su estructura, identifica posibles problemas, como valores faltantes y valores atípicos, y examina la distribución de variables clave con Python o SQL.
- Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
- Organización de datos: Convierte atributos categóricos en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas, o bien con las herramientas de transformación de atributos de BigQuery ML. Crea atributos nuevos para el análisis.
- Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
- Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representen las distribuciones de variables individuales y las relaciones entre ellas. También puedes crear visualizaciones en Python para las tablas almacenadas en BigQuery.
- Ingeniería de atributos: Crea atributos nuevos a partir de un conjunto de datos limpio.
- División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación, y prueba.
- Entrenamiento de modelos: Entrena un modelo con los datos de entrenamiento en un
DataFrame de Pandas (
X_train,y_train), BigQuery DataFrames, un DataFrame de PySpark o con laCREATE MODELinstrucción de BigQuery ML con tablas de BigQuery. - Optimización de modelos: Optimiza un modelo con el conjunto de validación.
Explora modelos alternativos, como
DecisionTreeRegressoryRandomForestRegressor, y compara su rendimiento. - Evaluación de modelos: Evalúa el rendimiento del modelo en un conjunto de datos de prueba con un DataFrame de Pandas, BigQuery DataFrames o un DataFrame de PySpark. También puedes evaluar la calidad del modelo y compararlos con las funciones de evaluación de modelos de BigQuery ML para los modelos entrenados con BigQuery ML.
- Inferencia de modelos: Realiza la inferencia con modelos entrenados de BigQuery ML
, modelos importados y modelos remotos con las funciones de inferencia de BigQuery ML
. También puedes usar
el método
model.predict()de BigFrames o los transformadores de PySpark para realizar predicciones.
Usa el agente de ciencia de datos en BigQuery
En los siguientes pasos, se muestra cómo usar el agente de ciencia de datos en BigQuery.
Crea o abre un notebook de Colab Enterprise.
Opcional: Haz referencia a tus datos de una de las siguientes maneras:
- Sube un archivo CSV o usa el símbolo
+en tu instrucción para buscar los archivos disponibles. - Elige una o más tablas de BigQuery en el selector de tablas de tu proyecto actual o de otros proyectos a los que tengas acceso.
- Haz referencia a un nombre de tabla de BigQuery en tu instrucción con este
formato:
project_id:dataset.table. - Escribe el símbolo
@para buscar un nombre de tabla de BigQuery con la función@mention.
- Sube un archivo CSV o usa el símbolo
Ingresa una instrucción que describa el análisis de datos que deseas realizar o el prototipo que quieres compilar. El comportamiento predeterminado del agente de ciencia de datos es generar código de Python con bibliotecas de código abierto, como sklearn, para realizar tareas complejas de aprendizaje automático. Para usar una herramienta específica, incluye las siguientes palabras clave en tu instrucción:
- Si quieres usar BigQuery ML, incluye la palabra clave "SQL".
- Si quieres usar "BigQuery DataFrames", especifica las palabras clave "BigFrames" o "BigQuery DataFrames".
- Si quieres usar PySpark, incluye las palabras clave "Apache Spark" o "PySpark".
Para obtener ayuda, consulta los ejemplos de instrucciones.
Analiza los resultados.
Analiza un archivo CSV
Para analizar un CSV con el agente de ciencia de datos en BigQuery, sigue estos pasos.
Ve a la página de BigQuery.
En la página de bienvenida de BigQuery Studio, en Crear nuevo, haz clic en Notebook.
Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable junto al ícono + y, luego, en Notebook > Notebook vacío.
Haz clic en el botón Activar Gemini en Colab para abrir el diálogo de chat.
Sube tu archivo CSV.
En el diálogo de chat, haz clic en Agregar a Gemini > Subir.
Si es necesario, autoriza tu Cuenta de Google.
Navega hasta la ubicación del archivo CSV y, luego, haz clic en Abrir.
Como alternativa, escribe el símbolo
+en tu instrucción para buscar los archivos disponibles para subir.Ingresa tu instrucción en la ventana de chat. Por ejemplo:
Identify trends and anomalies in this file.Haz clic en Enviar. Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Haz clic en Cancelar para detener la acción.
Analiza tablas de BigQuery
Para analizar una tabla de BigQuery, elige una o más tablas en el selector de tablas, proporciona una referencia a la tabla en tu instrucción o busca una tabla con el símbolo @.
Ve a la página de BigQuery.
En la página de bienvenida de BigQuery Studio, en Crear nuevo, haz clic en Notebook.
Como alternativa, en la barra de pestañas, haz clic en la flecha desplegable junto al ícono + y, luego, en Notebook > Notebook vacío.
Haz clic en el botón Activar Gemini en Colab para abrir el diálogo de chat.
Ingresa tu instrucción en la ventana de chat.
Haz referencia a tus datos de una de las siguientes maneras:
Elige una o más tablas con el selector de tablas:
Haz clic en Agregar a Gemini > Tablas de BigQuery.
En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
Incluye un nombre de tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Help me perform exploratory data analysis and get insights about the data in this table:
project_id:dataset.table."Reemplaza lo siguiente:
project_id: Es el ID del proyecto.dataset: Es el nombre del conjunto de datos que contiene la tabla que estás analizando.table: Es el nombre de la tabla que estás analizando.
Escribe
@para buscar una tabla de BigQuery en tu proyecto actual.
Haz clic en Enviar.
Los resultados aparecen en la ventana de chat.
Puedes pedirle al agente que cambie el plan o ejecutarlo haciendo clic en Aceptar y ejecutar. A medida que se ejecuta el plan, el código y el texto generados aparecen en el notebook. Para los pasos adicionales del plan, es posible que debas volver a hacer clic en Aceptar y ejecutar. Haz clic en Cancelar para detener la acción.
Ejemplos de instrucciones
Independientemente de la complejidad de la instrucción que uses, el agente de ciencia de datos genera un plan que puedes ajustar para satisfacer tus necesidades.
En los siguientes ejemplos, se muestran los tipos de instrucciones que puedes usar con el DSA.
Instrucciones de Python
El código de Python se genera de forma predeterminada, a menos que uses una palabra clave específica en la instrucción, como "BigQuery ML" o "SQL".
- Investiga y completa los valores faltantes con el algoritmo de aprendizaje automático de k vecinos más cercanos (KNN).
- Crea un diagrama de sueldos por nivel de experiencia. Usa la columna
experience_levelpara agrupar los sueldos y crear un diagrama de cajas para cada grupo que muestre los valores de la columnasalary_in_usd. - Usa el algoritmo XGBoost para crear un modelo que determine la variable
classde una fruta en particular. Divide los datos en conjuntos de datos de entrenamiento y prueba para generar un modelo y determinar su exactitud. Crea una matriz de confusión para mostrar las predicciones entre cada clase, incluidas todas las predicciones correctas e incorrectas. - Pronostica
target_variabledefilename.csvpara los próximos seis meses.
Instrucciones de SQL y BigQuery ML
- Crea y evalúa un modelo de clasificación en
bigquery-public-data.ml_datasets.census_adult_incomecon BigQuery SQL. - Usa SQL para pronosticar el tráfico futuro de mi sitio web para el próximo mes en función de
bigquery-public-data.google_analytics_sample.ga_sessions_*. Luego, traza los valores históricos y previstos. - Agrupa a los clientes similares para crear campañas de mercado segmentadas con un modelo de KMeans y funciones de SQL de BigQuery ML. Usa tres atributos para el agrupamiento en clústeres. Luego, visualiza los resultados creando una serie de diagramas de dispersión 2D. Usa la tabla
bigquery-public-data.ml_datasets.census_adult_income. - Genera incorporaciones de texto en BigQuery ML con el contenido de la reseña en
bigquery-public-data.imdb.reviews.
Para obtener una lista de los modelos y las tareas de aprendizaje automático compatibles, consulta la documentación de BigQuery ML.
Instrucciones de DataFrame
- Crea un DataFrame de Pandas para los datos en
project_id:dataset.table. Analiza los datos en busca de valores nulos y, luego, grafica la distribución de cada columna con el tipo de gráfico. Usa gráficos de violín para los valores medidos y gráficos de barras para las categorías. - Lee
filename.csvy crea un DataFrame. Ejecuta un análisis en el DataFrame para determinar qué se debe hacer con los valores. Por ejemplo, si hay valores faltantes que se deben reemplazar o quitar, o si hay filas duplicadas que se deben abordar. Usa el archivo de datos para determinar la distribución del dinero invertido en USD por ubicación de la ciudad. Grafica los 20 resultados principales con un gráfico de barras que muestre los resultados en orden descendente como Ubicación en comparación con el importe promedio invertido (USD). - Crea y evalúa un modelo de clasificación en
project_id:dataset.tablecon BigQuery DataFrames. - Crea un modelo de previsión de series temporales en
project_id:dataset.tablecon BigQuery DataFrames y visualiza las evaluaciones del modelo. - Visualiza las cifras de ventas del año pasado en la tabla de BigQuery
project_id:dataset.tablecon BigQuery DataFrames. - Busca los atributos que mejor puedan predecir las especies de pingüinos de la tabla
bigquery-public_data.ml_datasets.penguinscon BigQuery DataFrames.
Instrucciones de PySpark
- Crea y evalúa un modelo de clasificación en
project_id:dataset.tablecon Managed Service for Apache Spark. - Agrupa a los clientes similares para crear campañas de mercado segmentadas, pero primero realiza la reducción de dimensionalidad con un modelo de PCA. Usa PySpark para hacerlo
en la tabla
project_id:dataset.table.
Desactiva Gemini en BigQuery
Para desactivar Gemini en BigQuery en un Google Cloud proyecto, un administrador debe desactivar la API de Gemini para Google Cloud. Consulta Inhabilita servicios.
Para desactivar Gemini en BigQuery para un usuario específico, un
administrador debe revocar el
rol de
Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user) de ese usuario. Consulta
Revoca
un solo rol de IAM.
Precios
Durante la versión preliminar, se te cobra por ejecutar código en el entorno de ejecución del notebook y por cualquier ranura de BigQuery que hayas usado. Para obtener más información, consulta los precios de Colab Enterprise.
Regiones admitidas
Para ver las regiones admitidas para el agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.