Usa el Agente de ciencia de datos

En esta guía, se describe cómo puedes usar el Agente de ciencia de datos en Colab Enterprise para ayudarte a realizar tareas de ciencia de datos en tus notebooks.

Descubre cómo y cuándo Gemini para Google Cloud usa tus datos.

Este documento está dirigido a analistas de datos, científicos de datos y desarrolladores de datos que trabajan con Colab Enterprise. Se supone que tienes conocimientos sobre cómo escribir código en un entorno de notebook.

Capacidades del Agente de ciencia de datos

El Agente de ciencia de datos puede ayudarte con tareas que van desde el análisis exploratorio de datos hasta la generación de predicciones y previsiones de aprendizaje automático. Puedes usar el Agente de ciencia de datos para lo siguiente:

  • Procesamiento de datos a gran escala: Usa BigQuery ML, BigQuery DataFrames o Managed Service for Apache Spark para realizar el procesamiento de datos distribuidos en conjuntos de datos grandes. Esto te permite limpiar, transformar y analizar de manera eficiente los datos que son demasiado grandes para caber en la memoria de una sola máquina.
  • Generación de planes: Genera y modifica un plan para completar una tarea en particular con herramientas comunes, como Python, SQL, Apache Spark y BigQuery DataFrames.
  • Exploración de datos: Explora un conjunto de datos para comprender su estructura, identificar posibles problemas, como valores faltantes y valores atípicos, y examinar la distribución de variables clave.
  • Limpieza de datos: Limpia tus datos. Por ejemplo, quita los datos que son valores atípicos.
  • Organización de datos: Convierte atributos categóricos en representaciones numéricas con técnicas como la codificación one-hot o la codificación de etiquetas. Crea atributos nuevos para el análisis.
  • Análisis de datos: Analiza las relaciones entre diferentes variables. Calcula las correlaciones entre los atributos numéricos y explora las distribuciones de los atributos categóricos. Busca patrones y tendencias en los datos.
  • Visualización de datos: Crea visualizaciones, como histogramas, diagramas de cajas, diagramas de dispersión y gráficos de barras, que representen las distribuciones de variables individuales y las relaciones entre ellas.
  • Ingeniería de atributos: Diseña atributos nuevos a partir de un conjunto de datos limpio.
  • División de datos: Divide un conjunto de datos diseñado en conjuntos de datos de entrenamiento, validación, y prueba.
  • Entrenamiento de modelos: Entrena un modelo con los datos de entrenamiento en un DataFrame de Pandas, un DataFrame de BigQuery, un DataFrame de PySpark, o con la instrucción CREATE MODEL de BigQuery ML con tablas de BigQuery.
  • Optimización de modelos: Optimiza un modelo con el conjunto de validación. Explora modelos alternativos, como DecisionTreeRegressor y RandomForestRegressor, y compara su rendimiento.
  • Evaluación de modelos: Evalúa el rendimiento del modelo en un conjunto de datos de prueba con un DataFrame de Pandas, un DataFrame de BigQuery o un DataFrame de PySpark. También puedes evaluar la calidad del modelo y compararlos con las funciones de evaluación de modelos de BigQuery ML para los modelos entrenados con BigQuery ML.
  • Inferencia de modelos: Realiza la inferencia con modelos entrenados de BigQuery ML , modelos importados y modelos remotos con las funciones de inferencia de BigQuery ML . También puedes usar el método model.predict() de BigQuery DataFrames o los transformadores de PySpark para realizar predicciones.

Limitaciones

  • El Agente de ciencia de datos admite las siguientes fuentes de datos:
    • Archivos CSV
    • Tablas de BigQuery
  • El código que produce el Agente de ciencia de datos solo se ejecuta en el entorno de ejecución de tu notebook.
  • Tu notebook debe estar en una región admitida por el Agente de ciencia de datos. Consulta Ubicaciones.
  • El Agente de ciencia de datos no es compatible con los proyectos que tienen habilitados los Controles del servicio de VPC.
  • La primera vez que ejecutas el Agente de ciencia de datos, es posible que experimentes una latencia de aproximadamente cinco a diez minutos. Esto solo ocurre una vez por proyecto durante la configuración inicial.
  • La búsqueda de tablas de BigQuery con la función @mention se limita a tu proyecto actual. Usa el selector de tablas para buscar en todos los proyectos.
  • La función @mention solo busca tablas de BigQuery. Para buscar archivos de datos que puedes subir, usa el símbolo +.
  • PySpark en el Agente de ciencia de datos solo genera código de Apache Spark 4.0. El DSA puede ayudarte a actualizar a Apache Spark 4.0, pero los usuarios que requieren versiones anteriores de Apache Spark no deben usar el Agente de ciencia de datos.

Antes de comenzar

  1. Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Roles obligatorios

Para obtener los permisos que necesitas para usar el Agente de ciencia de datos en Colab Enterprise, pídele a tu administrador que te otorgue el rol de usuario de Colab Enterprise (roles/aiplatform.colabEnterpriseUser) de IAM en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Haz referencia a tus datos

Para permitir que el Agente de ciencia de datos de Colab Enterprise acceda a tus datos y trabaje con ellos, puedes subir un archivo CSV o hacer referencia a una tabla de BigQuery.

Archivo CSV

  1. En la Google Cloud consola de, ve a la página Mis notebooks de Colab Enterprise.

    Ir a Mis notebooks

  2. En el menú Región, selecciona la región que contiene el notebook.

  3. Haz clic en el notebook que deseas abrir.

  4. Haz clic en el botón  Activar Gemini en Colab para abrir el diálogo de chat.

  5. En el diálogo de chat, haz clic en Agregar archivos > Subir.
  6. Si es necesario, autoriza tu Cuenta de Google.

    Espera un momento para que Colab Enterprise inicie un entorno de ejecución y habilite la navegación de archivos.

  7. Busca la ubicación del archivo y, luego, haz clic en Abrir.
  8. Haz clic en Aceptar para confirmar que se borrarán los archivos de este entorno de ejecución cuando se borre el entorno de ejecución.

    El archivo se sube al panel Archivos y aparece en la ventana de chat.

Tabla de BigQuery

  1. En la Google Cloud consola de, ve a la página Mis notebooks de Colab Enterprise.

    Ir a Mis notebooks

  2. En el menú Región, selecciona la región que contiene el notebook.

  3. Haz clic en el notebook que deseas abrir.

  4. Haz clic en el botón  Activar Gemini en Colab para abrir el diálogo de chat.

  5. Para hacer referencia a tus datos, realiza una de las siguientes acciones:

    • Elige una o más tablas con el selector de tablas:

      1. Haz clic en Agregar a Gemini > Tablas de BigQuery.
      2. En la ventana Tablas de BigQuery, selecciona una o más tablas de tu proyecto. Puedes buscar tablas en todos los proyectos y filtrarlas con la barra de búsqueda.
    • Incluye un nombre de tabla de BigQuery directamente en tu instrucción. Por ejemplo: "Ayúdame a realizar un análisis de datos exploratorio y obtener estadísticas sobre los datos de esta tabla: PROJECT_ID:DATASET.TABLE."

      Reemplaza lo siguiente:

      • PROJECT_ID: el ID de tu proyecto
      • DATASET: el nombre del conjunto de datos que contiene la tabla que estás analizando.
      • TABLE: el nombre de la tabla que estás analizando.
    • Escribe @ para buscar una tabla de BigQuery en tu proyecto actual.

Usa el Agente de ciencia de datos

Para comenzar a usar el Agente de ciencia de datos de Colab Enterprise, haz lo siguiente:

  1. En el diálogo de chat de Gemini, ingresa una instrucción y haz clic en  Enviar. Para obtener ideas sobre las instrucciones, revisa las capacidades del Agente de ciencia de datos y consulta Ejemplos de instrucciones.

    Por ejemplo, puedes ingresar "Proporciona un análisis de los datos que subí".

    Si aún no autorizaste el Agente de ciencia de datos, aparecerá un breve diálogo mientras Colab Enterprise autentica tu Cuenta de Google en el Agente de ciencia de datos.

  2. Gemini responde a tu instrucción. La respuesta puede incluir fragmentos de código para ejecutar, consejos generales para tu proyecto, los próximos pasos para lograr tus objetivos o información sobre problemas específicos en tus datos o código.

    Después de evaluar la respuesta, puedes hacer lo siguiente:

    • Si Gemini proporciona código en su respuesta, puedes hacer clic en lo siguiente:
      • Aceptar para agregar el código a tu notebook
      • Aceptar y ejecutar para agregar el código a tu notebook y ejecutarlo
      • Cancelar para borrar el código sugerido
    • Haz preguntas de seguimiento y continúa la conversación según sea necesario.
  3. Para cerrar el diálogo de Gemini, haz clic en  Cerrar.

Desactiva Gemini en Colab Enterprise

Para desactivar Gemini en Colab Enterprise en un Google Cloud proyecto, un administrador debe desactivar la API de Gemini for Google Cloud. Consulta Inhabilita servicios.

Para desactivar Gemini en Colab Enterprise para un usuario específico, un administrador debe revocar el rol de Usuario de Gemini para Google Cloud (roles/cloudaicompanion.user) de ese usuario. Consulta Revoca un solo rol de IAM.

Ejemplos de instrucciones

En las siguientes secciones, se muestran ejemplos de los tipos de instrucciones que puedes usar con el Agente de ciencia de datos.

Instrucciones de Python

El código de Python se genera de forma predeterminada, a menos que uses una palabra clave específica en la instrucción, como "BigQuery ML" o "SQL".

  • Investiga y completa los valores faltantes con el algoritmo de aprendizaje automático de k-vecinos más cercanos (KNN).
  • Crea un diagrama de salario por nivel de experiencia. Usa la columna experience_level para agrupar los salarios y crear un diagrama de cajas para cada grupo que muestre los valores de la columna salary_in_usd.
  • Usa el algoritmo XGBoost para crear un modelo que determine la variable class de una fruta en particular. Divide los datos en conjuntos de datos de entrenamiento y prueba para generar un modelo y determinar su exactitud. Crea una matriz de confusión para mostrar las predicciones entre cada clase, incluidas todas las predicciones correctas e incorrectas.
  • Pronostica target_variable de filename.csv para los próximos seis meses.

Instrucciones de SQL y BigQuery ML

  • Crea y evalúa un modelo de clasificación en bigquery-public-data.ml_datasets.census_adult_income con BigQuery SQL.
  • Usa SQL para pronosticar el tráfico futuro de mi sitio web para el próximo mes en función de bigquery-public-data.google_analytics_sample.ga_sessions_*. Luego, traza los valores históricos y previstos.
  • Agrupa a los clientes similares para crear campañas de mercado de segmentación con un modelo de KMeans y funciones de SQL de BigQuery ML. Usa tres atributos para el agrupamiento en clústeres. Luego, visualiza los resultados creando una serie de diagramas de dispersión 2D. Usa la tabla bigquery-public-data.ml_datasets.census_adult_income.
  • Genera incorporaciones de texto en BigQuery ML con el contenido de la revisión en bigquery-public-data.imdb.reviews.

Para obtener una lista de los modelos y las tareas de aprendizaje automático admitidos, consulta la documentación de BigQuery ML.

Instrucciones de DataFrame

  • Crea un DataFrame de Pandas para los datos en project_id:dataset.table. Analiza los datos en busca de valores nulos y, luego, grafica la distribución de cada columna con el tipo de gráfico. Usa gráficos de violín para los valores medidos y gráficos de barras para las categorías.
  • Lee filename.csv y construye un DataFrame. Ejecuta el análisis en el DataFrame para determinar qué se debe hacer con los valores. Por ejemplo, si hay valores faltantes que deben reemplazarse o quitarse, o si hay filas duplicadas que deben abordarse. Usa el archivo de datos para determinar la distribución del dinero invertido en USD por ubicación de la ciudad. Grafica los 20 resultados principales con un gráfico de barras que muestre los resultados en orden descendente como Ubicación en comparación con el promedio de inversión (USD).
  • Crea y evalúa un modelo de clasificación en project_id:dataset.table con DataFrames de BigQuery.
  • Crea un modelo de previsión de series temporales en project_id:dataset.table con DataFrames de BigQuery y visualiza las evaluaciones del modelo.
  • Visualiza las cifras de ventas del año pasado en la tabla de BigQuery project_id:dataset.table con DataFrames de BigQuery.
  • Encuentra los atributos que mejor pueden predecir las especies de pingüinos de la tabla bigquery-public_data.ml_datasets.penguins con DataFrames de BigQuery.

Instrucciones de PySpark

  • Crea y evalúa un modelo de clasificación en project_id:dataset.table con Managed Service for Apache Spark.
  • Agrupa a los clientes similares para crear campañas de mercado de segmentación, pero primero realiza la reducción de dimensionalidad con un modelo de PCA. Usa PySpark para hacerlo en la tabla project_id:dataset.table.

Regiones admitidas

Para ver las regiones admitidas para el Agente de ciencia de datos de Colab Enterprise, consulta Ubicaciones.

Facturación

Durante la versión preliminar, solo se te cobra por ejecutar código en el entorno de ejecución del notebook. Para obtener más información, consulta Precios de Colab Enterprise.

¿Qué sigue?