Usar o Agente de Ciência de Dados

Neste guia, descrevemos como usar o Agente de Ciência de Dados no Colab Enterprise para ajudar você a realizar tarefas de ciência de dados em notebooks.

Saiba como e quando o Gemini para Google Cloud usa seus dados.

Este documento é destinado a analistas, cientistas e desenvolvedores de dados que trabalham com o Colab Enterprise. É necessário saber como escrever código em um ambiente de notebook.

Recursos do agente de ciência de dados

O Agente de Ciência de Dados pode ajudar em tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de aprendizado de máquina. Você pode usar o agente de ciência de dados para:

  • Processamento de dados em grande escala: use o BigQuery ML, o BigQuery DataFrames ou o Serviço gerenciado para Apache Spark para realizar o processamento distribuído de dados em grandes conjuntos de dados. Isso permite limpar, transformar e analisar com eficiência dados muito grandes para caber na memória de uma única máquina.
  • Gerar planos: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL, Apache Spark e BigQuery DataFrames.
  • Análise detalhada de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis.
  • Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
  • Preparação de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulos. Crie novos recursos para análise.
  • Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
  • Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas.
  • Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
  • Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
  • Treinamento de modelo: treine um modelo usando os dados de treinamento em um DataFrame do pandas, um BigQuery DataFrames, um DataFrame do PySpark ou usando a instrução CREATE MODEL do BigQuery ML com tabelas do BigQuery.
  • Otimização do modelo: otimize um modelo usando o conjunto de validação. Analise modelos alternativos, como DecisionTreeRegressor e RandomForestRegressor, e compare a performance deles.
  • Avaliação do modelo: avalie o desempenho do modelo em um conjunto de dados de teste usando um DataFrame do pandas, BigQuery DataFrames ou um DataFrame do PySpark. Você também pode avaliar a qualidade e comparar modelos usando as funções de avaliação de modelo do BigQuery ML para modelos treinados com o BigQuery ML.
  • Inferência de modelo: faça inferências com modelos treinados, importados e remotos do BigQuery ML usando as funções de inferência do BigQuery ML. Também é possível usar o método model.predict() do BigQuery DataFrames ou os transformadores do PySpark para fazer previsões.

Limitações

  • O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
    • Arquivos CSV
    • Tabelas do BigQuery
  • O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
  • O notebook precisa estar em uma região compatível com o agente de ciência de dados. Consulte Locais.
  • Na primeira vez que você executa o agente de ciência de dados, pode haver uma latência de aproximadamente 5 a 10 minutos. Isso acontece apenas uma vez por projeto durante a configuração inicial.
  • A pesquisa de tabelas do BigQuery usando a função @mention é limitada ao seu projeto atual. Use o seletor de tabelas para pesquisar em vários projetos.
  • A função @mention só pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo +.
  • O PySpark no agente de ciência de dados gera apenas código do Apache Spark 4.0. O DSA pode ajudar você a fazer upgrade para o Apache Spark 4.0, mas os usuários que precisam de versões anteriores do Apache Spark não devem usar o Data Science Agent.

Antes de começar

  1. Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Funções exigidas

Para receber as permissões necessárias para usar o Agente de Ciência de Dados no Colab Enterprise, peça ao administrador para conceder a você o papel Usuário do Colab Enterprise (roles/aiplatform.colabEnterpriseUser) do IAM no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Referenciar seus dados

Para permitir que o agente de ciência de dados do Colab Enterprise acesse e trabalhe com seus dados, faça upload de um arquivo CSV ou referencie uma tabela do BigQuery.

Arquivo CSV

  1. No console do Google Cloud , acesse a página Meus notebooks do Colab Enterprise.

    Acessar "Meus notebooks"

  2. No menu Região, selecione a região que contém o notebook.

  3. Clique no notebook que você quer abrir.

  4. Clique no botão  Ativar/desativar o Gemini no Colab para abrir a caixa de diálogo de chat.

  5. Na caixa de diálogo do chat, clique em Adicionar arquivos > Fazer upload.
  6. Se necessário, autorize sua Conta do Google.

    Aguarde um momento para que o Colab Enterprise inicie um ambiente de execução e ative a navegação de arquivos.

  7. Navegue até o local do arquivo e clique em Abrir.
  8. Clique em OK para confirmar que os arquivos deste ambiente de execução serão excluídos quando ele for excluído.

    O arquivo é enviado para o painel Arquivos e aparece na janela de chat.

Tabela do BigQuery

  1. No console do Google Cloud , acesse a página Meus notebooks do Colab Enterprise.

    Acessar "Meus notebooks"

  2. No menu Região, selecione a região que contém o notebook.

  3. Clique no notebook que você quer abrir.

  4. Clique no botão  Ativar/desativar o Gemini no Colab para abrir a caixa de diálogo de chat.

  5. Para referenciar seus dados, faça o seguinte:

    • Escolha uma ou mais tabelas usando o seletor:

      1. Clique em Adicionar ao Gemini > Tabelas do BigQuery.
      2. Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em todos os projetos e filtrar usando a barra de pesquisa.
    • Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a fazer uma análise de dados exploratória e receber insights sobre os dados desta tabela: PROJECT_ID:DATASET.TABLE".

      Substitua:

      • PROJECT_ID: o ID do projeto.
      • DATASET: o nome do conjunto de dados que contém a tabela que você está analisando.
      • TABLE: o nome da tabela que você está analisando.
    • Digite @ para pesquisar uma tabela do BigQuery no projeto atual.

Usar o Agente de Ciência de Dados

Para começar a usar o Agente de Ciência de Dados do Colab Enterprise, faça o seguinte:

  1. Na caixa de diálogo do chat do Gemini, insira um comando e clique em  Enviar. Para ter ideias de comandos, confira as capacidades do Agente de Ciência de Dados e os exemplos de comandos.

    Por exemplo, você pode inserir "Faça uma análise dos dados que enviei".

    Se você ainda não tiver autorizado o Agente de Ciência de Dados, uma breve caixa de diálogo vai aparecer enquanto o Colab Enterprise autentica sua Conta do Google para o Agente de Ciência de Dados.

  2. O Gemini responde ao seu comando. A resposta pode incluir snippets de código para executar, conselhos gerais para seu projeto, próximas etapas para alcançar suas metas ou informações sobre problemas específicos nos seus dados ou código.

    Depois de avaliar a resposta, você pode fazer o seguinte:

    • Se o Gemini fornecer código na resposta, clique em:
      • Clique em Aceitar para adicionar o código ao notebook.
      • Aceitar e executar para adicionar o código ao notebook e executá-lo.
      • Cancelar para excluir o código sugerido.
    • Faça perguntas complementares e continue a discussão conforme necessário.
  3. Para fechar a caixa de diálogo Gemini, clique em  Fechar.

Desativar o Gemini no Colab Enterprise

Para desativar o Gemini no Colab Enterprise em um Google Cloud projeto, um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.

Para desativar o Gemini no Colab Enterprise para um usuário específico, um administrador precisa revogar o papel de Usuário do Gemini para Google Cloud (roles/cloudaicompanion.user) desse usuário. Consulte Revogar um único papel do IAM.

Comandos de amostra

As seções a seguir mostram exemplos dos tipos de comandos que você pode usar com o agente de ciência de dados.

Comandos do Python

O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".

  • Investigue e preencha os valores ausentes usando o algoritmo de aprendizado de máquina de vizinhos k-mais próximos (KNN).
  • Crie um gráfico de salário por nível de experiência. Use a coluna experience_level para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da coluna salary_in_usd.
  • Use o algoritmo XGBoost para criar um modelo que determine a variável class de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas.
  • Previsão de target_variable de filename.csv para os próximos seis meses.

Comandos de SQL e BigQuery ML

  • Crie e avalie um modelo de classificação em bigquery-public-data.ml_datasets.census_adult_income usando o BigQuery SQL.
  • Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, crie uma representação gráfica dos valores históricos e estimados.
  • Agrupe clientes semelhantes para criar campanhas de mercado segmentadas usando um modelo KMeans e funções SQL do BigQuery ML. Use três recursos para clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela bigquery-public-data.ml_datasets.census_adult_income.
  • Gere embeddings de texto no BigQuery ML usando o conteúdo da avaliação em bigquery-public-data.imdb.reviews.

Para conferir uma lista de modelos e tarefas de machine learning compatíveis, consulte a documentação do BigQuery ML.

Comandos do DataFrame

  • Crie um DataFrame do pandas para os dados em project_id:dataset.table. Verifique se há valores nulos nos dados e, em seguida, crie uma representação gráfica da distribuição de cada coluna usando o tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias.
  • Leia filename.csv e crie um DataFrame. Execute uma análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos, ou há linhas duplicadas que precisam ser corrigidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por cidade. Crie um gráfico de barras com os 20 principais resultados, mostrando-os em ordem decrescente como "Localização" x "Valor médio investido (USD)".
  • Crie e avalie um modelo de classificação em project_id:dataset.table usando BigQuery DataFrames.
  • Crie um modelo de previsão de série temporal em project_id:dataset.table usando BigQuery DataFrames e visualize as avaliações do modelo.
  • Visualize os números de vendas do ano passado na tabela project_id:dataset.table do BigQuery usando os BigQuery DataFrames.
  • Encontre os atributos que melhor podem prever a espécie de pinguim na tabela bigquery-public_data.ml_datasets.penguins usando o BigQuery DataFrames.

Comandos do PySpark

  • Crie e avalie um modelo de classificação no project_id:dataset.table usando o Serviço Gerenciado para Apache Spark.
  • Agrupe clientes semelhantes para criar campanhas de segmentação de mercado, mas primeiro faça a redução de dimensionalidade usando um modelo de PCA. Use o PySpark para fazer isso na tabela project_id:dataset.table.

Regiões compatíveis

Para conferir as regiões compatíveis com o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.

Faturamento

Durante o pré-lançamento, você paga apenas pela execução do código no ambiente de execução do notebook. Para mais informações, consulte Preços do Colab Enterprise.

VPC Service Controls

O Agente de Ciência de Dados é compatível com o VPC Service Controls. Se você quiser usar o agente de ciência de dados em um perímetro de serviço, consulte Usar o VPC Service Controls com o Colab Enterprise.

A seguir