Usar o Agente de Ciência de Dados
Este guia descreve como usar o Agente de Ciência de Dados no Colab Enterprise para ajudar você a realizar tarefas de ciência de dados em notebooks.
Saiba como e quando o Gemini para Google Cloud usa seus dados.
Este documento é destinado a analistas, cientistas e desenvolvedores de dados que trabalham com o Colab Enterprise. Ele pressupõe que você sabe como escrever código em um ambiente de notebook.
Recursos do Agente de Ciência de Dados
O Agente de Ciência de Dados pode ajudar em tarefas que vão desde a análise de dados exploratória até a geração de previsões e estimativas de machine learning. Você pode usar o Agente de Ciência de Dados para:
- Processamento de dados em grande escala: use o BigQuery ML, o BigQuery DataFrames ou o Managed Service for Apache Spark para realizar o processamento de dados distribuídos em grandes conjuntos de dados. Isso permite limpar, transformar e analisar dados grandes demais para caber na memória de uma única máquina.
- Gerar planos: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL, Apache Spark e BigQuery DataFrames.
- Exploração de dados: explore um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis.
- Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
- Preparação de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou codificação de rótulos. Crie novos atributos para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcule as correlações entre atributos numéricos e explore as distribuições de atributos categóricos. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações, como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas.
- Engenharia de atributos: crie novos atributos de um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação, e teste.
- Treinamento de modelos: treine um modelo usando os dados de treinamento em um
DataFrame do pandas, um
BigQuery DataFrames,
um DataFrame do PySpark,
ou usando a instrução
CREATE MODELdo BigQuery ML com tabelas do BigQuery. - Otimização de modelos: otimize um modelo usando o conjunto de validação.
Explore modelos alternativos, como
DecisionTreeRegressoreRandomForestRegressor, e compare o desempenho deles. - Avaliação de modelos: avalie o desempenho do modelo em um conjunto de dados de teste usando um DataFrame do pandas, BigQuery DataFrames ou um DataFrame do PySpark. Também é possível avaliar a qualidade do modelo e comparar modelos usando BigQuery ML funções de avaliação de modelo para modelos treinados usando o BigQuery ML.
- Inferência de modelos: realize a inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Também é possível usar
o método
model.predict()do BigQuery DataFrames ou transformadores do PySpark para fazer previsões.
Limitações
- O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
- O código produzido pelo Agente de Ciência de Dados só é executado no ambiente de execução do notebook.
- O notebook precisa estar em uma região com suporte do Agente de Ciência de Dados. Consulte Locais.
- O Agente de Ciência de Dados não tem suporte em projetos que ativaram o VPC Service Controls.
- Na primeira vez que você executar o Agente de Ciência de Dados, poderá ocorrer uma latência de aproximadamente cinco a dez minutos. Isso só acontece uma vez por projeto durante a configuração inicial.
- A pesquisa de tabelas do BigQuery usando a função
@mentioné limitada ao projeto atual. Use o seletor de tabelas para pesquisar em projetos. - A função
@mentionsó pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo+. - O PySpark no Agente de Ciência de Dados só gera código do Apache Spark 4.0. O DSA pode ajudar você a fazer upgrade para o Apache Spark 4.0, mas os usuários que exigem versões anteriores do Apache Spark não devem usar o Agente de Ciência de Dados.
Antes de começar
- Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Funções exigidas
Para receber as permissões necessárias para usar o Agente de Ciência de Dados no Colab Enterprise, peça ao administrador para conceder a você o papel de usuário do Colab Enterprise (roles/aiplatform.colabEnterpriseUser) do IAM no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
Referenciar seus dados
Para permitir que o Agente de Ciência de Dados do Colab Enterprise acesse e trabalhe com seus dados, você pode enviar um arquivo CSV ou referenciar uma tabela do BigQuery.
Arquivo CSV
-
No Google Cloud console do, acesse a página Meus notebooks do Colab Enterprise.
-
No menu Região, selecione a região que contém o notebook.
-
Clique no notebook que você quer abrir.
-
Clique no botão Ativar o Gemini no Colab para abrir a caixa de diálogo do chat.
- Na caixa de diálogo do chat, clique em Adicionar arquivos > Fazer upload.
-
Se necessário, autorize sua Conta do Google.
Aguarde um momento para que o Colab Enterprise inicie um ambiente de execução e ative a navegação de arquivos.
- Navegue até o local do arquivo e clique em Abrir.
-
Clique em OK para confirmar que os arquivos desse ambiente de execução serão excluídos quando ele for excluído.
O arquivo é enviado para o painel Arquivos e aparece na janela do chat.
Tabela do BigQuery
-
No Google Cloud console do, acesse a página Meus notebooks do Colab Enterprise.
-
No menu Região, selecione a região que contém o notebook.
-
Clique no notebook que você quer abrir.
-
Clique no botão Ativar o Gemini no Colab para abrir a caixa de diálogo do chat.
-
Para referenciar seus dados, faça uma destas ações:
-
Escolha uma ou mais tabelas usando o seletor de tabelas:
- Clique em Adicionar ao Gemini > Tabelas do BigQuery.
- Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em projetos e filtrar tabelas usando a barra de pesquisa.
-
Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a realizar a análise de dados exploratória e receber insights sobre os dados nesta tabela:
PROJECT_ID:DATASET.TABLE."Substitua:
PROJECT_ID: o ID do projeto.DATASET: o nome do conjunto de dados que contém a tabela que você está analisando.TABLE: o nome da tabela que você está analisando.
-
Digite
@para pesquisar uma tabela do BigQuery no projeto atual.
-
Usar o Agente de Ciência de Dados
Para começar a usar o Agente de Ciência de Dados do Colab Enterprise, faça o seguinte:
-
Na caixa de diálogo do chat Gemini, insira um comando e clique em Enviar. Para ter ideias de comandos, revise os recursos do Agente de Ciência de Dados e consulte Comandos de amostra.
Por exemplo, você pode inserir "Forneça uma análise dos dados que enviei."
Se você ainda não tiver autorizado o Agente de Ciência de Dados, uma breve caixa de diálogo vai aparecer enquanto o Colab Enterprise autentica sua Conta do Google no Agente de Ciência de Dados.
-
O Gemini responde ao seu comando. A resposta pode incluir snippets de código para execução, conselhos gerais para o projeto, próximas etapas para alcançar suas metas ou informações sobre problemas específicos nos dados ou no código.
Depois de avaliar a resposta, você pode fazer o seguinte:
- Se o Gemini fornecer código na resposta, você poderá clicar em:
- Aceitar para adicionar o código ao notebook.
- Aceitar e executar para adicionar o código ao notebook e executar o código.
- Cancelar para excluir o código sugerido.
- Faça perguntas de acompanhamento e continue a discussão conforme necessário.
- Se o Gemini fornecer código na resposta, você poderá clicar em:
-
Para fechar a caixa de diálogo Gemini, clique em Fechar.
Desativar o Gemini no Colab Enterprise
Para desativar o Gemini no Colab Enterprise em um Google Cloud projeto, um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.
Para desativar o Gemini no Colab Enterprise para um usuário específico, um
administrador precisa revogar o
papel Usuário do
Gemini para Google Cloud (roles/cloudaicompanion.user) desse usuário. Consulte
Revogar
apenas um papel do IAM.
Comandos de amostra
As seções a seguir mostram exemplos dos tipos de comandos que podem ser usados com o Agente de Ciência de Dados.
Comandos do Python
O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".
- Investigue e preencha os valores ausentes usando o algoritmo de machine learning de k-vizinhos mais próximos (KNN).
- Crie um gráfico de salário por nível de experiência. Use a coluna
experience_levelpara agrupar os salários e crie um diagrama de caixa para cada grupo mostrando os valores da colunasalary_in_usd. - Use o algoritmo XGBoost para criar um modelo para determinar a variável
classde uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a precisão dele. Crie uma matriz de confusão para mostrar as previsões entre cada classe, incluindo todas as previsões corretas e incorretas. - Preveja
target_variabledefilename.csvpara os próximos seis meses.
Comandos de SQL e BigQuery ML
- Crie e avalie um modelo de classificação em
bigquery-public-data.ml_datasets.census_adult_incomeusando o SQL do BigQuery. - Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em
bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, crie uma representação gráfica dos valores históricos e estimados. - Agrupe clientes semelhantes para criar campanhas de marketing de segmentação usando um modelo KMeans e funções SQL do BigQuery ML. Use três atributos para o clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela
bigquery-public-data.ml_datasets.census_adult_income. - Gere incorporações de texto no BigQuery ML usando o conteúdo de revisão em
bigquery-public-data.imdb.reviews.
Para uma lista de modelos e tarefas de machine learning com suporte, consulte a documentação do BigQuery ML.
Comandos do DataFrame
- Crie um DataFrame do pandas para os dados em
project_id:dataset.table. Verifique se há valores nulos nos dados e, em seguida, crie uma representação gráfica da distribuição de cada coluna usando o tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias. - Leia
filename.csve construa um DataFrame. Execute a análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos ou há linhas duplicadas que precisam ser resolvidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por local da cidade. Crie um gráfico de barras com os 20 principais resultados que mostram os resultados em ordem decrescente como local versus valor médio investido (USD). - Crie e avalie um modelo de classificação em
project_id:dataset.tableusando BigQuery DataFrames. - Crie um modelo de previsão de série temporal em
project_id:dataset.tableusando o BigQuery DataFrames e visualize as avaliações do modelo. - Visualize os números de vendas no ano passado na tabela do BigQuery
project_id:dataset.tableusando o BigQuery DataFrames. - Encontre os atributos que podem prever melhor a espécie de pinguim na tabela
bigquery-public_data.ml_datasets.penguinsusando o BigQuery DataFrames.
Comandos do PySpark
- Crie e avalie um modelo de classificação em
project_id:dataset.tableusando o Managed Service for Apache Spark. - Agrupe clientes semelhantes para criar campanhas de marketing de segmentação, mas primeiro faça a redução de dimensionalidade usando um modelo PCA. Use o PySpark para fazer isso
na tabela
project_id:dataset.table.
Regiões compatíveis
Para conferir as regiões com suporte do Agente de Ciência de Dados do Colab Enterprise, consulte Locais.
Faturamento
Durante a visualização, você só paga pela execução de código no ambiente de execução do notebook. Para mais informações, consulte Preços do Colab Enterprise.
A seguir
Para mais informações sobre como usar o Agente de Ciência de Dados com o BigQuery, consulte Usar o Agente de Ciência de Dados do Colab Enterprise com o BigQuery.
Para mais maneiras de escrever e editar código com a assistência do Gemini, consulte o seguinte: