Usar o Agente de Ciência de Dados do Colab Enterprise com o BigQuery
O Agente de Ciência de Dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e fornecer insights, tudo em um notebook do Colab Enterprise.
Antes de começar
- Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloudagora, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Ative as APIs BigQuery, Gemini for Google Cloud, Dataform e Compute Engine.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.Para novos projetos, a API BigQuery é ativada automaticamente.
Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.
Limitações
- O Agente de Ciência de Dados está disponível apenas no ambiente do Colab Enterprise.
- O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
- O código produzido pelo Agente de Ciência de Dados só é executado no ambiente de execução do notebook.
- A pesquisa de tabelas do BigQuery usando a função
@mentioné limitada ao projeto atual. Use o seletor de tabelas para pesquisar em todos os projetos. - A função
@mentionsó pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo+. - O PySpark no Agente de Ciência de Dados só gera código do Serviço Gerenciado para Apache Spark 4.0. O DSA pode ajudar você a fazer upgrade para o Serviço Gerenciado para Apache Spark 4.0, mas os usuários que precisam de versões anteriores não devem usar o Agente de Ciência de Dados.
- As chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) não são compatíveis.
Quando usar o Agente de Ciência de Dados
O Agente de Ciência de Dados ajuda em tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar o DSA para:
- Processamento de dados em grande escala: use o BigQuery ML, o BigQuery DataFrames ou o Serviço Gerenciado para Apache Spark para realizar o processamento de dados distribuídos em grandes conjuntos de dados. Isso permite limpar, transformar e analisar dados grandes demais para caber na memória de uma única máquina.
- Gerar um plano: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL, Serviço Gerenciado para Apache Spark e BigQuery DataFrames.
- Exploração de dados: explore um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição de variáveis importantes usando Python ou SQL.
- Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
- Organização de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou codificação de rótulos ou usando ferramentas de transformação de atributos do BigQuery ML. Crie novos atributos para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcule as correlações entre atributos numéricos e explore as distribuições de atributos categóricos. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações, como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas. Também é possível criar visualizações em Python para tabelas armazenadas no BigQuery.
- Engenharia de atributos: crie novos atributos de um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação, e teste.
- Treinamento de modelos: treine um modelo usando os dados de treinamento em um
DataFrame do pandas (
X_train,y_train), BigQuery DataFrames, um DataFrame do PySpark ou usando aCREATE MODELdo BigQuery ML com tabelas do BigQuery. - Otimização de modelos: otimize um modelo usando o conjunto de validação.
Explore modelos alternativos, como
DecisionTreeRegressoreRandomForestRegressor, e compare o desempenho deles. - Avaliação de modelos: avalie o desempenho do modelo em um conjunto de dados de teste usando um DataFrame do pandas, BigQuery DataFrames ou um DataFrame do PySpark. Também é possível avaliar a qualidade do modelo e comparar modelos usando o BigQuery ML funções de avaliação de modelos para modelos treinados usando o BigQuery ML.
- Inferência de modelos: realize a inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Também é possível usar
o método
model.predict()do BigFrames ou transformadores do PySpark para fazer previsões.
Usar o Agente de Ciência de Dados no BigQuery
As etapas a seguir mostram como usar o Agente de Ciência de Dados no BigQuery.
Crie ou abra um notebook do Colab Enterprise.
Opcional: faça referência aos seus dados de uma das seguintes maneiras:
- Faça upload de um arquivo CSV ou use o símbolo
+no comando para pesquisar arquivos disponíveis. - Escolha uma ou mais tabelas do BigQuery no seletor de tabelas do seu projeto atual ou de outros projetos a que você tem acesso.
- Faça referência a um nome de tabela do BigQuery no comando neste
formato:
project_id:dataset.table. - Digite o símbolo
@para pesquisar um nome de tabela do BigQuery usando a função@mention.
- Faça upload de um arquivo CSV ou use o símbolo
Insira um comando que descreva a análise de dados que você quer realizar ou o protótipo que você quer criar. O comportamento padrão do Agente de Ciência de Dados é gerar código Python usando bibliotecas de código aberto, como o sklearn, para realizar tarefas complexas de machine learning. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no comando:
- Se você quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se você quiser usar o "BigQuery DataFrames", especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
- Se você quiser usar o PySpark, inclua as palavras-chave "Apache Spark" ou "PySpark".
Para receber ajuda, consulte os comandos de amostra.
Escolha seu modelo. O modelo padrão é o Gemini 3.0 Flash.
Envie o comando e examine os resultados.
Analisar um arquivo CSV
Para analisar um CSV usando o Agente de Ciência de Dados no BigQuery, siga estas etapas.
Acessar a página do BigQuery.
No painel à esquerda, expanda seu projeto e clique em Notebooks.
Clique em Novo notebook > Notebook vazio.
Como alternativa, na barra de guias, clique na arrow_drop_down seta suspensa ao lado do ícone add_box Adicionar e clique em Notebook > Notebook vazio.
Clique no botão spark Alternar o Gemini no Colab para abrir a caixa de diálogo do chat.
Faça upload do arquivo CSV.
Na caixa de diálogo do chat, clique em Adicionar ao Gemini > Fazer upload.
Se necessário, autorize sua Conta do Google.
Procure o local do arquivo CSV e clique em Abrir.
Como alternativa, digite o símbolo
+no comando para pesquisar arquivos disponíveis para upload.Insira o comando na janela de chat. Por exemplo:
Identify trends and anomalies in this file.Escolha seu modelo. O modelo padrão é o Gemini 3.0 Flash.
Clique em Enviar. Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.
Analisar tabelas do BigQuery
Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor de tabelas, forneça uma referência à tabela no comando ou pesquise uma tabela usando o símbolo @.
Acessar a página do BigQuery.
No painel à esquerda, expanda seu projeto e clique em Notebooks.
Clique em Novo notebook > Notebook vazio.
Como alternativa, na barra de guias, clique na arrow_drop_down seta suspensa ao lado do ícone add_box Adicionar e clique em Notebook > Notebook vazio.
Clique no botão spark Alternar o Gemini no Colab para abrir a caixa de diálogo do chat.
Insira o comando na janela de chat.
Faça referência aos seus dados de uma das seguintes maneiras:
Escolha uma ou mais tabelas usando o seletor de tabelas:
Clique em Adicionar ao Gemini > Tabelas do BigQuery.
Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. É possível pesquisar tabelas em todos os projetos e filtrar tabelas usando a barra de pesquisa.
Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a realizar a análise de dados exploratória e a receber insights sobre os dados nesta tabela:
project_id:dataset.table."Substitua:
project_id: ID do projeto;dataset: o nome do conjunto de dados com a tabela que você está analisando;table: o nome da tabela que você está analisando.
Digite
@para buscar uma tabela do BigQuery no seu projeto atual.
Escolha seu modelo. O modelo padrão é o Gemini 3.0 Flash.
Clique em Enviar.
Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Para outras etapas no plano, talvez seja necessário clicar em Aceitar e executar novamente. Clique em Cancelar para interromper.
Comandos de amostra
Independente da complexidade do comando usado, o Agente de Ciência de Dados gera um plano que pode ser refinado para atender às suas necessidades.
Os exemplos a seguir mostram os tipos de comandos que podem ser usados com o DSA.
Comandos do Python
O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".
- "Investigue e preencha os valores ausentes usando o algoritmo de machine learning de vizinhos k-mais próximos (KNN, na sigla em inglês)."
- "Crie um gráfico de salário por nível de experiência. Use a coluna
experience_levelpara agrupar os salários e crie um diagrama de caixa para cada grupo mostrando os valores da colunasalary_in_usd." - "Use o algoritmo XGBoost para criar um modelo para determinar a variável
classde uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a precisão dele. Crie uma matriz de confusão para mostrar as previsões entre cada classe, incluindo todas as previsões corretas e incorretas." - "Preveja
target_variabledefilename.csvpara os próximos seis meses."
Comandos de SQL e BigQuery ML
- "Crie e avalie um modelo de classificação em
bigquery-public-data.ml_datasets.census_adult_incomeusando o BigQuery SQL." - "Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em
bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, crie uma representação gráfica dos valores históricos e estimados." - "Agrupe clientes semelhantes para criar campanhas de mercado de segmentação usando um modelo KMeans e funções SQL do BigQuery ML. Use três atributos para o clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela
bigquery-public-data.ml_datasets.census_adult_income." - "Gere incorporações de texto no BigQuery ML usando o conteúdo da avaliação em
bigquery-public-data.imdb.reviews."
Para uma lista de modelos e tarefas de machine learning com suporte, consulte a documentação do BigQuery ML.
Comandos do DataFrame
- "Crie um DataFrame do pandas para os dados em
project_id:dataset.table. Verifique se há valores nulos nos dados e, em seguida, crie uma representação gráfica da distribuição de cada coluna usando o tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias." - "Leia
filename.csve construa um DataFrame. Execute a análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos ou há linhas duplicadas que precisam ser resolvidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em dólares americanos por local da cidade. Crie um gráfico de barras com os 20 principais resultados que mostram os resultados em ordem decrescente como local versus valor médio investido (USD)." - "Crie e avalie um modelo de classificação em
project_id:dataset.tableusando o BigQuery DataFrames." - Crie um modelo de previsão de série temporal em
project_id:dataset.tableusando o BigQuery DataFrames e visualize as avaliações do modelo. - Visualize os números de vendas no ano passado na tabela do BigQuery
project_id:dataset.tableusando o BigQuery DataFrames. - "Encontre os atributos que podem prever melhor as espécies de pinguins na tabela
bigquery-public_data.ml_datasets.penguinsusando o BigQuery DataFrames."
Comandos do PySpark
- "Crie e avalie um modelo de classificação em
project_id:dataset.tableusando o Serviço Gerenciado para Apache Spark." - "Agrupe clientes semelhantes para criar campanhas de mercado de segmentação, mas primeiro faça a redução de dimensionalidade usando um modelo PCA. Use o PySpark para fazer isso
na tabela
project_id:dataset.table."
Desativar o Gemini no BigQuery
Para desativar o Gemini no BigQuery para um Google Cloud projeto, um administrador precisa desativar a API Gemini para Google Cloud. Consulte Desativar serviços.
Para desativar o Gemini no BigQuery para um usuário específico, um
administrador precisa revogar o
Usuário do
Gemini for Google Cloud (roles/cloudaicompanion.user) papel para esse usuário. Veja como revogar apenas um papel do IAM.
Preços
O preço do Agente de Ciência de Dados é baseado nos dados de entrada e saída. Para mais informações, consulte Preços de agentes em Como funciona o preço do BigQuery.
Regiões compatíveis
Para conferir as regiões com suporte para o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.