Neste tutorial, mostramos como criar um modelo de machine learning (ML) usando comandos de linguagem natural com o agente de ciência de dados do Colab Enterprise.
No tutorial, você cria um modelo de ML para prever as vendas de bebidas alcoólicas usando o conjunto de dados público de vendas varejistas de bebidas alcoólicas de Iowa. O agente com tecnologia de IA permite usar comandos em linguagem natural para escrever, explicar e resolver problemas de código diretamente em um notebook, acelerando seus fluxos de trabalho de ciência de dados.
Este tutorial é destinado a profissionais de dados.
Objetivos
Neste tutorial, você vai aprender a usar o agente de ciência de dados para realizar as seguintes tarefas:
- Faça uma análise exploratória de dados (EDA) do conjunto de dados público de vendas no varejo de bebidas alcoólicas de Iowa para entender as distribuições de dados, verificar valores ausentes e verificar a qualidade geral dos dados.
- Encontre as lojas que venderam mais litros de álcool em todos os produtos.
- Crie, treine e avalie um modelo que prevê as vendas de bebidas alcoólicas usando o BigQuery ML.
- Gerar e resumir os principais insights e a performance do modelo.
Custos
Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Para mais informações, consulte Limpeza.
Antes de começar
- Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Ative as APIs BigQuery, Gemini para Google Cloud, Dataform e Compute Engine.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.Para novos projetos, a API BigQuery é ativada automaticamente.
Funções exigidas
Se você criou um projeto, tem todas as permissões necessárias para concluir este tutorial. Se você usar um projeto atual, peça ao administrador para conceder os seguintes papéis.
Permissões para criar e executar notebooks
Para receber as permissões necessárias para criar e executar notebooks,
peça ao administrador para conceder a você o
papel do IAM de Usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Para conferir as permissões necessárias para criar e executar notebooks, consulte as etapas de configuração na página Criar notebooks.
Para mais informações sobre o Identity and Access Management (IAM) do BigQuery, consulte Controle de acesso com o IAM.
Criar um notebook do Colab Enterprise e se conectar a um ambiente de execução
Os notebooks do Colab Enterprise são recursos de código do BigQuery Studio com tecnologia do Dataform. É possível usar notebooks para concluir fluxos de trabalho de análise e ML usando SQL, Python e outros pacotes e APIs comuns.
Para criar um notebook e conectá-lo ao ambiente de execução padrão, siga estas etapas:
Acessar a página do BigQuery.
No painel esquerdo, expanda seu projeto e clique em Notebooks.
Clique em Novo notebook > Notebook vazio.
Clique em Salvar.
Para ver o novo notebook, clique na guia Notebooks. Talvez seja necessário clicar em atualizar Atualizar .
No notebook sem título, clique em more_vert Abrir ações e escolha Renomear.
Em Nome do notebook, digite
predict_liquor_salese clique em Renomear.Clique na guia
predict_liquor_sales.Na barra de ferramentas do notebook, clique em Conectar para conectar o notebook ao ambiente de execução padrão.
Usar o Agente de Ciência de Dados para analisar os dados
O Agente de Ciência de Dados é um assistente com tecnologia do Gemini que pode escrever, explicar e resolver problemas de código diretamente no seu notebook. Ele ajuda em tarefas que vão desde a análise de dados exploratória até a geração de previsões e estimativas de machine learning, incluindo:
- Gerar planos: crie um plano detalhado para resolver um problema de ciência de dados.
- Análise e limpeza de dados Identifique valores ausentes, outliers e visualize distribuições.
- Engenharia de atributos. Converter atributos categóricos e criar novos.
- Treinamento de modelo e avaliação. Treine modelos como regressão linear ou floresta aleatória e compare o desempenho deles.
Neste tutorial, você usa o agente de ciência de dados para analisar dados no conjunto de dados públicos de vendas varejistas de bebidas alcoólicas de Iowa e criar um modelo que prevê as vendas de bebidas alcoólicas.
Para usar o Agente de Ciência de Dados e analisar os dados, siga estas etapas:
No notebook
predict_liquor_sales, se a conversa no Gemini não estiver aberta, clique em spark Ativar/desativar o Gemini no Colab para abrir a caixa de diálogo de chat.Na interface de chat, insira o seguinte comando:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.Verifique se o modelo está definido como Gemini 3.0 Flash.
Clique em Enviar.
Revise o plano gerado pelo agente. O plano é semelhante a este:
"Analisei o pedido de dados de vendas de bebidas alcoólicas de Iowa e criei um plano estratégico. Como os dados estão armazenados no BigQuery e você especificou o uso do BigQuery ML, vamos começar com a análise de dados, identificar as lojas com melhor desempenho e criar um modelo de regressão para prever as vendas. Confira o plano detalhado:
- Análise e criação de perfil de dados: faça uma análise inicial da tabela "bigquery-public-data.iowa_liquor_sales.sales" para entender a distribuição dos dados, verificar valores ausentes e verificar a qualidade dos dados para colunas principais, como informações da loja, volume vendido e valor das vendas.
- Identificar as principais lojas por volume: agregue o total de litros de álcool vendidos por cada loja em todos os produtos e identifique as lojas de melhor performance.
- Preparação de dados: prepare os dados de treinamento agregando as vendas de bebidas alcoólicas por loja e selecionando recursos relevantes para o modelo de previsão.
- Desenvolvimento de modelos: treine um modelo de regressão usando o BigQuery ML para prever as vendas de bebidas alcoólicas de cada loja.
- Avaliação do modelo: avalie a performance do modelo treinado usando métricas de regressão padrão.
- Previsão do modelo: gere previsões de vendas de bebidas alcoólicas usando o modelo treinado.
- Visualização: crie um gráfico de dispersão comparando as vendas de bebidas alcoólicas previstas com os valores reais para avaliar visualmente a acurácia do modelo.
- Conclua a tarefa: resuma o desempenho do modelo, forneça insights importantes sobre as vendas na loja e conclua a análise.
Depois de analisar o plano, clique em Aceitar e executar. O agente gera a primeira subtarefa: explorar e criar perfis dos dados. O agente fica em pausa até que você analise e aceite o código. Se o agente estiver aguardando a entrada do usuário, as células geradas serão renderizadas com um plano de fundo verde.
Revise a célula de código gerada e o raciocínio fornecido pelo agente.
Clique em Aceitar e executar. Se o agente encontrar problemas com a abordagem, ele vai explicar como corrigir o problema e pedir que você aceite o código alterado.
Analise a saída na célula de código.
Abaixo dos resultados, o agente cria uma nova célula para concluir a próxima subtarefa: encontrar as lojas com as maiores vendas de bebidas alcoólicas.
Analise o código SQL gerado que consulta os dados das principais lojas por galões de álcool vendidos. Para examinar o raciocínio do agente, confira a célula de texto Raciocínio acima do código. Se você tiver certeza de que o código está correto, clique em Aceitar e executar.
Analise os resultados da consulta na saída da célula. Os resultados são semelhantes a estes:
Analise o código e o raciocínio gerados pelo agente para a próxima subtarefa: preparar os dados para o treinamento de modelo.
Depois de verificar se o código SQL está correto, clique em Aceitar e executar.
Analise a saída na célula de código. Você vai ver uma mensagem semelhante a
JOB ID 123456 successfully executed.Revise o código e o raciocínio gerados pelo agente para a próxima subtarefa: treinar o modelo de regressão.
Depois de conferir o código e o raciocínio, clique em Aceitar e executar.
Analise a saída na célula de código. Você vai ver uma mensagem semelhante a
JOB ID 123456 successfully executed.Revise o código e o raciocínio gerados pelo agente para a próxima subtarefa: avaliação do modelo.
Depois de conferir o código e o raciocínio, clique em Aceitar e executar.
Analise a saída na célula de código.
Revise o código e o raciocínio gerados pelo agente para a próxima subtarefa: gerar previsões.
Depois de conferir o código e o raciocínio, clique em Aceitar e executar.
Analise a saída na célula de código. Você vai ver uma mensagem semelhante a
JOB ID 123456 successfully executed.Depois que a consulta é executada, o agente cria uma célula de código para a próxima subtarefa: visualizar os dados.
Depois de conferir o código e o raciocínio, clique em Aceitar e executar.
Analise a saída na célula de código. Você vai ver um gráfico que mostra as vendas reais e previstas de bebidas alcoólicas. O gráfico será assim:
Depois que o gráfico é gerado, o agente cria um resumo dos resultados com as principais descobertas e insights.
Depois de revisar o resumo, clique em Aceitar para concluir o plano.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o notebook criado. Para excluir seu notebook, siga estas etapas:Acessar a página do BigQuery.
No painel esquerdo, expanda seu projeto e clique em Notebooks.
No notebook
predict_liquor_sales, clique em more_vert Abrir ações e escolha Excluir.Clique em Excluir para remover o notebook.
A seguir
- Saiba mais sobre as capacidades do Agente de Ciência de Dados.
- Saiba mais sobre os notebooks do Colab Enterprise no BigQuery.
- Leia a documentação sobre o Gemini no BigQuery.