Receba insights de dados de um modelo de análise de contribuição usando uma métrica somável
Neste tutorial, você vai usar um modelo de análise de contribuição para analisar as mudanças nas vendas entre 2020 e 2021 no conjunto de dados de vendas de bebidas alcoólicas de Iowa. Este tutorial orienta você nas seguintes tarefas:
- Crie uma tabela de entrada com base em dados de bebidas alcoólicas de Iowa disponíveis publicamente.
- Crie um modelo de análise de contribuição que use uma métrica somável. Esse tipo de modelo resume uma métrica para uma combinação de uma ou mais dimensões nos dados, determinando como essas dimensões contribuem para o valor da métrica.
- Receba os insights de métricas do modelo usando a
função
ML.GET_INSIGHTS.
Antes de começar este tutorial, familiarize-se com o caso de uso da análise de contribuição.
Permissões necessárias
Para criar o conjunto de dados, você precisa da permissão
bigquery.datasets.createdo Identity and Access Management (IAM).Para criar o modelo, você precisa das seguintes permissões:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateData
Para executar a inferência, você precisa das seguintes permissões:
bigquery.models.getDatabigquery.jobs.create
Custos
Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Para mais informações, consulte Preços do BigQuery na documentação do BigQuery.
Antes de começar
-
No console do Google Cloud , na página do seletor de projetos, selecione ou crie um projeto do Google Cloud .
Funções necessárias para selecionar ou criar um projeto
- Selecionar um projeto: não é necessário um papel específico do IAM para selecionar um projeto. Você pode escolher qualquer projeto em que tenha recebido um papel.
-
Criar um projeto: para criar um projeto, é necessário ter o papel de Criador de projetos
(
roles/resourcemanager.projectCreator), que contém a permissãoresourcemanager.projects.create. Saiba como conceder papéis.
-
Verifique se o faturamento está ativado para o projeto do Google Cloud .
-
Ative a API BigQuery.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.
crie um conjunto de dados
Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.
Console
No console do Google Cloud , acesse a página BigQuery.
No painel Explorer, clique no nome do seu projeto.
Clique em Conferir ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
Para o código do conjunto de dados, insira
bqml_tutorial.Em Tipo de local, selecione Multirregião e EUA.
Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.
bq
Para criar um conjunto de dados, use o
comando bq mk --dataset.
Crie um conjunto de dados chamado
bqml_tutorialcom o local dos dados definido comoUS.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Confirme se o conjunto de dados foi criado:
bq ls
API
Chame o método datasets.insert com um recurso de conjunto de dados definido.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
Criar uma tabela de dados de entrada
Crie uma tabela com dados de teste e controle para analisar. A tabela de teste contém dados de bebidas alcoólicas de 2021, e a tabela de controle contém dados de 2020. A consulta a seguir combina os dados de teste e controle em uma única tabela de entrada:
No console do Google Cloud , acesse a página BigQuery.
No editor de consultas, execute a seguinte instrução:
CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_sum_data AS ( (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, FALSE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT(YEAR from date) = 2020 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test) UNION ALL (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, TRUE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT (YEAR FROM date) = 2021 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test) );
Criar o modelo
Crie um modelo de análise de contribuição:
No console do Google Cloud , acesse a página BigQuery.
No editor de consultas, execute a seguinte instrução:
CREATE OR REPLACE MODEL bqml_tutorial.iowa_liquor_sales_sum_model OPTIONS( model_type='CONTRIBUTION_ANALYSIS', contribution_metric = 'sum(total_sales)', dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name', 'item_description'], is_test_col = 'is_test', min_apriori_support=0.05 ) AS SELECT * FROM bqml_tutorial.iowa_liquor_sales_sum_data;
A consulta leva cerca de 60 segundos para ser concluída. Depois disso, o modelo
iowa_liquor_sales_sum_model aparece no conjunto de dados bqml_tutorial. Como
a consulta usa uma instrução CREATE MODEL para criar um modelo, não há
resultados de consulta.
Receber insights do modelo
Receba insights gerados pelo modelo de análise de contribuição usando a função
ML.GET_INSIGHTS.
No console do Google Cloud , acesse a página BigQuery.
No editor de consultas, execute a seguinte instrução para selecionar colunas da saída de um modelo de análise de contribuição de métrica somável:
SELECT contributors, metric_test, metric_control, difference, relative_difference, unexpected_difference, relative_unexpected_difference, apriori_support, contribution FROM ML.GET_INSIGHTS( MODEL `bqml_tutorial.iowa_liquor_sales_sum_model`);
As primeiras linhas da saída serão semelhantes a esta: Os valores são truncados para melhorar a legibilidade.
| russo. | metric_test | metric_control | diferença | relative_difference | unexpected_difference | relative_unexpected_difference | apriori_support | contribuição |
|---|---|---|---|---|---|---|---|---|
| todas | 428068179 | 396472956 | 31595222 | 0,079 | 31595222 | 0,079 | 1.0 | 31595222 |
| vendor_name=SAZERAC COMPANY INC | 52327307 | 38864734 | 13462573 | 0.346 | 11491923 | 0,281 | 0,122 | 13462573 |
| city=DES MOINES | 49521322 | 41746773 | 7774549 | 0.186 | 4971158 | 0,111 | 0,115 | 7774549 |
| vendor_name=DIAGEO AMERICAS | 84681073 | 77259259 | 7421814 | 0,096 | 1571126 | 0,018 | 0.197 | 7421814 |
| category_name=100% AGAVE TEQUILA | 23915100 | 17252174 | 6662926 | 0.386 | 5528662 | 0,3 | 0,055 | 6662926 |
A saída é classificada automaticamente por contribuição, ou ABS(difference), em ordem decrescente. Na linha all, a coluna difference mostra que houve um aumento de US$ 31.595.222 no total de vendas de 2020 para 2021,um aumento de 7,9%, conforme indicado pela coluna relative_difference. Na segunda linha, com vendor_name=SAZERAC COMPANY INC, houve um unexpected_difference de US$ 11.491.923. Isso significa que esse segmento de dados cresceu 28% a mais do que a taxa de crescimento dos dados como um todo, conforme mostrado na coluna relative_unexpected_difference.
Para mais informações, consulte as
colunas de saída de métricas somáveis.
Limpar
- No console Google Cloud , acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.