Visão geral da análise de contribuição
Use este documento para entender o caso de uso da análise de contribuição e as opções para realizar essa análise no BigQuery ML.
O que é a análise de contribuição?
A análise de contribuição, também chamada de análise de principais fatores, é um método usado para gerar insights sobre mudanças nas principais métricas dos seus dados multidimensionais. Por exemplo, é possível usar a análise de contribuição para conferir quais dados contribuíram para uma mudança nos números de receita em dois trimestres ou comparar dois conjuntos de dados de treinamento para entender as mudanças na performance de um modelo de ML.
A análise de contribuição é uma forma de análise aumentada, que é o uso de inteligência artificial (IA) para aprimorar e automatizar a análise e a compreensão dos dados. A análise de contribuição alcança uma das principais metas da análise aumentada, que é ajudar os usuários a encontrar padrões nos dados.
Análise de contribuição com o BigQuery ML
Para usar a análise de contribuição no BigQuery ML, crie um modelo com a instrução CREATE MODEL
.
Um modelo de análise de contribuição detecta segmentos de dados que mostram mudanças em uma determinada métrica comparando um conjunto de dados de teste com um conjunto de dados de controle. Por exemplo, você pode usar um snapshot de tabela de dados de vendas feito no final de 2023 como dados de teste e um snapshot de tabela feito no final de 2022 como dados de controle, comparando-os para saber como as vendas mudaram ao longo do tempo. Um modelo de análise de contribuição pode mostrar qual segmento de dados, como clientes on-line em uma região específica, impulsionou a maior mudança nas vendas de um ano para o outro.
Uma métrica é o valor numérico que os modelos de análise de contribuição usam para medir e comparar as mudanças entre os dados de teste e de controle. É possível especificar os seguintes tipos de métricas com um modelo de análise de contribuição:
- Somável: soma os valores de uma coluna de métrica especificada e determina um total para cada segmento dos dados.
- Proporção somável: soma os valores de duas colunas numéricas especificadas e determina a proporção entre elas para cada segmento dos dados.
- Somável por categoria: soma o valor de uma coluna numérica e divide pelo número de valores distintos de uma coluna categórica.
Um segmento é um recorte dos dados identificado por uma determinada combinação de valores de dimensão. Por exemplo, para um modelo de análise de contribuição com base nas dimensões store_number
, customer_id
e day
, cada combinação exclusiva desses valores de dimensão representa um segmento. Na tabela a seguir, cada linha
representa um segmento diferente:
store_number |
customer_id |
day |
Loja 1 | ||
Loja 1 | Cliente 1 | |
Loja 1 | Cliente 1 | Segunda-feira |
Loja 1 | Cliente 1 | Terça-feira |
Loja 1 | Cliente 2 | |
Loja 2 |
Para reduzir o tempo de criação do modelo, especifique um limite de suporte a priori. Com um limite de suporte a priori, é possível remover segmentos pequenos e menos relevantes para que o modelo use apenas os maiores e mais relevantes.
Depois de criar um modelo de análise de contribuição, use a
função ML.GET_INSIGHTS
para recuperar as informações de métrica calculadas pelo modelo. A saída do modelo consiste em linhas de insights, em que cada insight corresponde a um segmento e fornece as métricas correspondentes.
Jornada do usuário da análise de contribuição
A tabela a seguir descreve as instruções e funções que podem ser usadas com modelos de análise de contribuição:
Criação de modelos | Pré-processamento de recursos | Geração de insights | Tutoriais |
---|---|---|---|
CREATE MODEL |
Pré-processamento manual | ML.GET_INSIGHTS |
A seguir
- Criar um modelo de análise de contribuição
- Receber insights de dados de um modelo de análise de contribuição