Neste tutorial, você vai aprender a usar um modelo de série temporal univariada ARIMA_PLUS para prever o valor futuro de uma determinada coluna com base nos valores históricos dela.
Este tutorial faz previsões para várias série temporal. Os valores previstos são calculados para cada ponto de tempo e para cada valor em uma ou mais colunas especificadas. Por exemplo, se você quisesse prever o clima e especificasse uma coluna com dados de cidades, os dados previstos conteriam previsões para todos os pontos de tempo da cidade A, depois valores previstos para todos os pontos de tempo da cidade B e assim por diante.
Neste tutorial, usamos dados da tabela pública bigquery-public-data.new_york.citibike_trips. Essa tabela contém informações sobre as viagens do Citi Bike na cidade de Nova York.
Antes de ler este tutorial, recomendamos que você leia Prever uma única série temporal com um modelo univariado.
crie um conjunto de dados
Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.
Console
No console do Google Cloud , acesse a página BigQuery.
No painel Explorer, clique no nome do seu projeto.
Clique em Ver ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
Para o código do conjunto de dados, insira
bqml_tutorial.Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).
Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.
bq
Para criar um novo conjunto de dados, utilize o
comando bq mk
com a sinalização --location. Para obter uma lista completa de parâmetros, consulte a
referência
comando bq mk --dataset.
Crie um conjunto de dados chamado
bqml_tutorialcom o local dos dados definido comoUSe uma descrição deBigQuery ML tutorial dataset:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Em vez de usar a flag
--dataset, o comando usa o atalho-d. Se você omitir-de--dataset, o comando vai criar um conjunto de dados por padrão.Confirme se o conjunto de dados foi criado:
bq ls
API
Chame o método datasets.insert com um recurso de conjunto de dados definido.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
BigQuery DataFrames
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
Visualizar os dados de entrada
Antes de criar o modelo, você pode visualizar os dados de série temporal de entrada para ter uma ideia da distribuição. Faça isso usando o Looker Studio.
SQL
A instrução SELECT da consulta a seguir usa a
função EXTRACT
para extrair as informações de data da coluna starttime. A consulta usa a cláusula
COUNT(*) para descobrir o número total diário de viagens do Citi Bike.
Siga estas etapas para visualizar os dados de série temporal:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
SELECT EXTRACT(DATE from starttime) AS date, COUNT(*) AS num_trips FROM `bigquery-public-data.new_york.citibike_trips` GROUP BY date;
Quando a consulta for concluída, clique em Explorar dados > Explorar com o Looker Studio. O Looker Studio é aberto em uma nova guia. Conclua as etapas a seguir na nova guia.
No Looker Studio, clique em Inserir > Gráfico de série temporal.
No painel Gráfico, escolha a guia Configuração.
Na seção Métrica, adicione o campo num_trips e remova a métrica padrão Contagem de registros. O gráfico resultante será semelhante a este:
BigQuery DataFrames
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
Criar o modelo de série temporal
Você quer prever o número de viagens de bicicleta para cada estação do Citi Bike, o que exige muitos modelos de série temporal, um para cada estação incluída nos dados de entrada. É possível criar vários modelos para fazer isso, mas pode ser um processo tedioso e demorado, especialmente quando você tem um grande número de série temporal. Em vez disso, é possível usar uma única consulta para criar e ajustar um conjunto de modelos de série temporal e prever várias séries temporais de uma só vez.
SQL
Na consulta a seguir, a cláusula
OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...)
indica que você está criando um
modelo de série temporal com base em
ARIMA. Use a opção time_series_id_col da instrução CREATE MODEL para especificar uma ou mais colunas nos dados de entrada para as quais você quer receber previsões. Neste caso, a estação do Citi Bike, representada pela coluna start_station_name. Você usa a cláusula WHERE para limitar as estações de início àquelas que têm Central Park no nome. A opção auto_arima_max_order da instrução CREATE MODEL controla o espaço de pesquisa para ajuste de hiperparâmetros no algoritmo auto.ARIMA. A opção decompose_time_series da instrução CREATE MODEL usa TRUE como padrão. Assim, as informações sobre os dados de série temporal são retornadas quando você avalia o modelo na próxima etapa.
Siga estas etapas para criar o modelo:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
CREATE OR REPLACE MODEL `bqml_tutorial.nyc_citibike_arima_model_group` OPTIONS (model_type = 'ARIMA_PLUS', time_series_timestamp_col = 'date', time_series_data_col = 'num_trips', time_series_id_col = 'start_station_name', auto_arima_max_order = 5 ) AS SELECT start_station_name, EXTRACT(DATE from starttime) AS date, COUNT(*) AS num_trips FROM `bigquery-public-data.new_york.citibike_trips` WHERE start_station_name LIKE '%Central Park%' GROUP BY start_station_name, date;
A consulta leva aproximadamente 24 segundos para ser concluída. Depois disso, você pode acessar o modelo
nyc_citibike_arima_model_group. Como a consulta usa uma instruçãoCREATE MODEL, você não vê os resultados dela.
Essa consulta cria 12 modelos de série temporal, um para cada uma das 12 estações de início do Citi Bike nos dados de entrada. Devido ao paralelismo, o custo de tempo, aproximadamente 24 segundos, é 1,4 vezes maior do que o de criar um modelo de série temporal único. No entanto, se você remover a cláusula WHERE ... LIKE ..., haverá mais de 600 série temporal para previsão, e elas não serão completamente previstas em paralelo devido às limitações de capacidade do slot. Nesse caso, a consulta levaria aproximadamente 15 minutos para ser concluída. Para reduzir o tempo de execução da consulta com o comprometimento de uma possível pequena queda na qualidade do modelo, diminua o valor de auto_arima_max_order.
Isso reduz o espaço de pesquisa do ajuste de hiperparâmetros no algoritmo auto.ARIMA. Para ver mais informações, consulte
Large-scale time series forecasting best practices.
BigQuery DataFrames
No snippet a seguir, você está criando um modelo de série temporal com base em ARIMA.
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
Isso cria 12 modelos de série temporal, um para cada uma das 12 estações de início do Citi Bike nos dados de entrada. Devido ao paralelismo, o custo de tempo, aproximadamente 24 segundos, é 1,4 vezes maior do que o de criar um modelo de série temporal único.
Avaliar o modelo
SQL
Avalie o modelo de série temporal usando a função ML.ARIMA_EVALUATE. A função ML.ARIMA_EVALUATE mostra as métricas de avaliação geradas para o modelo durante o processo de ajuste automático de hiperparâmetros.
Siga estas etapas para avaliar o modelo:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
SELECT * FROM ML.ARIMA_EVALUATE(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`);
Os resultados vão ter a aparência abaixo:
Embora
auto.ARIMAavalie dezenas de modelos ARIMA candidatos para cada série temporal,ML.ARIMA_EVALUATEgera por padrão apenas as informações do melhor modelo para compactar a tabela de saída. Para visualizar todos os modelos candidatos, defina oshow_all_candidate_modelargumento da funçãoML.ARIMA_EVALUATEcomoTRUE.
BigQuery DataFrames
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
A coluna start_station_name identifica a coluna de dados de entrada para a qual série temporal foram criadas. Essa é a coluna especificada com a opção time_series_id_col ao criar o modelo.
As colunas de saída non_seasonal_p, non_seasonal_d, non_seasonal_q e has_drift definem um modelo ARIMA no pipeline de treinamento. As colunas de saída log_likelihood, AIC e variance são relevantes para o processo de ajuste do modelo ARIMA.Esse processo determina o melhor modelo ARIMA usando o algoritmo auto.ARIMA, um para cada série temporal.
O algoritmo auto.ARIMA usa o
teste KPSS para determinar o melhor valor
para non_seasonal_d, que neste caso é 1. Quando non_seasonal_d é 1, o algoritmo auto.ARIMA treina 42 modelos ARIMA candidatos diferentes em paralelo.
Neste exemplo, todos os 42 modelos candidatos são válidos. Portanto, a saída contém 42 linhas, uma para cada modelo ARIMA candidato. Nos casos em que alguns dos modelos não são válidos, eles são excluídos da saída. Esses modelos candidatos são retornados em ordem crescente pelo AIC. O modelo na primeira linha tem o AIC mais baixo e é considerado o melhor modelo. Esse melhor modelo é salvo como o modelo final e é usado quando você prevê dados, avalia o modelo e inspeciona os coeficientes dele, conforme mostrado nas etapas a seguir.
A coluna seasonal_periods contém informações sobre o padrão sazonal identificado nos dados de série temporal. Cada série temporal pode ter diferentes padrões sazonais. Por exemplo, na figura, é possível ver que uma série temporal tem um padrão anual, enquanto outras não.
As colunas has_holiday_effect, has_spikes_and_dips e has_step_changes
são preenchidas somente quando decompose_time_series=TRUE. Essas colunas também refletem informações sobre os dados de série temporal de entrada e não estão relacionadas à modelagem ARIMA. Essas colunas também têm os mesmos valores em todas as linhas de saída.
Inspecionar os coeficientes do modelo
SQL
Inspecione os coeficientes do modelo de série temporal usando a função
ML.ARIMA_COEFFICIENTS.
Siga estas etapas para recuperar os coeficientes do modelo:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
SELECT * FROM ML.ARIMA_COEFFICIENTS(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`);
A consulta leva menos de um segundo para ser concluída. Os resultados devem ficar assim:
Para mais informações sobre as colunas de saída, consulte a função
ML.ARIMA_COEFFICIENTS.
BigQuery DataFrames
Inspecione os coeficientes do modelo de série temporal usando a função
coef_.
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
A coluna start_station_name identifica a coluna de dados de entrada para a qual série temporal foram criadas. Essa é a coluna especificada na opção
time_series_id_col ao criar o modelo.
A coluna de saída ar_coefficients mostra os coeficientes do modelo da parte autoregressiva (AR) do modelo ARIMA. Da mesma forma, a coluna de saída ma_coefficients mostra os coeficientes do modelo da parte de média móvel (MA) do modelo ARIMA. Ambas as colunas contêm valores de matriz, com comprimentos iguais a non_seasonal_p e non_seasonal_q, respectivamente. O valor intercept_or_drift é o termo constante no modelo ARIMA.
Usar o modelo para prever dados
SQL
Preveja valores futuros de série temporal usando a função ML.FORECAST.
Na consulta GoogleSQL a seguir, a
cláusula STRUCT(3 AS horizon, 0.9 AS confidence_level) indica que a consulta
prevê três períodos futuros e gera um intervalo de previsão
com um nível de confiança de 90%.
Siga estas etapas para prever dados com o modelo:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
SELECT * FROM ML.FORECAST(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`, STRUCT(3 AS horizon, 0.9 AS confidence_level))
Clique em Executar.
A consulta leva menos de um segundo para ser concluída. Os resultados terão o seguinte formato:
Para mais informações sobre as colunas de saída, consulte a
função ML.FORECAST.
BigQuery DataFrames
Preveja valores futuros de série temporal usando a
função predict.
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
start_station_name, a primeira coluna, anota a série temporal à qual cada
modelo de série temporal é ajustado. Cada start_station_name tem três linhas de resultados previstos, conforme especificado pelo valor horizon.
Para cada start_station_name, as linhas de saída estão em ordem cronológica pelo valor da coluna forecast_timestamp. Na previsão de série temporal, o intervalo de previsão, representado pelos valores das colunas prediction_interval_lower_bound e prediction_interval_upper_bound, é tão importante quanto o valor da coluna forecast_value. O valor forecast_value é o ponto central do intervalo de previsão. O intervalo de previsão depende dos valores das colunas standard_error e confidence_level.
Explicar os resultados da previsão
SQL
É possível receber métricas de explicabilidade, além de dados de previsão, usando a função
ML.EXPLAIN_FORECAST. A função ML.EXPLAIN_FORECAST prevê valores futuros de série temporal e também retorna todos os componentes separados delas. Se você só quiser retornar dados de previsão, use a função ML.FORECAST, conforme mostrado em Usar o modelo para prever dados.
A cláusula STRUCT(3 AS horizon, 0.9 AS confidence_level) usada na
função ML.EXPLAIN_FORECAST indica que a consulta prevê três pontos de tempo futuros
e gera um intervalo de previsão com 90% de confiança.
Siga estas etapas para explicar os resultados do modelo:
No console do Google Cloud , acesse a página BigQuery.
No Editor de consultas, cole a consulta a seguir e clique em Executar:
SELECT * FROM ML.EXPLAIN_FORECAST(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`, STRUCT(3 AS horizon, 0.9 AS confidence_level));
A consulta leva menos de um segundo para ser concluída. Os resultados terão o seguinte formato:
As primeiras milhares de linhas retornadas são todos os dados históricos. Role os resultados para ver os dados de previsão.
As linhas de saída são ordenadas primeiro por
start_station_namee depois cronologicamente pelo valor da colunatime_series_timestamp. Na previsão de série temporal, o intervalo de previsão, representado pelos valores das colunasprediction_interval_lower_boundeprediction_interval_upper_bound, é tão importante quanto o valor da colunaforecast_value. O valorforecast_valueé o ponto central do intervalo de previsão. O intervalo de previsão depende dos valores das colunasstandard_erroreconfidence_level.Para mais informações sobre as colunas de saída, consulte
ML.EXPLAIN_FORECAST.
BigQuery DataFrames
É possível receber métricas de explicabilidade, além de dados de previsão, usando a função
predict_explain. A função predict_explain prevê valores futuros de série temporal e também retorna todos os componentes separados delas. Se você só quiser retornar dados de previsão, use a função predict, conforme mostrado em Usar o modelo para prever dados.
A cláusula horizon=3, confidence_level=0.9 usada na
função predict_explain indica que a consulta prevê três pontos de tempo futuros
e gera um intervalo de previsão com 90% de confiança.
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
As linhas de saída são ordenadas primeiro por time_series_timestamp e depois cronologicamente pelo valor da coluna start_station_name. Na previsão de série temporal, o intervalo de previsão, representado pelos valores das colunas prediction_interval_lower_bound e prediction_interval_upper_bound, é tão importante quanto o valor da coluna forecast_value. O valor forecast_value é o ponto central do intervalo de previsão. O intervalo de previsão depende dos valores das colunas standard_error e confidence_level.