Limitar os valores previstos para um modelo de série temporal ARIMA_PLUS
Neste tutorial, ensinamos como usar limites para restringir os resultados previstos retornados por um modelo de série temporal ARIMA_PLUS
. Neste tutorial, você vai criar dois modelos de série temporal com os mesmos dados: um que usa limites e outro que não usa limites. Isso permite comparar os resultados retornados pelos modelos
e entender a diferença que a especificação de limites faz.
Use os dados de
new_york.citibike_trips
para treinar os modelos neste tutorial. Esse conjunto de dados contêm informações sobre as viagens do Citi Bike na cidade de Nova York.
Antes de seguir este tutorial, você precisa se familiarizar com a previsão de série temporal única. Conclua o tutorial Previsão de série temporal única a partir de dados do Google Analytics para uma introdução a esse tópico.
Permissões necessárias
Para criar o conjunto de dados, é preciso ter a permissão de IAM
bigquery.datasets.create
.Para criar o modelo, você precisa das seguintes permissões:
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
Para executar a inferência, você precisa das seguintes permissões:
bigquery.models.getData
bigquery.jobs.create
Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.
Objetivos
Neste tutorial, você usará:
- A instrução
CREATE MODEL
: para criar um modelo de série temporal. - A função
ML.FORECAST
: para prever o total de visitas diárias.
Custos
Neste tutorial, usamos componentes faturáveis do Google Cloud, incluindo:
- BigQuery
- BigQuery ML
Para mais informações sobre os custos do BigQuery, consulte a página de preços.
Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. No console do Google Cloud , acesse a página BigQuery.
No painel Explorer, clique no nome do seu projeto.
Clique em
Ver ações > Criar conjunto de dados.Na página Criar conjunto de dados, faça o seguinte:
Para o código do conjunto de dados, insira
bqml_tutorial
.Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).
Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.
Crie um conjunto de dados chamado
bqml_tutorial
com o local dos dados definido comoUS
e uma descrição deBigQuery ML tutorial dataset
:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Em vez de usar a flag
--dataset
, o comando usa o atalho-d
. Se você omitir-d
e--dataset
, o comando vai criar um conjunto de dados por padrão.Confirme se o conjunto de dados foi criado:
bq ls
No console Google Cloud , clique no botão Escrever nova consulta.
Insira a seguinte consulta do GoogleSQL no editor de consultas.
#standardSQL SELECT EXTRACT(DATE from starttime) AS date, COUNT(*) AS num_trips FROM `bigquery-public-data`.new_york.citibike_trips GROUP BY date
Clique em Executar. Os resultados da consulta são semelhantes aos mostrados a seguir.
Use o console do Google Cloud para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização. No painel Configuração da visualização, escolha Barra como o Tipo de visualização:
No console Google Cloud , clique no botão Escrever nova consulta.
Insira a seguinte consulta do GoogleSQL no editor de consultas.
#standardSQL CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model OPTIONS ( model_type = 'ARIMA_PLUS', time_series_timestamp_col = 'date', time_series_data_col = 'num_trips', time_series_id_col = 'start_station_id') AS SELECT EXTRACT(DATE FROM starttime) AS date, COUNT(*) AS num_trips, start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date, start_station_id;
Clique em Executar.
A consulta leva cerca de 80 segundos para ser concluída. Depois disso, você pode acessar o modelo (
nyc_citibike_arima_model
). Como a consulta usa uma instruçãoCREATE MODEL
para criar um modelo, não há resultados de consulta.No console Google Cloud , clique no botão Escrever nova consulta.
Insira a seguinte consulta do GoogleSQL no editor de consultas.
#standardSQL SELECT forecast_timestamp AS forecast_timestamp, start_station_id AS start_station_id, history_value AS history_value, forecast_value AS forecast_value FROM ( ( SELECT DATE(forecast_timestamp) AS forecast_timestamp, NULL AS history_value, forecast_value AS forecast_value, start_station_id AS start_station_id, FROM ML.FORECAST( MODEL bqml_tutorial.`nyc_citibike_arima_model`, STRUCT( 365 AS horizon, 0.9 AS confidence_level)) ) UNION ALL ( SELECT DATE(date_name) AS forecast_timestamp, num_trips AS history_value, NULL AS forecast_value, start_station_id AS start_station_id, FROM ( SELECT EXTRACT(DATE FROM starttime) AS date_name, COUNT(*) AS num_trips, start_station_id AS start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date_name, start_station_id ) ) ) WHERE start_station_id = 79 ORDER BY forecast_timestamp, start_station_id
Clique em Executar. Os resultados da consulta são semelhantes aos mostrados a seguir:
Use o console do Google Cloud para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização:
No console Google Cloud , clique no botão Escrever nova consulta.
Insira a seguinte consulta do GoogleSQL no editor de consultas.
#standardSQL CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model OPTIONS ( model_type = 'ARIMA_PLUS', time_series_timestamp_col = 'date', time_series_data_col = 'num_trips', time_series_id_col = 'start_station_id', forecast_limit_lower_bound = 0) AS SELECT EXTRACT(DATE FROM starttime) AS date, COUNT(*) AS num_trips, start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date, start_station_id;
Clique em Executar.
A consulta leva cerca de 100 segundos para ser concluída. Depois disso, você pode acessar o modelo (
nyc_citibike_arima_model_with_limits
). Como a consulta usa uma instruçãoCREATE MODEL
para criar um modelo, não há resultados de consulta.No console Google Cloud , clique no botão Escrever nova consulta.
Insira a seguinte consulta do GoogleSQL no editor de consultas.
#standardSQL SELECT forecast_timestamp AS forecast_timestamp, start_station_id AS start_station_id, history_value AS history_value, forecast_value AS forecast_value FROM ( ( SELECT DATE(forecast_timestamp) AS forecast_timestamp, NULL AS history_value, forecast_value AS forecast_value, start_station_id AS start_station_id, FROM ML.FORECAST( MODEL bqml_tutorial.`nyc_citibike_arima_model`, STRUCT( 365 AS horizon, 0.9 AS confidence_level)) ) UNION ALL ( SELECT DATE(date_name) AS forecast_timestamp, num_trips AS history_value, NULL AS forecast_value, start_station_id AS start_station_id, FROM ( SELECT EXTRACT(DATE FROM starttime) AS date_name, COUNT(*) AS num_trips, start_station_id AS start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date_name, start_station_id ) ) ) WHERE start_station_id = 79 ORDER BY forecast_timestamp, start_station_id
Clique em Executar.
Use o console do Google Cloud para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização:
Se necessário, abra a página do BigQuery no console doGoogle Cloud .
Na navegação, clique no conjunto de dados bqml_tutorial criado.
Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.
Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (
bqml_tutorial
). Em seguida, clique em Excluir.- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
- Saiba como realizar múltiplas previsões de séries temporais com uma única consulta de dados de viagens do Citi Bike de Nova York.
- Saiba como acelerar o ARIMA_PLUS para ativar a previsão de um milhão de séries temporais em algumas horas.
- Para saber mais sobre machine learning, consulte o Curso intensivo de machine learning.
- Para uma visão geral do BigQuery ML, consulte Introdução ao BigQuery ML.
- Para saber mais sobre o console do Google Cloud , consulte Como usar o console do Google Cloud .
crie um conjunto de dados
Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.
Console
bq
Para criar um novo conjunto de dados, utilize o
comando bq mk
com a sinalização --location
. Para obter uma lista completa de parâmetros, consulte a
referência
comando bq mk --dataset
.
API
Chame o método datasets.insert
com um recurso de conjunto de dados definido.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
BigQuery DataFrames
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
Visualizar a série temporal que você quer prever
Antes de criar o modelo, é interessante ver como fica a série temporal de entrada.
SQL
Na consulta a seguir, a cláusula FROM bigquery-public-data.new_york.citibike_trips
indica que você está consultando a tabela citibike_trips
no conjunto de dados
new_york
.
Na instrução SELECT
, a consulta usa a
função EXTRACT
para extrair as informações de data da coluna starttime
. A consulta usa a cláusula
COUNT(*)
para descobrir o número total diário de viagens do Citi Bike.
#standardSQL SELECT EXTRACT(DATE from starttime) AS date, COUNT(*) AS num_trips FROM `bigquery-public-data`.new_york.citibike_trips GROUP BY date
Para executar a consulta, siga estas etapas:
BigQuery DataFrames
Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.
Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.
No exemplo a seguir, bigquery-public-data.new_york.citibike_trips
indica que você está consultando a tabela citibike_trips
no conjunto de dados
new_york
.
O resultado será semelhante ao seguinte:
Criar um modelo de série temporal
Crie um modelo de série temporal com os dados de viagens do Citi Bike de Nova York.
A consulta do GoogleSQL a seguir cria um modelo que prevê o total diário de
viagens de bicicleta. A instrução CREATE MODEL
cria e treina um modelo chamado bqml_tutorial.nyc_citibike_arima_model
.
#standardSQL CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model OPTIONS ( model_type = 'ARIMA_PLUS', time_series_timestamp_col = 'date', time_series_data_col = 'num_trips', time_series_id_col = 'start_station_id') AS SELECT EXTRACT(DATE FROM starttime) AS date, COUNT(*) AS num_trips, start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date, start_station_id;
A cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...)
indica que você está criando um
modelo de série temporal com base em
ARIMA. Por padrão,
auto_arima=TRUE
,
para que o algoritmo auto.ARIMA
ajuste automaticamente os hiperparâmetros nos modelos
ARIMA_PLUS
. O algoritmo se encaixa em dezenas de modelos candidatos e escolhe
o melhor com o menor
índice de informações do Akaike (AIC, na sigla em inglês).
Além disso, como o padrão é
data_frequency='AUTO_FREQUENCY'
, o processo de treinamento infere automaticamente
a frequência de dados da série temporal de entrada. A instrução CREATE MODEL
usa
decompose_time_series=TRUE
por padrão, de modo que as partes de histórico e previsão da série temporal são salvas no modelo. Definir o parâmetro time_series_id_col = 'start_station_id'
faz com que o modelo ajuste e preveja várias séries temporais usando uma única consulta baseada em start_station_id
. Use essas informações para entender melhor como a série temporal é prevista
buscando os componentes separados dela, como períodos sazonais.
Execute a consulta CREATE MODEL
para criar e treinar seu modelo:
Prever a série temporal e visualizar os resultados
Para explicar como a série temporal é prevista, visualize todos os componentes
dela, como sazonalidade e tendência, usando a
função
ML.FORECAST
.
Para isso, siga estas etapas:
O gráfico mostra que os valores previstos para o número total diário de viagens do Citi
Bike, em que start_station_id=79
são números negativos, o que não é útil. Usar um modelo com limites melhora os dados previstos.
Criar um modelo de série temporal com limites
Criar um modelo de série temporal com limites usando os dados de viagens do Citi Bike de Nova York.
A consulta do GoogleSQL a seguir cria um modelo que prevê o total diário de
viagens de bicicleta. A instrução CREATE MODEL
cria e treina um modelo chamado bqml_tutorial.nyc_citibike_arima_model_with_limits
.
A principal diferença entre esse modelo e o modelo criado anteriormente é a adição da opção forecast_limit_lower_bound=0
. Essa opção faz com que o modelo preveja apenas valores maiores que 0, com base nos valores da coluna especificada pelo argumento time_series_data_col
, neste caso num_trips
.
#standardSQL CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model OPTIONS ( model_type = 'ARIMA_PLUS', time_series_timestamp_col = 'date', time_series_data_col = 'num_trips', time_series_id_col = 'start_station_id', forecast_limit_lower_bound = 0) AS SELECT EXTRACT(DATE FROM starttime) AS date, COUNT(*) AS num_trips, start_station_id FROM `bigquery-public-data`.new_york.citibike_trips WHERE starttime > '2014-07-11' AND starttime < '2015-02-11' GROUP BY date, start_station_id;
Execute a consulta CREATE MODEL
para criar e treinar seu modelo:
Prever a série temporal usando o modelo com limites
O modelo ARIMA PLUS detecta que o número total diário de viagens do Citi Bike, em que start_station_id=79
está diminuindo. Os valores de previsão para o futuro vão seguir essa tendência e apresentar números de previsão relativamente menores quanto mais você for para o futuro. O gráfico mostra que os valores previstos para o número total diário de viagens do Citi
Bike, em que start_station_id=79
são números positivos, o que é mais útil. O modelo com limites
detecta que o número total diário de viagens do Citi Bike, em que start_station_id=79
está diminuindo, mas ainda apresenta valores de previsão significativos.
Conforme este tutorial, as opções forecast_limit_lower_bound
e forecast_limit_upper_bound
ajudam você a receber valores de previsão mais significativos em cenários semelhantes ao mostrado aqui, como ao prever preços de ações ou números de vendas futuras.
Excluir o conjunto de dados
A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:
Excluir o projeto
Para excluir o projeto: