Limitar os valores previstos para um modelo de série temporal ARIMA_PLUS

Neste tutorial, ensinamos como usar limites para restringir os resultados previstos retornados por um modelo de série temporal ARIMA_PLUS. Neste tutorial, você vai criar dois modelos de série temporal com os mesmos dados: um que usa limites e outro que não usa limites. Isso permite comparar os resultados retornados pelos modelos e entender a diferença que a especificação de limites faz.

Use os dados de new_york.citibike_trips para treinar os modelos neste tutorial. Esse conjunto de dados contêm informações sobre as viagens do Citi Bike na cidade de Nova York.

Antes de seguir este tutorial, você precisa se familiarizar com a previsão de série temporal única. Conclua o tutorial Previsão de série temporal única a partir de dados do Google Analytics para uma introdução a esse tópico.

Permissões necessárias

  • Para criar o conjunto de dados, é preciso ter a permissão de IAM bigquery.datasets.create.

  • Para criar o modelo, você precisa das seguintes permissões:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • Para executar a inferência, você precisa das seguintes permissões:

    • bigquery.models.getData
    • bigquery.jobs.create

Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.

Objetivos

Neste tutorial, você usará:

  • A instrução CREATE MODEL: para criar um modelo de série temporal.
  • A função ML.FORECAST: para prever o total de visitas diárias.

Custos

Este tutorial usa componentes faturáveis do Google Cloud, incluindo o seguinte:

  • BigQuery
  • BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços.

Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.

Antes de começar

  1. Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar o modelo de ML.

Console

  1. No Google Cloud console, acesse a página BigQuery.

    Acessar a página do BigQuery

  2. No painel Explorer, clique no nome do seu projeto.

  3. Clique em Ver ações > Criar conjunto de dados.

  4. Na página Criar conjunto de dados, faça o seguinte:

    • Para o ID do conjunto de dados, insira bqml_tutorial.

    • Em Tipo de local, selecione Multirregião e selecione EUA.

    • Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um novo conjunto de dados, use o bq mk --dataset comando.

  1. Crie um conjunto de dados chamado bqml_tutorial com o local de dados definido como US.

    bq mk --dataset \
      --location=US \
      --description "BigQuery ML tutorial dataset." \
      bqml_tutorial
  2. Confirme se o conjunto de dados foi criado:

    bq ls

API

Chame o datasets.insert método com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Visualizar a série temporal que você quer prever

Antes de criar o modelo, é interessante ver como fica a série temporal de entrada.

SQL

Na consulta a seguir, a FROM bigquery-public-data.new_york.citibike_trips cláusula indica que você está consultando a tabela citibike_trips no conjunto de dados new_york.

Na instrução SELECT, a consulta usa a EXTRACT função para extrair as informações de data da coluna starttime. A consulta usa a cláusula COUNT(*) para descobrir o número total diário de viagens do Citi Bike.

#standardSQL
SELECT
  EXTRACT(DATE from starttime) AS date,
  COUNT(*) AS num_trips
FROM
`bigquery-public-data`.new_york.citibike_trips
GROUP BY date

Para executar a consulta, siga estas etapas:

  1. No Google Cloud console, clique no botão Escrever nova consulta.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    SELECT
     EXTRACT(DATE from starttime) AS date,
     COUNT(*) AS num_trips
    FROM
     `bigquery-public-data`.new_york.citibike_trips
    GROUP BY date
  3. Clique em Executar. Os resultados da consulta são semelhantes aos mostrados a seguir.

    Saída da consulta.

  4. Use o Google Cloud console do para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização. No painel Configuração da visualização, escolha Barra para o Tipo de visualização:

    Result_visualization.

BigQuery DataFrames

Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

No exemplo a seguir, bigquery-public-data.new_york.citibike_trips indica que você está consultando a tabela citibike_trips no new_york conjunto de dados.

import bigframes.pandas as bpd

df = bpd.read_gbq("bigquery-public-data.new_york.citibike_trips")

features = bpd.DataFrame(
    {
        "num_trips": df.starttime,
        "date": df["starttime"].dt.date,
    }
)
num_trips = features.groupby(["date"]).count()

num_trips.plot.line()

O resultado será semelhante ao seguinte: Result_visualization

Criar um modelo de série temporal

Crie um modelo de série temporal com os dados de viagens do Citi Bike de Nova York.

A consulta do GoogleSQL a seguir cria um modelo que prevê o total diário de viagens de bicicleta. A instrução CREATE MODEL cria e treina um modelo chamado bqml_tutorial.nyc_citibike_arima_model.

#standardSQL
CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model
  OPTIONS (
    model_type = 'ARIMA_PLUS',
    time_series_timestamp_col = 'date',
    time_series_data_col = 'num_trips',
    time_series_id_col = 'start_station_id')
AS
SELECT
  EXTRACT(DATE FROM starttime) AS date,
  COUNT(*) AS num_trips,
  start_station_id
FROM
  `bigquery-public-data`.new_york.citibike_trips
WHERE starttime > '2014-07-11' AND starttime < '2015-02-11'
GROUP BY date, start_station_id;

A cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica que você está criando um modelo de série temporal com base em ARIMA. Por padrão, auto_arima=TRUE, para que o algoritmo auto.ARIMA ajuste automaticamente os hiperparâmetros nos modelos ARIMA_PLUS. O algoritmo se encaixa em dezenas de modelos candidatos e escolhe o melhor com o menor índice de informações do Akaike (AIC, na sigla em inglês). Além disso, como o padrão é data_frequency='AUTO_FREQUENCY', o processo de treinamento infere automaticamente a frequência de dados da série temporal de entrada. A instrução CREATE MODEL usa decompose_time_series=TRUE por padrão, de modo que as partes de histórico e previsão da série temporal são salvas no modelo. Definir o parâmetro time_series_id_col = 'start_station_id' faz com que o modelo ajuste e preveja várias séries temporais usando uma única consulta baseada em start_station_id. Use essas informações para entender melhor como a série temporal é prevista buscando os componentes separados dela, como períodos sazonais.

Execute a consulta CREATE MODEL para criar e treinar seu modelo:

  1. No Google Cloud console, clique no botão Escrever nova consulta.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model
    OPTIONS (
      model_type = 'ARIMA_PLUS',
      time_series_timestamp_col = 'date',
      time_series_data_col = 'num_trips',
      time_series_id_col = 'start_station_id')
    AS
    SELECT
    EXTRACT(DATE FROM starttime) AS date,
    COUNT(*) AS num_trips,
    start_station_id
    FROM
    `bigquery-public-data`.new_york.citibike_trips
    WHERE starttime > '2014-07-11' AND starttime < '2015-02-11'
    GROUP BY date, start_station_id;
  3. Clique em Executar.

    A consulta leva aproximadamente 80 segundos para ser concluída. Depois disso, você pode acessar o modelo (nyc_citibike_arima_model). Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Prever a série temporal e visualizar os resultados

Para explicar como a série temporal é prevista, visualize todos os componentes dela, como sazonalidade e tendência, usando a função ML.FORECAST.

Para isso, siga estas etapas:

  1. No Google Cloud console, clique no botão Escrever nova consulta.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    SELECT
    forecast_timestamp AS forecast_timestamp,
    start_station_id AS start_station_id,
    history_value AS history_value,
    forecast_value AS forecast_value
    FROM
    (
      (
         SELECT
         DATE(forecast_timestamp) AS forecast_timestamp,
         NULL AS history_value,
         forecast_value AS forecast_value,
         start_station_id AS start_station_id,
         FROM
         ML.FORECAST(
            MODEL bqml_tutorial.`nyc_citibike_arima_model`,
            STRUCT(
               365 AS horizon,
               0.9 AS confidence_level))
      )
      UNION ALL
      (
         SELECT
         DATE(date_name) AS forecast_timestamp,
         num_trips AS history_value,
         NULL AS forecast_value,
         start_station_id AS start_station_id,
         FROM
         (
            SELECT
               EXTRACT(DATE FROM starttime) AS date_name,
               COUNT(*) AS num_trips,
               start_station_id AS start_station_id
            FROM
               `bigquery-public-data`.new_york.citibike_trips
            WHERE
               starttime > '2014-07-11'
               AND starttime < '2015-02-11'
            GROUP BY
               date_name, start_station_id
         )
      )
    )
    WHERE start_station_id = 79
    ORDER BY
    forecast_timestamp, start_station_id
  3. Clique em Executar. Os resultados da consulta são semelhantes aos mostrados a seguir:

    BQUI_chart.

  4. Use o Google Cloud console do para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização:

    Result_visualization.

O gráfico mostra que os valores previstos para o número total diário de viagens do Citi Bike, em que start_station_id=79 são números negativos, o que não é útil. Usar um modelo com limites melhora os dados previstos.

Criar um modelo de série temporal com limites

Criar um modelo de série temporal com limites usando os dados de viagens do Citi Bike de Nova York.

A consulta do GoogleSQL a seguir cria um modelo que prevê o total diário de viagens de bicicleta. A instrução CREATE MODEL cria e treina um modelo chamado bqml_tutorial.nyc_citibike_arima_model_with_limits. A principal diferença entre esse modelo e o modelo criado anteriormente é a adição da opção forecast_limit_lower_bound=0. Essa opção faz com que o modelo preveja apenas valores maiores que 0, com base nos valores da coluna especificada pelo argumento time_series_data_col, neste caso num_trips.

#standardSQL
CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model
   OPTIONS (
      model_type = 'ARIMA_PLUS',
      time_series_timestamp_col = 'date',
      time_series_data_col = 'num_trips',
      time_series_id_col = 'start_station_id',
      forecast_limit_lower_bound = 0)
   AS
   SELECT
   EXTRACT(DATE FROM starttime) AS date,
   COUNT(*) AS num_trips,
   start_station_id
   FROM
   `bigquery-public-data`.new_york.citibike_trips
   WHERE starttime > '2014-07-11' AND starttime < '2015-02-11'
   GROUP BY date, start_station_id;

Execute a consulta CREATE MODEL para criar e treinar seu modelo:

  1. No Google Cloud console, clique no botão Escrever nova consulta.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    CREATE OR REPLACE MODEL bqml_tutorial.nyc_citibike_arima_model
    OPTIONS (
      model_type = 'ARIMA_PLUS',
      time_series_timestamp_col = 'date',
      time_series_data_col = 'num_trips',
      time_series_id_col = 'start_station_id',
      forecast_limit_lower_bound = 0)
    AS
    SELECT
    EXTRACT(DATE FROM starttime) AS date,
    COUNT(*) AS num_trips,
    start_station_id
    FROM
    `bigquery-public-data`.new_york.citibike_trips
    WHERE starttime > '2014-07-11' AND starttime < '2015-02-11'
    GROUP BY date, start_station_id;
  3. Clique em Executar.

    A consulta leva aproximadamente 100 segundos para ser concluída. Depois disso, você pode acessar o modelo (nyc_citibike_arima_model_with_limits). Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Prever a série temporal usando o modelo com limites

  1. No Google Cloud console, clique no botão Escrever nova consulta.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    SELECT
    forecast_timestamp AS forecast_timestamp,
    start_station_id AS start_station_id,
    history_value AS history_value,
    forecast_value AS forecast_value
    FROM
    (
      (
         SELECT
         DATE(forecast_timestamp) AS forecast_timestamp,
         NULL AS history_value,
         forecast_value AS forecast_value,
         start_station_id AS start_station_id,
         FROM
         ML.FORECAST(
            MODEL bqml_tutorial.`nyc_citibike_arima_model`,
            STRUCT(
               365 AS horizon,
               0.9 AS confidence_level))
      )
      UNION ALL
      (
         SELECT
         DATE(date_name) AS forecast_timestamp,
         num_trips AS history_value,
         NULL AS forecast_value,
         start_station_id AS start_station_id,
         FROM
         (
            SELECT
               EXTRACT(DATE FROM starttime) AS date_name,
               COUNT(*) AS num_trips,
               start_station_id AS start_station_id
            FROM
               `bigquery-public-data`.new_york.citibike_trips
            WHERE
               starttime > '2014-07-11'
               AND starttime < '2015-02-11'
            GROUP BY
               date_name, start_station_id
         )
      )
    )
    WHERE start_station_id = 79
    ORDER BY forecast_timestamp, start_station_id
  3. Clique em Executar.

    BQUI_chart.

  4. Use o Google Cloud console do para criar um gráfico com os dados da série temporal. No painel Resultados da consulta, clique na guia Visualização:

    Result_visualization.

O modelo ARIMA PLUS detecta que o número total diário de viagens do Citi Bike, em que start_station_id=79 está diminuindo. Os valores de previsão para o futuro vão seguir essa tendência e apresentar números de previsão relativamente menores quanto mais você for para o futuro. O gráfico mostra que os valores previstos para o número total diário de viagens do Citi Bike, em que start_station_id=79 são números positivos, o que é mais útil. O modelo com limites detecta que o número total diário de viagens do Citi Bike, em que start_station_id=79 está diminuindo, mas ainda apresenta valores de previsão significativos.

Conforme este tutorial, as opções forecast_limit_lower_bound e forecast_limit_upper_bound ajudam você a receber valores de previsão mais significativos em cenários semelhantes ao mostrado aqui, como ao prever preços de ações ou números de vendas futuras.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

  1. Se necessário, abra a página do BigQuery no Google Cloud console.

    Acesse a página do BigQuery

  2. Na navegação, clique no conjunto de dados bqml_tutorial criado.

  3. Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.

  4. Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial). Em seguida, clique em Excluir.

Excluir o projeto

Para excluir o projeto:

  1. No Google Cloud console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
  3. Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

A seguir