Utilizzare festività personalizzate in un modello di previsione delle serie temporali ARIMA_PLUS

Questo tutorial mostra come svolgere le seguenti attività:

  • Crea un ARIMA_PLUS modello di previsione di serie temporali che utilizza solo le festività integrate.
  • Crea un modello di previsione delle serie temporali ARIMA_PLUS che utilizza festività personalizzate oltre a quelle integrate.
  • Visualizza i risultati delle previsioni di questi modelli.
  • Esamina un modello per vedere quali festività modella.
  • Valuta gli effetti delle festività personalizzate sui risultati previsti.
  • Confronta il rendimento del modello che utilizza solo le festività integrate con il rendimento del modello che utilizza le festività personalizzate oltre a quelle integrate.

Questo tutorial utilizza le tabelle pubbliche bigquery-public-data.wikipedia.pageviews_*.

Autorizzazioni obbligatorie

  • Per creare il set di dati, devi disporre dell'autorizzazione IAM bigquery.datasets.create.

  • Per creare il modello, devi disporre delle seguenti autorizzazioni:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:

    • bigquery.models.getData
    • bigquery.jobs.create

Per saperne di più sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Introduzione a IAM.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • BigQuery: You incur costs for the data you process in BigQuery.

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Per ulteriori informazioni, vedi Prezzi di BigQuery.

Prima di iniziare

  1. Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML.

Console

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai alla pagina BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

  4. Nella pagina Crea set di dati, segui questi passaggi:

    • In ID set di dati, inserisci bqml_tutorial.

    • Per Tipo di località, seleziona Multi-regione e poi Stati Uniti.

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk --dataset.

  1. Crea un set di dati denominato bqml_tutorial con la località dei dati impostata su US.

    bq mk --dataset \
      --location=US \
      --description "BigQuery ML tutorial dataset." \
      bqml_tutorial
  2. Verifica che il set di dati sia stato creato:

    bq ls

API

Chiama il metodo datasets.insert con una risorsa dataset definita.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Prepara i dati delle serie temporali

Aggrega i dati sulle visualizzazioni di pagina della pagina Wikipedia per la pagina Google I/O in un'unica tabella, raggruppati per giorno:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    CREATE OR REPLACE TABLE `bqml_tutorial.googleio_page_views`
    AS
    SELECT
      DATETIME_TRUNC(datehour, DAY) AS date,
      SUM(views) AS views
    FROM
      `bigquery-public-data.wikipedia.pageviews_*`
    WHERE
      datehour >= '2017-01-01'
      AND datehour < '2023-01-01'
      AND title = 'Google_I/O'
    GROUP BY
      DATETIME_TRUNC(datehour, DAY)

Crea un modello di previsione delle serie temporali che utilizza le festività integrate

Crea un modello che preveda le visualizzazioni di pagina giornaliere per la pagina "Google I/O" di Wikipedia, in base ai dati sulle visualizzazioni di pagina precedenti al 2022 e tenendo conto delle festività integrate:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS
    SELECT
      *
    FROM
      `bqml_tutorial.googleio_page_views`
    WHERE
      date < '2022-01-01';

Visualizzare i risultati previsti

Dopo aver creato il modello utilizzando le festività integrate, unisci i dati originali della tabella bqml_tutorial.googleio_page_views al valore previsto della funzione ML.EXPLAIN_FORECAST e poi visualizzali utilizzando Data Studio:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_without_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL `bqml_tutorial.forecast_googleio`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
  3. Nel riquadro Risultati delle query, fai clic su Apri in > Data Studio. Data Studio si apre in una nuova scheda.

  4. Nella scheda Data Studio, fai clic su Aggiungi un grafico e poi sul grafico delle serie temporali:

    Aggiungi un grafico delle serie temporali.

    Posiziona il grafico nel report.

  5. Nella scheda Configurazione del riquadro Grafico, fai clic su Aggiungi metrica e seleziona adjusted_views_without_custom_holiday:

    Aggiungi un&#39;altra metrica.

    Il grafico è simile al seguente:

    Grafico delle serie temporali dei risultati della previsione utilizzando le festività integrate

    Puoi notare che il modello di previsione acquisisce piuttosto bene la tendenza generale. Tuttavia, non acquisisce l'aumento del traffico correlato agli eventi Google I/O precedenti e non è in grado di generare una previsione accurata per

    1. Le sezioni successive mostrano come gestire alcune di queste limitazioni.

Crea un modello di previsione delle serie temporali che utilizza festività integrate e personalizzate

Come puoi vedere nella cronologia di Google I/O, l'evento Google I/O si è svolto in date diverse tra il 2017 e il 2022. Per tenere conto di questa variazione, crea un modello che preveda le visualizzazioni di pagina per la pagina "Google_I/O" di Wikipedia fino al 2022, in base ai dati sulle visualizzazioni di pagina precedenti al 2022 e utilizzando festività personalizzate per rappresentare l'evento Google I/O ogni anno. In questo modello, devi anche regolare la finestra dell'effetto festività in modo che copra tre giorni intorno alla data dell'evento, per acquisire meglio il potenziale traffico della pagina prima e dopo l'evento.

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS (
      training_data AS (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date < '2022-01-01'
        ),
      custom_holiday AS (
          SELECT
            'US' AS region,
            'GoogleIO' AS holiday_name,
            primary_date,
            1 AS preholiday_days,
            2 AS postholiday_days
          FROM
            UNNEST(
              [
                DATE('2017-05-17'),
                DATE('2018-05-08'),
                DATE('2019-05-07'),
                -- cancelled in 2020 due to pandemic
                DATE('2021-05-18'),
                DATE('2022-05-11')])
              AS primary_date
        )
    );

Visualizzare i risultati previsti

Dopo aver creato il modello utilizzando le festività personalizzate, unisci i dati originali della tabella bqml_tutorial.googleio_page_views al valore previsto della funzione ML.EXPLAIN_FORECAST, quindi visualizzali utilizzando Data Studio:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_with_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL
              `bqml_tutorial.forecast_googleio_with_custom_holiday`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
  3. Nel riquadro Risultati query, fai clic su Esplora dati, quindi fai clic su Esplora con Data Studio. Data Studio si apre in una nuova scheda.

  4. Nella scheda Data Studio, fai clic su Aggiungi un grafico, fai clic sul grafico delle serie temporali e posizionalo nel report.

  5. Nella scheda Configurazione del riquadro Grafico, fai clic su Aggiungi metrica e seleziona adjusted_views_with_custom_holiday.

    Il grafico è simile al seguente:

    Grafico delle serie temporali dei risultati della previsione utilizzando festività personalizzate

    Come puoi vedere, le festività personalizzate hanno migliorato il rendimento del modello di previsione. Ora acquisisce in modo efficace l'aumento delle visualizzazioni di pagina causato da Google I/O.

Esaminare le informazioni sulle festività

Esamina l'elenco delle festività prese in considerazione durante la modellazione utilizzando la funzione ML.HOLIDAY_INFO:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    SELECT *
    FROM
      ML.HOLIDAY_INFO(
        MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`);

    I risultati mostrano sia Google I/O sia le festività integrate nell'elenco delle festività:

    Risultati della funzione ML.HOLIDAY_INFO.

Valutare gli effetti delle festività personalizzate

Valuta gli effetti delle festività personalizzate sui risultati previsti utilizzando la funzione ML.EXPLAIN_FORECAST:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    SELECT
      time_series_timestamp,
      holiday_effect_GoogleIO,
      holiday_effect_US_Juneteenth,
      holiday_effect_Christmas,
      holiday_effect_NewYear
    FROM
      ML.EXPLAIN_FORECAST(
        model
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        STRUCT(365 AS horizon))
    WHERE holiday_effect != 0;

    I risultati mostrano che Google I/O contribuisce in modo significativo all'effetto festività nei risultati previsti:

    Risultati della funzione ML.EXPLAIN_FORECAST.

Confrontare il rendimento dei modelli

Utilizza la funzione ML.EVALUATE per confrontare il rendimento del primo modello creato senza festività personalizzate e del secondo modello creato con festività personalizzate. Per vedere il rendimento del secondo modello quando si tratta di prevedere una festività personalizzata futura, imposta l'intervallo di tempo sulla settimana di Google I/O nel 2022:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro dell'editor SQL, esegui la seguente istruzione SQL:

    SELECT
      "original" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL `bqml_tutorial.forecast_googleio`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation))
    UNION ALL
    SELECT
      "with_custom_holiday" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation));

    I risultati mostrano che il secondo modello offre un miglioramento significativo del rendimento:

    Risultati della funzione ML.EXPLAIN_FORECAST.

Esegui la pulizia

  1. Nella console Google Cloud , vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.