ARIMA_PLUS 시계열 예측 모델에서 커스텀 공휴일 사용

이 튜토리얼에서는 다음 작업을 처리하는 방법을 보여줍니다.

  • 기본 제공 공휴일만 사용하는 ARIMA_PLUS 시계열 예측 모델 만들기
  • 기본 공휴일 외에도 커스텀 공휴일을 사용하는 ARIMA_PLUS 시계열 예측 모델 만들기
  • 이러한 모델의 예측 결과를 시각화하기
  • 모델을 검사하여 모델링되는 휴일을 확인하기
  • 커스텀 공휴일이 예측 결과에 미치는 영향을 평가하기
  • 기본 제공 공휴일만 사용하는 모델의 성능과 기본 제공 공휴일 외에도 커스텀 공휴일을 사용하는 모델의 성능을 비교하기

이 튜토리얼에서는 bigquery-public-data.wikipedia.pageviews_* 공개 테이블을 사용합니다.

필수 권한

  • 데이터 세트를 만들려면 bigquery.datasets.create IAM 권한이 필요합니다.

  • 모델을 만들려면 다음 권한이 필요합니다.

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • 추론을 실행하려면 다음 권한이 필요합니다.

    • bigquery.models.getData
    • bigquery.jobs.create

BigQuery에서 IAM 역할 및 권한에 대한 자세한 내용은 IAM 소개를 참조하세요.

비용

이 문서에서는 비용이 청구될 수 있는 Google Cloud구성요소를 사용합니다.

  • BigQuery: You incur costs for the data you process in BigQuery.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.

Google Cloud 신규 사용자는 무료 체험판을 사용할 수 있습니다.

자세한 내용은 BigQuery 가격을 참조하세요.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

데이터 세트 만들기

ML 모델을 저장할 BigQuery 데이터 세트를 만듭니다.

콘솔

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery 페이지로 이동

  2. 탐색기 창에서 프로젝트 이름을 클릭합니다.

  3. 작업 보기 > 데이터 세트 만들기를 클릭합니다.

  4. 데이터 세트 만들기 페이지에서 다음을 수행합니다.

    • 데이터 세트 IDbqml_tutorial를 입력합니다.

    • 위치 유형에 대해 멀티 리전을 선택한 다음 US를 선택합니다.

    • 나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.

bq

새 데이터 세트를 만들려면 bq mk --dataset 명령어를 사용합니다.

  1. 데이터 위치가 US로 설정된 bqml_tutorial 데이터 세트를 만듭니다.

    bq mk --dataset \
      --location=US \
      --description "BigQuery ML tutorial dataset." \
      bqml_tutorial
  2. 데이터 세트가 생성되었는지 확인합니다.

    bq ls

API

데이터 세트 리소스가 정의된 datasets.insert 메서드를 호출합니다.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

시계열 데이터 준비

Google I/O 페이지의 Wikipedia 페이지 조회 데이터를 일별로 그룹화하여 단일 테이블로 집계합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE TABLE `bqml_tutorial.googleio_page_views`
    AS
    SELECT
      DATETIME_TRUNC(datehour, DAY) AS date,
      SUM(views) AS views
    FROM
      `bigquery-public-data.wikipedia.pageviews_*`
    WHERE
      datehour >= '2017-01-01'
      AND datehour < '2023-01-01'
      AND title = 'Google_I/O'
    GROUP BY
      DATETIME_TRUNC(datehour, DAY)

기본 공휴일을 사용하는 시계열 예측 모델 만들기

2022년 이전의 페이지 조회 데이터를 기반으로 하고 기본 공휴일을 고려하여 Wikipedia 'Google I/O' 페이지의 일일 페이지 조회수를 예측하는 모델을 만듭니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS
    SELECT
      *
    FROM
      `bqml_tutorial.googleio_page_views`
    WHERE
      date < '2022-01-01';

예측 결과 시각화

기본 제공 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인합니다. 그런 다음 데이터 스튜디오를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_without_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL `bqml_tutorial.forecast_googleio`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
  3. 쿼리 결과 창에서 다음에서 열기 > 데이터 스튜디오를 클릭합니다. 데이터 스튜디오가 새 탭에서 열립니다.

  4. 데이터 스튜디오 탭에서 차트 추가를 클릭한 다음 시계열 차트를 클릭합니다.

    시계열 차트 추가하기

    보고서에 차트를 배치합니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 adjusted_views_without_custom_holiday를 선택합니다.

    측정항목을 더 추가하기

    차트는 다음과 유사합니다.

    기본 공휴일을 사용한 예측 결과의 시계열 차트

    예측 모델이 일반적인 추세를 꽤 잘 캡처하는 것을 확인할 수 있습니다. 하지만 이전 Google I/O 이벤트와 관련된 트래픽 증가를 캡처하지 못하여 정확한 예측을 생성할 수 없습니다.

    1. 다음 섹션에서는 이러한 제한사항을 해결하는 방법을 보여줍니다.

기본 공휴일 및 커스텀 공휴일을 사용하는 시계열 예측 모델 만들기

Google I/O 기록에서 확인할 수 있듯이 Google I/O 이벤트는 2017년부터 2022년까지 다른 날짜에 개최되었습니다. 이러한 변화를 고려하기 위해 2022년 이전의 페이지 조회 데이터를 기반으로 2022년까지 Wikipedia 'Google_I/O' 페이지의 페이지 조회수를 예측하고 커스텀 휴일을 사용하여 매년 열리는 Google I/O 이벤트 나타내는 모델을 만듭니다. 이 모델에서는 이벤트 전후의 잠재적인 페이지 트래픽을 더 잘 포착하기 위해 이벤트 날짜 근처 3일을 포함하는 연휴 효과 기간도 조정합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    CREATE OR REPLACE MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`
      OPTIONS (
        model_type = 'ARIMA_PLUS',
        holiday_region = 'US',
        time_series_timestamp_col = 'date',
        time_series_data_col = 'views',
        data_frequency = 'DAILY',
        horizon = 365)
    AS (
      training_data AS (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date < '2022-01-01'
        ),
      custom_holiday AS (
          SELECT
            'US' AS region,
            'GoogleIO' AS holiday_name,
            primary_date,
            1 AS preholiday_days,
            2 AS postholiday_days
          FROM
            UNNEST(
              [
                DATE('2017-05-17'),
                DATE('2018-05-08'),
                DATE('2019-05-07'),
                -- cancelled in 2020 due to pandemic
                DATE('2021-05-18'),
                DATE('2022-05-11')])
              AS primary_date
        )
    );

예측 결과 시각화

커스텀 공휴일을 사용하여 모델을 만든 후 bqml_tutorial.googleio_page_views 테이블의 원본 데이터를 ML.EXPLAIN_FORECAST 함수의 예측 값과 조인합니다. 그런 다음 Data Studio를 사용하여 시각화합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      original.date,
      original.views AS original_views,
      explain_forecast.time_series_adjusted_data
        AS adjusted_views_with_custom_holiday,
    FROM
      `bqml_tutorial.googleio_page_views` original
    INNER JOIN
      (
        SELECT
          *
        FROM
          ML.EXPLAIN_FORECAST(
            MODEL
              `bqml_tutorial.forecast_googleio_with_custom_holiday`,
            STRUCT(365 AS horizon))
      ) explain_forecast
      ON
        TIMESTAMP(original.date)
        = explain_forecast.time_series_timestamp
    ORDER BY
      original.date;
  3. 쿼리 결과 창에서 데이터 탐색을 클릭한 후 데이터 스튜디오로 탐색을 클릭합니다. 데이터 스튜디오가 새 탭에서 열립니다.

  4. 데이터 스튜디오 탭에서 차트 추가를 클릭하고 시계열 차트를 클릭한 후 보고서에 차트를 배치합니다.

  5. 차트 창의 설정 탭에서 측정항목 추가를 클릭하고 adjusted_views_with_custom_holiday를 선택합니다.

    차트는 다음과 유사합니다.

    커스텀 공휴일을 사용한 예측 결과의 시계열 차트

    이와 같이 커스텀 공휴일은 예측 모델의 성능을 향상시켰습니다. 이제 Google I/O로 인한 페이지 조회수 증가를 효과적으로 캡처합니다.

공휴일 정보 검사

ML.HOLIDAY_INFO 함수를 사용하여 모델링 중에 고려된 공휴일 목록을 검사합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT *
    FROM
      ML.HOLIDAY_INFO(
        MODEL `bqml_tutorial.forecast_googleio_with_custom_holiday`);

    결과에는 Google I/O와 공휴일 목록의 기본 공휴일이 모두 표시됩니다.

    ML.HOLIDAY_INFO 함수의 결과

커스텀 공휴일 효과 평가

ML.EXPLAIN_FORECAST 함수를 사용하여 예측 결과에 대한 커스텀 공휴일의 효과를 평가합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      time_series_timestamp,
      holiday_effect_GoogleIO,
      holiday_effect_US_Juneteenth,
      holiday_effect_Christmas,
      holiday_effect_NewYear
    FROM
      ML.EXPLAIN_FORECAST(
        model
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        STRUCT(365 AS horizon))
    WHERE holiday_effect != 0;

    결과는 Google I/O가 예측 결과에 많은 양의 공휴일 영향을 미치는 것으로 표시됩니다.

    ML.EXPLAIN_FORECAST 함수의 결과

모델 성능 비교

ML.EVALUATE 함수를 사용하여 커스텀 공휴일 없이 만든 첫 번째 모델과 커스텀 공휴일로 만든 두 번째 모델의 성능을 비교합니다. 미래의 커스텀 공휴일을 예측하는 데 두 번째 모델의 성능을 확인하려면 기간을 2022년 Google I/O 주간으로 설정합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. SQL 편집자 창에서 다음 SQL 문을 실행합니다.

    SELECT
      "original" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL `bqml_tutorial.forecast_googleio`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation))
    UNION ALL
    SELECT
      "with_custom_holiday" AS model_type,
      *
    FROM
      ml.evaluate(
        MODEL
          `bqml_tutorial.forecast_googleio_with_custom_holiday`,
        (
          SELECT
            *
          FROM
            `bqml_tutorial.googleio_page_views`
          WHERE
            date >= '2022-05-08'
            AND date < '2022-05-12'
        ),
        STRUCT(
          365 AS horizon,
          TRUE AS perform_aggregation));

    결과에 따르면 두 번째 모델은 성능이 크게 향상되었습니다.

    ML.EXPLAIN_FORECAST 함수의 결과

삭제

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.