使用「Bigtable 變更串流至 BigQuery」範本

在本快速入門導覽課程中,您將瞭解如何設定啟用變更串流的 Bigtable 資料表、執行變更串流管道、變更資料表,然後查看串流的變更。

事前準備

  1. 在 Google Cloud 控制台的專案選擇器頁面中,選取或建立 Google Cloud 專案。

    選取或建立專案所需的角色

    • 選取專案:選取專案時,不需要具備特定 IAM 角色,只要您已獲授角色,即可選取任何專案。
    • 建立專案:如要建立專案,您需要具備專案建立者角色 (roles/resourcemanager.projectCreator),其中包含 resourcemanager.projects.create 權限。瞭解如何授予角色

    前往專案選取器

  2. 確認專案已啟用計費功能 Google Cloud

  3. 啟用 Dataflow、Cloud Bigtable API、Cloud Bigtable Admin API 和 BigQuery API。

    啟用 API 時所需的角色

    如要啟用 API,您需要服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色

    啟用 API

  4. 在 Google Cloud 控制台中啟用 Cloud Shell。

    啟用 Cloud Shell

建立 BigQuery 資料集

透過 Google Cloud 控制台建立資料集來儲存資料。

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往「BigQuery」

  2. 在「Explorer」窗格中,按一下專案名稱。

  3. 展開「動作」 選項,然後點選「建立資料集」

  4. 在「建立資料集」頁面中,執行下列操作:

    1. 在「Dataset ID」(資料集 ID) 中輸入 bigtable_bigquery_quickstart
    2. 其餘設定請保留預設狀態,然後按一下「建立資料集」

建立啟用變更串流的資料表

  1. 前往 Google Cloud 控制台的 Bigtable「Instances」(執行個體) 頁面。

    前往「Instances」(執行個體)

  2. 按一下您要在本快速入門導覽課程使用的執行個體 ID。

    如果沒有可用的執行個體,請在您附近的區域建立執行個體,並使用預設設定。

  3. 按一下左側導覽窗格中的「表格」

  4. 按一下「建立資料表」

  5. 將資料表命名為 bigquery-changestream-quickstart

  6. 新增名為 cf 的資料欄系列。

  7. 選取「啟用變更串流」

  8. 點選「建立」

  9. 在 Bigtable「Tables」(資料表) 頁面中,找出所需資料表 bigquery-changestream-quickstart

  10. 在「變更串流」欄中,按一下「連線」

  11. 在對話方塊中選取「BigQuery」BigQuery

  12. 按一下「建立 Dataflow 工作」

  13. 在提供的參數欄位中輸入參數值。您不需要提供任何選用參數。

    1. 將 Bigtable 應用程式設定檔 ID 設為 default
    2. 將 BigQuery 資料集設為 bigtable_bigquery_quickstart
  14. 按一下「Run Job」(執行工作)

  15. 請先等待工作狀態顯示為「啟動中」或「執行中」,再繼續操作。 工作排入佇列後,大約需要 5 分鐘。

  16. 在分頁中開啟工作,以便在清除資源時停止工作。

將一些資料寫入 Bigtable

  1. 在 Cloud Shell 中,將幾列資料寫入 Bigtable,這樣變更記錄就能將一些資料寫入 BigQuery。只要在工作建立後寫入資料,就會顯示變更。不必等待工作狀態變成 running

    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user123 cf:col1=abc
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user546 cf:col1=def
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user789 cf:col1=ghi
    

    更改下列內容:

    • PROJECT_ID:您使用的專案 ID
    • BIGTABLE_INSTANCE_ID:包含 bigquery-changestream-quickstart 資料表的執行個體 ID

在 BigQuery 中查看變更記錄

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中,展開專案和資料集 bigtable_bigquery_quickstart

  3. 按一下資料表 bigquery-changestream-quickstart_changelog

  4. 如要查看變更記錄,請按一下「預覽」

    在 BigQuery 中預覽變更記錄

清除所用資源

為了避免系統向您的 Google Cloud 帳戶收取本頁面所用資源的費用,請按照下列步驟操作。

  1. 停用資料表的變更串流:

    gcloud bigtable instances tables update bigquery-changestream-quickstart \
    --project=PROJECT_ID --instance=BIGTABLE_INSTANCE_ID \
    --clear-change-stream-retention-period
    
  2. 刪除資料表 bigquery-changestream-quickstart

    cbt --instance=BIGTABLE_INSTANCE_ID --project=PROJECT_ID deletetable bigquery-changestream-quickstart
    
  3. 停止變更串流管道:

    1. 前往 Google Cloud 控制台的 Dataflow「Jobs」(工作) 頁面。

      前往「工作」

    2. 從工作清單中選取串流工作。

    3. 按一下導覽區中的「停止」

    4. 在「停止工作」對話方塊中,選取「取消」,然後點按「停止工作」

  4. 刪除 BigQuery 資料集:

    1. 前往 Google Cloud 控制台的「BigQuery」頁面。

      前往 BigQuery

    2. 在「Explorer」面板中找出並點選 bigtable_bigquery_quickstart 資料集。

    3. 依序點選「Delete」(刪除)、輸入 delete,然後點選「Delete」(刪除) 確認操作。

  5. 選用:如果您為本快速入門導覽課程建立了新的執行個體,請刪除該執行個體:

    cbt deleteinstance BIGTABLE_INSTANCE_ID
    

後續步驟