工作建構工具 UI 總覽

工作建構工具提供視覺化的使用者介面,可讓您在 Google Cloud 控制台中建構及執行 Dataflow 管道,完全不需要編寫程式碼。

下圖顯示工作建構工具使用者介面的詳細資料。在這張圖片中,使用者正在建立管道,以便從 Pub/Sub 讀取至 BigQuery:

工作建構工具使用者介面的螢幕截圖

總覽

工作建構工具支援讀取及寫入下列類型的資料:

  • Pub/Sub 訊息
  • BigQuery 資料表資料
  • Cloud Storage 中的 CSV 檔案、JSON 檔案和文字檔案
  • PostgreSQL、MySQL、Oracle 和 SQL Server 資料表資料

可支援管道轉換,包括篩選器、對應、SQL、分組依據、彙整和爆炸 (陣列扁平化)。

工作建構工具可讓您:

  • 透過轉換和視窗化匯總,將資料從 Pub/Sub 串流至 BigQuery
  • 將 Cloud Storage 中的資料寫入至 BigQuery。
  • 使用錯誤處理篩選錯誤資料 (無效信件佇列)
  • 使用 SQL 轉換,透過 SQL 操控或匯總資料
  • 透過對應轉換,新增、修改或捨棄資料中的欄位
  • 排定週期性批次工作

工作建構工具也可以將管道儲存為 Apache Beam YAML 檔案,並從 Beam YAML 檔案載入管道定義。使用這項功能,您可以在工作建構工具中設計管道,然後將 YAML 檔案儲存在 Cloud Storage 或原始碼控管存放區中,以供重複使用。也可以使用 YAML 工作定義,透過 gcloud CLI 啟動工作。

在下列情況下,請考慮使用工作建構工具:

  • 您想快速建構管道,不必編寫程式碼。
  • 您想將管道儲存為 YAML,以供重複使用。
  • 您可以使用支援的來源、接收器和轉換來表示管道。
  • 沒有符合用途的 Google 提供的範本

執行範例工作

「字數統計範本」是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行符記化為個別字詞,然後再計算每個字詞出現的頻率數。

如果 Cloud Storage bucket 位於 service perimeter 外,請建立輸出規則,允許存取該 bucket。

如要執行字數統計管道,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Jobs」(工作) 頁面。

    前往工作

  2. 按一下「Create job from template」(依據範本建立工作)

  3. 在側邊窗格中,按一下 「Job builder」(工作建構工具)

  4. 按一下「Load blueprints」(載入藍圖)

  5. 按一下「Word Count」(字數統計)。工作建構工具會填入管道的圖表呈現方式。

    工作建構工具會為每個管道步驟顯示一張卡片,其中指定該步驟的設定參數。例如,第一個步驟是從 Cloud Storage 讀取文字檔案。「Text location」(文字位置) 方塊會預先填入來源資料的位置。

工作建構工具的螢幕截圖

  1. 找出名為「New sink」(新接收器) 的資訊卡。您可能需要捲動畫面。

  2. 在「Text location」(文字位置) 方塊中,輸入輸出內容文字檔案的 Cloud Storage 位置路徑前置字元。

  3. 按一下「Run Job」(執行工作)。工作建構工具會建立 Dataflow 工作,然後前往工作圖表。工作開始時,工作圖表會以圖表呈現管道。這個圖表呈現方式與工作建構工具中顯示的類似。管道的每個步驟執行時,工作圖表中的狀態都會更新。

「Job info」(工作資訊) 面板會顯示工作的整體狀態。如果工作順利完成,「Job status」(工作狀態) 欄位會更新為 Succeeded

後續步驟