將記錄傳送至錯誤

本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時,從資料集移除常見錯誤。

資料集中會發生下列類型的錯誤:

  • 系統性錯誤,例如服務或執行個體故障
  • 邏輯錯誤,例如管道執行失敗
  • 資料錯誤,例如無效的信用卡號碼、無效的日期格式或無效的郵遞區號

Wrangler 提供一組超過 50 個指令,可協助您從資料集中移除常見的錯誤。

如要將記錄傳送至錯誤,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down
  3. 選取「傳送至錯誤」,然後選取將錯誤記錄傳送至錯誤的條件。

Wrangler 會從樣本中移除符合指定條件的值,並將 send to error 指示詞新增至範本。執行資料管道時,系統會將轉換套用至資料欄中的所有值。

在資料管道中新增錯誤收集器外掛程式

當您在資料管道中加入 Wrangler 轉換作業,並使用包含 send to error 指示詞的配方時,可以選擇將其連結至 Error Collector 外掛程式。Error Collector 外掛程式通常會連結至下游接收點外掛程式,例如 BigQuery 接收點。

執行管道時,由 send to error 指令標記的記錄會從管道中的 Wrangler 轉換步驟,傳送至錯誤收集器步驟,再傳送至接收器步驟。執行作業完成後,您可以檢查寫入接收器的標記記錄。

如果您的食譜包含 send to error 轉換,但管道不包含 Error Collector 外掛程式,則在管道執行期間,系統會捨棄 send to error 指令標示的記錄。

後續步驟