本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時剖析檔案。您可以先使用 Wrangler 剖析檔案,再將檔案載入 Wrangler 工作區:
- Wrangler 會推斷資料類型,並將每個資料欄對應至推斷的資料類型,這與 Pipeline Studio 中的檔案來源外掛程式相同。
- 如果無法推斷結構定義,您可以匯入 JSON 等檔案格式的結構定義。
- 這項配方不包含剖析指令,因此可在管道執行期間減少轉換邏輯。
- 透過 Wrangler 建立管道時,來源外掛程式會包含您在 Wrangler 中設定的所有剖析屬性和值。
建立檔案連線
如要在剖析檔案前將檔案載入 Wrangler,您必須使用檔案連線,例如檔案、Cloud Storage 或 Amazon S3。
- 前往 Cloud Data Fusion 中的 Wrangler 工作區。
- 按一下「選取資料」展開箭頭,查看可用的連結。
- 新增檔案、Cloud Storage 或 S3 的連結。詳情請參閱「建立及管理連線」。
- 如要開啟剖析選項對話方塊,請前往「Select data」面板,然後按一下檔案名稱。
在「Parsing options」對話方塊中,輸入下列資訊:
在「格式」欄位中,選擇要讀取的資料檔案格式,例如 csv。詳情請參閱「支援的格式」。
- 如果選擇分隔符號格式,請在隨即顯示的「分隔符號」欄位中輸入分隔符號資訊。
- 如果您選擇 CSV、TSV 或分隔符格式,系統會顯示「啟用引號值」欄位。如果資料已加上引號,請選取「True」。這項設定會從剖析的輸出內容中修飾引號。舉例來說,下列輸入內容
1, "a, b, c"
會剖析為兩個欄位。第一個欄位的值為:1
。第二個欄位的值為:a, b, c
。換行分隔符號不得位於引號內。 - 如果您選擇文字、CSV、TSV 或分隔符格式,系統會顯示「Use first row as header」欄位。如要使用每個檔案的第一行做為欄標題,請選取「是」。
在「檔案編碼」欄位中,選擇來源檔案的檔案編碼類型,例如 UTF-8。
選用:如要匯入結構定義或覆寫檔案的推測結構定義,請按一下「Import Schema」。您可以匯入 JSON 和部分 Avro 檔案等格式的結構定義,因為這些格式無法進行結構推論。結構定義必須採用 Avro 格式。
按一下「Confirm」(確認)。剖析的檔案會顯示在 Wrangler 工作區中。
支援的格式
檔案剖析支援下列格式:
- Avro
- Blob (Blob 格式需要結構定義,其中包含名稱為
body
的欄位,類型為bytes
) - CSV
- 分隔
- JSON
- Parquet
- 文字 (文字格式需要包含名為
body
的欄位,類型為string
) - TSV
後續步驟
- 進一步瞭解 Wrangler 指令。