剖析檔案

本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時剖析檔案。您可以先使用 Wrangler 剖析檔案，再將檔案載入 Wrangler 工作區：

Wrangler 會推斷資料類型，並將每個資料欄對應至推斷的資料類型，這與 Pipeline Studio 中的檔案來源外掛程式相同。
如果無法推斷結構定義，您可以匯入 JSON 等檔案格式的結構定義。
這項配方不包含剖析指令，因此可在管道執行期間減少轉換邏輯。
透過 Wrangler 建立管道時，來源外掛程式會包含您在 Wrangler 中設定的所有剖析屬性和值。

建立檔案連線

如要在剖析檔案前將檔案載入 Wrangler，您必須使用檔案連線，例如檔案、Cloud Storage 或 Amazon S3。

前往 Cloud Data Fusion 中的 Wrangler 工作區。
按一下「選取資料」展開箭頭，查看可用的連結。
新增檔案、Cloud Storage 或 S3 的連結。詳情請參閱「建立及管理連線」。
如要開啟剖析選項對話方塊，請前往「Select data」面板，然後按一下檔案名稱。
在「Parsing options」對話方塊中，輸入下列資訊：
1. 在「格式」欄位中，選擇要讀取的資料檔案格式，例如 csv。詳情請參閱「支援的格式」。
  - 如果選擇分隔符號格式，請在隨即顯示的「分隔符號」欄位中輸入分隔符號資訊。
  - 如果您選擇 CSV、TSV 或分隔符格式，系統會顯示「啟用引號值」欄位。如果資料已加上引號，請選取「True」。這項設定會從剖析的輸出內容中修飾引號。舉例來說，下列輸入內容 1, "a, b, c" 會剖析為兩個欄位。第一個欄位的值為：1。第二個欄位的值為：a, b, c。換行分隔符號不得位於引號內。
  - 如果您選擇文字、CSV、TSV 或分隔符格式，系統會顯示「Use first row as header」欄位。如要使用每個檔案的第一行做為欄標題，請選取「是」。
2. 在「檔案編碼」欄位中，選擇來源檔案的檔案編碼類型，例如 UTF-8。
3. 選用：如要匯入結構定義或覆寫檔案的推測結構定義，請按一下「Import Schema」。您可以匯入 JSON 和部分 Avro 檔案等格式的結構定義，因為這些格式無法進行結構推論。結構定義必須採用 Avro 格式。
4. 按一下「Confirm」(確認)。剖析的檔案會顯示在 Wrangler 工作區中。

支援的格式

檔案剖析支援下列格式：

Avro
Blob (Blob 格式需要結構定義，其中包含名稱為 body 的欄位，類型為 bytes)
CSV
分隔
JSON
Parquet
文字 (文字格式需要包含名為 body 的欄位，類型為 string)
TSV

後續步驟

進一步瞭解 Wrangler 指令。

剖析檔案 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

建立檔案連線

支援的格式

後續步驟

剖析檔案