「WordCount 範本」是一個批次管道,可從 Cloud Storage 讀取文字,並將文字行代碼化為個別字詞,然後再計算每個字詞出現的頻率。如要進一步瞭解 WordCount,請參閱 WordCount 範例管道。
如果 Cloud Storage bucket 位於服務範圍外,請建立輸出規則,允許存取該 bucket。
範本參數
| 參數 | 說明 |
|---|---|
inputFile |
Cloud Storage 輸入檔案的路徑。 |
outputFile |
Cloud Storage 輸出檔案的路徑和前置字串。 |
執行 WordCount 範本
控制台
- 前往 Dataflow 的「Create job from template」(透過範本建立工作) 頁面。 前往「依範本建立工作」
- 在「Job name」(工作名稱) 欄位中,輸入不重複的工作名稱。
- 選用:如要使用區域端點,請從下拉式選單中選取值。預設區域為
us-central1。如需可執行 Dataflow 工作的地區清單,請參閱「Dataflow 位置」。
- 從「Dataflow template」(Dataflow 範本) 下拉式選單中,選取 the WordCount template。
- 在提供的參數欄位中輸入參數值。
- 按一下「Run Job」(執行工作)。
gcloud
在殼層或終端機中執行範本:
gcloud dataflow jobs run JOB_NAME \
--gcs-location gs://dataflow-templates/latest/Word_Count \
--region REGION_NAME \
--parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output
更改下列內容:
JOB_NAME: 您選擇的不重複工作名稱REGION_NAME:您要部署 Dataflow 工作的區域,例如us-central1BUCKET_NAME:Cloud Storage bucket 的名稱
API
如要使用 REST API 執行範本,請傳送 HTTP POST 要求。如要進一步瞭解 API 和授權範圍,請參閱 projects.templates.launch。
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
"output": "gs://BUCKET_NAME/output/my_output"
},
"environment": { "zone": "us-central1-f" }
}
更改下列內容:
PROJECT_ID: 您要執行 Dataflow 工作的 Google Cloud 專案 ID
JOB_NAME: 您選擇的不重複工作名稱LOCATION:您要部署 Dataflow 工作的區域,例如us-central1BUCKET_NAME:Cloud Storage bucket 的名稱