Executar um modelo de amostra

O modelo WordCount é um pipeline em lote que lê textos do Cloud Storage, transforma linhas de texto em palavras individuais e executa uma contagem de frequência em cada palavra. Para mais informações sobre WordCount, consulte Pipeline de exemplo de WordCount.

Se o bucket do Cloud Storage estiver fora do perímetro do serviço, crie uma regra de saída que permita acesso ao bucket.

Parâmetros do modelo

Parâmetro Descrição
inputFile O caminho do arquivo de entrada do Cloud Storage.
outputFile Caminho e prefixo do arquivo de saída do Cloud Storage.

Executar o modelo WordCount

Console

  1. Acesse a página Criar job usando um modelo do Dataflow.
  2. Acesse Criar job usando um modelo
  3. No campo Nome do job, insira um nome exclusivo.
  4. Opcional: em Endpoint regional, selecione um valor no menu suspenso. A região padrão é us-central1.

    Para ver uma lista de regiões em que é possível executar um job do Dataflow, consulte Locais do Dataflow.

  5. No menu suspenso Modelo do Dataflow, selecione o modelo WordCount.
  6. Nos campos de parâmetro fornecidos, insira os valores de parâmetro.
  7. Cliquem em Executar job.

gcloud

No shell ou no terminal, execute o modelo:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --region REGION_NAME \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output

Substitua:

  • JOB_NAME: um nome de job de sua escolha

  • REGION_NAME: a região em que você quer implantar o job do Dataflow, por exemplo, us-central1

  • BUCKET_NAME: o nome do bucket do Cloud Storage

API

Para executar o modelo usando a API REST, envie uma solicitação HTTP POST. Para mais informações sobre a API e os respectivos escopos de autorização, consulte projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Substitua:

  • PROJECT_ID: o ID do projeto em que você quer executar o job do Dataflow Google Cloud
  • JOB_NAME: um nome de job de sua escolha

  • LOCATION: a região em que você quer implantar o job do Dataflow, por exemplo, us-central1

  • BUCKET_NAME: o nome do bucket do Cloud Storage