Executar um pipeline usando o criador de jobs

Neste guia de início rápido, mostramos como executar um job do Dataflow usando o criador de jobs do Dataflow. A criador de jobs é uma UI visual para criar e executar pipelines do Dataflow no Google Cloud console do Google Cloud, sem escrever códigos.

Neste guia de início rápido, você vai carregar um pipeline de exemplo no criador de jobs, executar um job e verificar se ele criou a saída.

Antes de começar

Conclua as etapas a seguir antes de executar o pipeline.

Criar o projeto

  1. Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloudagora, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crie um bucket do Cloud Storage:
    1. No Google Cloud console do, acesse a página Buckets do Cloud Storage.

      Acessar buckets

    2. Clique em Criar.
    3. Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
      1. Em Nomear o bucket, insira um nome exclusivo. Não inclua informações confidenciais no nome do bucket já que o namespace dele é global e visível para o público.
      2. Na seção Escolha onde armazenar seus dados, faça o seguinte:
        1. Selecione um tipo de local.
        2. Escolha um local em que os dados do bucket serão armazenados permanentemente no menu suspenso Tipo de local.
        3. Para configurar a replicação entre buckets, selecione Adicionar replicação entre buckets usando o Serviço de transferência do Cloud Storage e siga estas etapas:

          Configurar a replicação entre buckets

          1. No menu Bucket, selecione um bucket.
          2. Na seção Configurações de replicação, clique em Configurar para definir as configurações do job de replicação.

            O painel Configurar a replicação entre buckets é exibido.

            • Para filtrar objetos a serem replicados por prefixo de nome de objeto, digite um prefixo com que você quer incluir ou excluir objetos e clique em Adicionar um prefixo.
            • Para definir uma classe de armazenamento para os objetos replicados, selecione uma classe de armazenamento no menu Classe de armazenamento. Se você pular essa etapa, os objetos replicados vão usar a classe de armazenamento do bucket de destino por padrão.
            • Clique em Concluído.
      3. Na seção Escolha como armazenar seus dados, faça o seguinte:
        1. Na seção Definir uma classe padrão, selecione o seguinte: Padrão.
        2. Para ativar o namespace hierárquico, na seção Otimizar o armazenamento para cargas de trabalho com uso intensivo de dados, selecione Ativar namespace hierárquico neste bucket.
      4. Na seção Escolha como controlar o acesso a objetos, selecione se o bucket aplica ou não a prevenção de acesso público, e selecione um método de controle de acesso para os objetos do bucket.
      5. Na seção Escolha como proteger os dados do objeto, faça o seguinte:
    4. Clique em Criar.

Funções exigidas

Para conseguir as permissões necessárias para executar este guia de início rápido, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.

Para garantir que as contas de serviço tenham as permissões necessárias para executar este guia de início rápido, peça ao administrador para conceder os seguintes papéis do IAM às contas de serviço no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

O administrador também pode conceder às contas de serviço as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Rede VPC

Por padrão, cada novo projeto começa com uma rede padrão. Se a rede padrão do projeto estiver desativada ou tiver sido excluída, você precisará ter uma rede no projeto em que sua conta de usuário tem o papel de usuário de rede do Compute (roles/compute.networkUser).

Carregar o pipeline de exemplo

Nesta etapa, você carrega um pipeline de exemplo que conta as palavras em Rei Lear , de Shakespeare.

  1. Acesse a página Jobs no Google Cloud console do Google Cloud.

    Acessar "Jobs"

  2. Clique em Criar job a partir do modelo.

  3. Clique em Criador de jobs.

  4. Clique em Carregar blueprints.

  5. Clique em Contagem de palavras. O criador de jobs é preenchido com uma representação gráfica do pipeline.

Para cada etapa do pipeline, o criador de jobs exibe um cartão que especifica os parâmetros de configuração correspondentes para essa etapa. Por exemplo, a primeira etapa lê arquivos de textos do Cloud Storage. O local dos dados de origem é preenchido automaticamente na caixa Local do texto.

Captura de tela do job builder

Definir o local de saída

Nesta etapa, você especifica um bucket do Cloud Storage em que o pipeline grava a saída.

  1. Localize o cartão intitulado Novo coletor. Talvez seja necessário rolar a tela.

  2. Na caixa Local do texto, clique em Procurar.

  3. Selecione o nome do bucket do Cloud Storage que você criou Antes de começar.

  4. Clique em Ver recursos filhos.

  5. Na caixa Nome do arquivo, digite words.

  6. Clique em Selecionar.

Execute o job

Cliquem em Executar job. O criador de jobs cria um job do Dataflow e depois navega até o gráfico do job. Quando o job é iniciado, o gráfico do job mostra uma representação gráfica do pipeline, semelhante à mostrada no criador de jobs. À medida que cada etapa do pipeline é executada, o status é atualizado no gráfico do job.

O painel Informações do job mostra o status geral dele. Se o job for concluído com sucesso, o campo Status do job será atualizado para Succeeded.

Examinar a saída do job

Quando o job for concluído, siga estas etapas para conferir a saída do pipeline:

  1. No Google Cloud console do, acesse a página Buckets do Cloud Storage.

    Acessar buckets

  2. Na lista de buckets, clique no nome do bucket que você criou Antes de começar.

  3. Clique no arquivo chamado words-00000-of-00001.

  4. Na página Detalhes do objeto, clique no URL autenticado para visualizar a saída do pipeline.

A saída será parecida com esta:

brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]

Liberar espaço

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

Excluir o projeto

A maneira mais fácil de eliminar o faturamento é excluir o Google Cloud projeto que você criou para o guia de início rápido.

  1. No Google Cloud console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
  3. Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

Excluir recursos individuais

Se você quiser manter o Google Cloud projeto que usou neste guia de início rápido, exclua o bucket do Cloud Storage:

  1. No Google Cloud console do, acesse a página Buckets do Cloud Storage.

    Acessar buckets

  2. Clique na caixa de seleção do bucket que você quer excluir.
  3. Para excluir o bucket, clique em Excluir e siga as instruções.

A seguir