Implantar e executar pipelines

Esta página descreve os conceitos básicos sobre como implantar e executar pipelines no Cloud Data Fusion.

Implantar canais

Depois de terminar de projetar e depurar um pipeline de dados e ficar satisfeito com os dados mostrados na visualização, você poderá implantar o pipeline.

Ao implantar o pipeline, o Cloud Data Fusion Studio cria o fluxo de trabalho e os jobs correspondentes do Apache Spark em segundo plano.

Executar pipelines

Depois de implantar um pipeline, você poderá executá-lo das seguintes maneiras:

  • Para executar um pipeline sob demanda, abra um pipeline implantado e clique em Executar.
  • Para programar a execução do pipeline em um determinado horário, abra um pipeline implantado e clique em Programar.
  • Para acionar o pipeline com base na conclusão de outro pipeline, abra um pipeline implantado e clique em Acionadores de entrada.

O Pipeline Studio salva o histórico de um pipeline sempre que ele é executado. É possível alternar entre diferentes versões de ambiente de execução do pipeline.

Se o pipeline tiver macros, defina os argumentos de ambiente de execução para cada macro. Também é possível revisar e alterar as configurações do pipeline antes de executar o pipeline implantado. Você pode conferir a mudança de status durante as fases da execução do pipeline, como Provisionamento, Iniciando, Em execução e Concluído. Também é possível interromper o pipeline a qualquer momento.

Se você ativar a instrumentação, poderá explorar as métricas geradas pelo pipeline clicando em Propriedades em qualquer nó do pipeline, como uma origem, transformação ou coletor.

Para mais informações sobre as execuções de pipeline, clique em Resumo.

Ver registros de execução

Depois que uma execução de pipeline é concluída, é possível conferir o registro de execução. Por padrão, é possível conferir os registros de execução dos últimos 30 dias. O Cloud Data Fusion os exclui após esse período. É possível estender esse período usando a API REST.

API REST

Para reter registros de execução por mais de 30 dias, atualize as opções app.run.records.ttl usando o seguinte comando:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Substitua:

  • PROJECT_NAME: o Google Cloud nome do projeto
  • REGION_NAME: a região da instância do Cloud Data Fusion, por exemplo, us-east4
  • INSTANCE_NAME: o ID da instância do Cloud Data Fusion
  • DAYS: quantidade de tempo, em dias, para reter registros de execução de execuções de pipeline antigas, por exemplo, 30.
  • HOURS: frequência, em horas, para verificar e excluir registros de execução antigos, por exemplo, 24.

Exemplo:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

A seguir