Esta página descreve os princípios básicos sobre a implementação e a execução de pipelines no Cloud Data Fusion.
Implemente pipelines
Depois de terminar a conceção e a depuração de um pipeline de dados e ficar satisfeito com os dados apresentados na pré-visualização, pode implementar o pipeline.
Quando implementa o pipeline, o Cloud Data Fusion Studio cria o fluxo de trabalho e as tarefas do Apache Spark correspondentes em segundo plano.
Executar pipelines
Depois de implementar um pipeline, pode executá-lo das seguintes formas:
- Para executar um pipeline a pedido, abra um pipeline implementado e clique em Executar.
- Para agendar a execução do pipeline a uma determinada hora, abra um pipeline implementado e clique em Agendar.
- Para acionar o pipeline com base na conclusão de outro pipeline, abra um pipeline implementado e clique em Acionadores recebidos.
O Pipeline Studio guarda o histórico de um pipeline sempre que é executado. Pode alternar entre diferentes versões de tempo de execução do pipeline.
Se o pipeline tiver macros, defina os argumentos de tempo de execução para cada macro. Também pode rever e alterar as configurações do pipeline antes de executar o pipeline implementado. Pode ver a alteração do estado durante as fases da execução do pipeline, como Aprovisionamento, Início, Execução e Concluído. Também pode parar o pipeline em qualquer altura.
Se ativar a instrumentação, pode explorar as métricas geradas pelo pipeline clicando em Propriedades em qualquer nó no pipeline, como uma origem, uma transformação ou um destino.
Para mais informações sobre as execuções do pipeline, clique em Resumo.
Veja os registos de execuções
Depois de uma execução do pipeline ser concluída, pode ver o registo de execução. Por predefinição, pode ver os registos de execuções dos últimos 30 dias. O Cloud Data Fusion elimina-os após esse período. Pode prolongar esse período através da API REST.
API REST
Para reter registos de execuções durante mais de 30 dias, atualize as app.run.records.ttl
opções através do seguinte comando:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Substitua o seguinte:
PROJECT_NAME
: o Google Cloud nome do projetoREGION_NAME
: a região da instância do Cloud Data Fusion, por exemplo,us-east4
INSTANCE_NAME
: o ID da instância do Cloud Data FusionDAYS
: quantidade de tempo, em dias, para reter registos de execuções de execuções de pipelines antigas, por exemplo,30
.HOURS
: frequência, em horas, para verificar e eliminar registos de execução antigos. Por exemplo,24
.
Exemplo:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
O que se segue?
- Saiba mais sobre as configurações de pipeline.