Visão geral do Cloud Data Fusion
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Data Fusion é um serviço nativo da nuvem, totalmente gerenciado de integração de dados corporativos. Ele pode ser usado para criar e gerenciar pipelines de dados. A interface da Web do Cloud Data Fusion permite criar soluções de integração de dados escalonáveis. Ela permite que você se conecte a várias fontes de dados, transforme os dados e os transfira para vários sistemas de destino, sem precisar gerenciar a infraestrutura.
O Cloud Data Fusion usa o projeto de código aberto
CDAP.
Comece a usar o Cloud Data Fusion
Você pode começar a explorar o Cloud Data Fusion em minutos.
Os principais componentes do Cloud Data Fusion são explicados nas seções a seguir.
Projeto de locatário
O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion
e armazenar metadados de pipeline são provisionados em um projeto
de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente em que as instâncias do Cloud Data Fusion são provisionadas. O projeto de locatário herda todas as configurações de rede e de firewall do projeto do cliente.
Cloud Data Fusion: console
O console do Cloud Data Fusion, também conhecido como plano de controle, é um
conjunto de operações de API
e uma interface da Web que lidam com a instância do Cloud Data Fusion,
como criar, excluir, reiniciar e atualizar.
Cloud Data Fusion: Studio
O Cloud Data Fusion Studio, também conhecido como plano de dados, é um conjunto de
API REST e interface da Web
operações que lidam com a criação, execução e gerenciamento de pipelines e
artefatos relacionados.
Conceitos
Esta seção apresenta alguns dos principais conceitos do Cloud Data Fusion.
Uma instância do Cloud Data Fusion é uma implantação exclusiva do
Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion pelo Google Cloud console.
É possível criar várias instâncias em um único Google Cloud console
projeto e especificar a Google Cloud região em que as
instâncias do Cloud Data Fusion serão criadas.
Cada instância do Cloud Data Fusion tem uma implantação exclusiva e independente
do Cloud Data Fusion com um conjunto de serviços
que processa o gerenciamento do ciclo de vida do pipeline, a orquestração,
a coordenada e o gerenciamento de metadados. Esses serviços são executados usando
recursos de execução longa em um
projeto de locatário.
Um namespace é um agrupamento lógico de aplicativos, dados e os
metadados associados em uma instância do Cloud Data Fusion. É possível pensar
nos namespaces como uma partição da instância. Em uma única instância,
um namespace armazena os dados e metadados de uma entidade de forma independente
de outro namespace.
Um pipeline é uma maneira de projetar visualmente dados e controlar
fluxos para extrair, transformar, combinar, agregar e carregar dados de
várias fontes de dados locais e na nuvem.
A criação de pipelines permite criar fluxos de trabalho complexos de processamento de dados que podem ajudar você a resolver problemas de ingestão de dados, integração e migração de dados. É possível usar o Cloud Data Fusion para criar pipelines em lote e em tempo real, dependendo das suas necessidades.
Os pipelines permitem que você expresse os fluxos de trabalho de processamento de dados usando
o fluxo lógico de dados, enquanto o Cloud Data Fusion cuida de todas as
funcionalidades necessárias para executar fisicamente em um ambiente de execução.
Na página Studio da interface da Web do Cloud Data Fusion,
os pipelines são representados como uma série de nós organizados em um gráfico
acíclico direcionado (DAG), formando um fluxo unidirecional.
Os nós representam as várias ações que podem ser realizadas com os
pipelines, como leitura de origens, transformações de dados
e gravação de saída em coletores. É possível desenvolver pipelines de dados na interface da Web do Cloud Data Fusion conectando fontes, transformações, coletores e outros nós.
Um plug-in é um módulo personalizável que pode ser usado para ampliar os
recursos do Cloud Data Fusion.
O Cloud Data Fusion oferece plug-ins para origens, transformações,
agregações, coletores, coletores de erros, editores de alertas, ações e
ações pós-execução.
Às vezes, um plug-in é chamado de nó, geralmente no
contexto da interface da Web do Cloud Data Fusion.
Na interface da Web do Cloud Data Fusion, para navegar pelos plug-ins, pipelines de amostra
e outras integrações, clique em Hub. Quando uma nova
versão de um plug-in é lançada, ela fica visível no hub em qualquer instância
compatível. Isso se aplica mesmo que a instância tenha sido criada antes
do lançamento do plug-in.
O Cloud Data Fusion provisiona um serviço gerenciado efêmero
para cluster do Apache Spark no projeto do cliente no
início de uma execução do pipeline, executa o pipeline usando o Spark no
cluster e exclui o cluster após a conclusão do pipeline.
Como alternativa, se você gerencia o serviço gerenciado para clusters do Apache Spark
em ambientes controlados, por meio de tecnologias como o Terraform, também é possível configurar o Cloud Data Fusion para não provisionar clusters. Nesses ambientes, é possível executar pipelines em clusters atuais do serviço gerenciado para Apache Spark.
Um perfil de computação especifica como e onde um pipeline é
executado. Um perfil encapsula todas as informações necessárias para configurar e
excluir o ambiente de execução física de um pipeline.
Por exemplo, um perfil de computação inclui o seguinte:
Provisionador de execução
Recursos (memória e CPU)
Contagem mínima e máxima de nós
Outros valores
Um perfil é identificado pelo nome e precisa ser atribuído a um provisionador
e sua configuração relacionada. Um perfil pode existir no nível da instância do Cloud Data Fusion ou no nível do namespace.
O perfil de computação padrão do Cloud Data Fusion é
escalonamento automático.
Os pipelines de dados reutilizáveis no Cloud Data Fusion permitem a criação de um único pipeline que pode aplicar um padrão de integração de dados a uma variedade de casos de uso e conjuntos de dados.
Os pipelines reutilizáveis oferecem melhor capacidade de gerenciamento, definindo a maior parte de
a configuração de um pipeline no momento da execução, em vez de
codificá-lo no momento do design.
O Cloud Data Fusion oferece suporte à criação de um acionador em um pipeline de dados (chamado de pipeline downstream) para que ele seja executado na conclusão de um ou mais pipelines diferentes (chamados de pipelines upstream). Você escolhe quando o pipeline downstream é executado, por
exemplo, após uma execução bem-sucedida, falha, interrupção ou qualquer combinação disso,
durante a execução do pipeline upstream.
Os acionadores são úteis nos seguintes casos:
Limpar os dados uma vez e disponibilizá-los para
vários pipelines downstream para consumo.
Compartilhar informações, como argumentos de ambiente de execução e configurações de plug-in, entre pipelines. Isso é chamado de configuração
de payload.
Ter um conjunto de pipelines dinâmicos que podem ser executados usando os dados de
hora, dia, semana ou mês, em vez de usar um pipeline estático
que precisa ser atualizado em cada execução.
Recursos do Cloud Data Fusion
Conheça os recursos do Cloud Data Fusion:
As notas de lançamento fornecem registros de alterações de recursos, mudanças e suspensões de uso.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2026-04-15 UTC."],[],[]]