Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Descripción general de Cloud Data Fusion

Cloud Data Fusion es un servicio de integración de datos empresariales nativo de la nube y completamente administrado para compilar y administrar canalizaciones de datos con rapidez. La interfaz web de Cloud Data Fusion te permite compilar soluciones de integración de datos escalables. Te permite conectarte a varias fuentes de datos, transformar los datos y, luego, transferirlos a varios sistemas de destino, sin tener que administrar la infraestructura.

Cloud Data Fusion se basa en el proyecto de código abierto CDAP.

Comienza a usar Cloud Data Fusion

Puedes comenzar a explorar Cloud Data Fusion en minutos.

Crea una instancia de Cloud Data Fusion: Para comenzar, crea una instancia de Cloud Data Fusion.
Costo: Antes de comenzar tu recorrido, familiarízate con los costos de Cloud Data Fusion.
Conceptos: Comprende la terminología clave que se usa en Cloud Data Fusion.
Guía de inicio rápido: Experimenta Cloud Data Fusion creando tu primera canalización.

Explora Cloud Data Fusion

Los componentes principales de Cloud Data Fusion se explican en las siguientes secciones.

Proyecto de usuario

El conjunto de servicios necesarios para compilar y organizar canalizaciones de Cloud Data Fusion y almacenar metadatos de canalización se aprovisiona en un proyecto de usuario, dentro de una unidad de usuario. Se crea un proyecto de usuario independiente para cada proyecto de cliente en el que se aprovisionan instancias de Cloud Data Fusion. El proyecto de usuario hereda todas las configuraciones de red y firewall del proyecto del cliente.

Cloud Data Fusion: Consola

La consola de Cloud Data Fusion, también conocida como plano de control, es un conjunto de operaciones de API y una interfaz web que se encargan de la instancia de Cloud Data Fusion en sí, como crearla, borrarla, reiniciarla y actualizarla.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, también conocido como plano de datos, es un conjunto de operaciones de API de REST y de interfaz web que se encargan de la creación, la ejecución y la administración de canalizaciones y artefactos relacionados.

Conceptos

En esta sección, se presentan algunos de los conceptos principales de Cloud Data Fusion.

Concepto	Descripción
Instancia de Cloud Data Fusion	Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para comenzar a usar Cloud Data Fusion, crea una instancia de Cloud Data Fusion a través de la Google Cloud consola. Puedes crear varias instancias en un solo proyecto de la consola de Google Cloud y especificar la región de Google Cloud para crear tus instancias de Cloud Data Fusion. Según tus requisitos y restricciones de costos, puedes crear una instancia de Desarrollador, básica o empresarial. Cada instancia de Cloud Data Fusion contiene una implementación independiente y única de Cloud Data Fusion que incluye un conjunto de servicios que controlan la administración del ciclo de vida de las canalizaciones, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan con recursos de larga duración en un proyecto de usuario.
Espacio de nombres	Un espacio de nombres es una agrupación lógica de aplicaciones, datos y los metadatos asociados en una instancia de Cloud Data Fusion. Puedes considerar los espacios de nombres como una partición de la instancia. En una sola instancia, un espacio de nombres almacena los datos y los metadatos de una entidad de forma independiente de otro espacio de nombres.
Canalización	Una canalización es una forma de diseñar visualmente datos y flujos de control para extraer, transformar, combinar, agregar y cargar datos de varias fuentes de datos locales y en la nube. La compilación de canalizaciones te permite crear flujos de trabajo de procesamiento de datos complejos que pueden ayudarte a resolver problemas de transferencia, integración y migración de datos. Puedes usar Cloud Data Fusion para compilar canalizaciones por lotes y en tiempo real, según tus necesidades. Las canalizaciones te permiten expresar tus flujos de trabajo de procesamiento de datos a través del flujo lógico de datos, mientras que Cloud Data Fusion controla toda la funcionalidad necesaria para ejecutarse de forma física en un entorno de ejecución.
Nodo de canalización	En la página Studio de la interfaz web de Cloud Data Fusion, las canalizaciones se representan como una serie de nodos organizados en un grafo acíclico dirigido (DAG), que forman un flujo unidireccional. Los nodos representan las diversas acciones que puedes realizar con tus canalizaciones, como leer de fuentes, realizar transformaciones de datos y escribir resultados en receptores. Puedes desarrollar canalizaciones de datos en la interfaz web de Cloud Data Fusion conectando fuentes, transformaciones, receptores y otros nodos.
Complemento	Un complemento es un módulo personalizable que se puede usar para extender las capacidades de Cloud Data Fusion. Cloud Data Fusion proporciona complementos para fuentes, transformaciones, agregados, receptores, recopiladores de errores, publicadores de alertas, acciones y acciones posteriores a la ejecución. En ocasiones, se hace referencia a un complemento como un nodo, en general en el contexto de la interfaz web de Cloud Data Fusion. Para descubrir y acceder a los complementos populares de Cloud Data Fusion, consulta Complementos de Cloud Data Fusion.
Centro	En la interfaz web de Cloud Data Fusion, haz clic en Hub para explorar los complementos, las canalizaciones de muestra y otras integraciones. Cuando se lanza una nueva versión de un complemento, esta se puede ver en el Hub en cualquier instancia compatible. Esto se aplica incluso si la instancia se creó antes del lanzamiento del complemento.
Vista previa de la canalización	Cloud Data Fusion Studio te permite probar la precisión del diseño de la canalización con la función Vista previa en el subconjunto de datos. Una canalización en versión preliminar se ejecuta en el proyecto del usuario.
Ejecución de la canalización	Cloud Data Fusion crea entornos de ejecución efímeros para ejecutar canalizaciones. Cloud Data Fusion admite Managed Service para Apache Spark como un entorno de ejecución Cloud Data Fusion aprovisiona un clúster efímero de Managed Service para Apache Spark en tu proyecto de cliente al comienzo de la ejecución de una canalización, ejecuta la canalización con Spark en el clúster y, luego, borra el clúster después de que se completa la ejecución de la canalización. De manera alternativa, si administras tus clústeres de Managed Service para Apache Spark en entornos controlados, a través de tecnologías como Terraform, también puedes configurar Cloud Data Fusion para no aprovisionar clústeres. En esos entornos, puedes ejecutar canalizaciones en clústeres existentes de Managed Service para Apache Spark.
Perfil de procesamiento	Un perfil de procesamiento especifica cómo y dónde se ejecuta una canalización. Un perfil encapsula la información requerida para configurar y borrar el entorno de ejecución físico de una canalización. Por ejemplo, un perfil de procesamiento incluye lo siguiente: Aprovisionador de ejecución Recursos (memoria y CPU) Cantidad mínima y máxima de nodos Otros valores Un perfil se identifica por nombre y se le debe asignar un aprovisionador y su configuración relacionada. Un perfil puede existir a nivel de la instancia de Cloud Data Fusion o a nivel del espacio de nombres. El perfil de procesamiento predeterminado de Cloud Data Fusion es Autoscaling.
Canalización reutilizable	Las canalizaciones de datos reutilizables en Cloud Data Fusion permiten crear una sola canalización que puede aplicar un patrón de integración de datos a una variedad de casos de uso y conjuntos de datos. Las canalizaciones reutilizables brindan una mejor capacidad de administración, ya que establecen la mayor parte de la configuración de una canalización en el tiempo de ejecución, en lugar de codificarla de forma rígida en el tiempo de diseño.
Activador	Cloud Data Fusion admite la creación de un activador en una canalización de datos (llamada canalización downstream) para que se ejecute cuando se complete una o más canalizaciones diferentes (llamadas canalizaciones upstream). Puedes elegir cuándo se ejecuta la canalización downstream, por ejemplo, cuando la canalización upstream se ejecuta de forma correcta, falla, se detiene o cualquier combinación de estas. Los activadores son útiles en los siguientes casos: Limpiar tus datos una vez y, luego, hacer que estén disponibles para que los consuman varias canalizaciones descendentes Compartir información, como argumentos de entorno de ejecución y configuraciones de complementos, entre canalizaciones. Esto se llama configuración de carga útil. Tener un conjunto de canalizaciones dinámicas que se puedan ejecutar con los datos de la hora, el día, la semana o el mes, en lugar de usar una canalización estática que se debe actualizar en cada ejecución

Recursos de Cloud Data Fusion

Explora los recursos de Cloud Data Fusion:

Las notas de la versión proporcionan registros de cambios de funciones, cambios y bajas.
Precios de Cloud Data Fusion
Regiones admitidas para Cloud Data Fusion
API y referencia

¿Qué sigue?

Consulta los casos de uso de Cloud Data Fusion.
Crea una instancia de Cloud Data Fusion.
Lee un instructivo.