Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation de Cloud Data Fusion

Cloud Data Fusion est un service cloud natif entièrement géré d'intégration de données d'entreprise qui permet de créer et de gérer rapidement des pipelines de données. L'interface utilisateur Web de Cloud Data Fusion vous permet de créer des solutions d'intégration de données évolutives. Il vous permet de vous connecter à différentes sources de données, de les transformer, puis de les transférer vers différents systèmes de destination, sans avoir à gérer l'infrastructure.

Cloud Data Fusion s'appuie sur le projet Open Source CDAP.

Premiers pas avec Cloud Data Fusion

Vous pouvez commencer à explorer Cloud Data Fusion en quelques minutes.

Créez une instance Cloud Data Fusion : commencez par créer une instance Cloud Data Fusion.
Coût : avant de commencer votre parcours, familiarisez-vous avec les coûts de Cloud Data Fusion.
Concepts : comprenez les terminologies clés utilisées dans Cloud Data Fusion.
Guide de démarrage rapide : découvrez Cloud Data Fusion en créant votre premier pipeline.

Explorer Cloud Data Fusion

Les principaux composants de Cloud Data Fusion sont détaillés dans les sections suivantes.

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion, ainsi que pour stocker les métadonnées de pipeline, est fourni dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite de toutes les configurations de mise en réseau et de pare-feu du projet client.

Cloud Data Fusion : console

La console Cloud Data Fusion, également appelée plan de contrôle, est un ensemble d'opérations d'API et une interface Web qui gèrent l'instance Cloud Data Fusion elle-même, comme la création, la suppression, le redémarrage et la mise à jour.

Cloud Data Fusion : Studio

Cloud Data Fusion Studio, également appelé plan de données, est un ensemble d'opérations d'API REST et d'interface Web qui traitent de la création, de l'exécution et de la gestion des pipelines et des artefacts associés.

Concepts

Cette section présente quelques concepts fondamentaux de Cloud Data Fusion.

Concept	Description
Instance Cloud Data Fusion	Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion, vous devez créer une instance Cloud Data Fusion via la console Google Cloud . Vous pouvez créer plusieurs instances dans un même projet de console Google Cloud et spécifier la région Google Cloud dans laquelle créer vos instances Cloud Data Fusion. En fonction de vos besoins et des contraintes de coûts, vous pouvez créer une instance Developer, Basic ou Enterprise. Chaque instance Cloud Data Fusion contient un déploiement Cloud Data Fusion unique et indépendant contenant un ensemble de services qui gèrent le cycle de vie, l'orchestration, la coordination et la gestion des métadonnées du pipeline. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.
Espace de noms	Un espace de noms est un regroupement logique d'applications, de données et des métadonnées associées dans une instance Cloud Data Fusion. Vous pouvez considérer les espaces de noms comme un partitionnement de l'instance. Dans une instance unique, un espace de noms stocke les données et les métadonnées d'une entité indépendamment d'un autre espace de noms.
Pipeline	Un pipeline est un moyen de concevoir visuellement des données et de contrôler des flux afin d'extraire, de transformer, de fusionner, d'agréger et de charger des données à partir de diverses sources de données sur site et dans le cloud. La création de pipelines vous permet de créer des workflows de traitement de données complexes qui peuvent vous aider à résoudre les problèmes d'ingestion, d'intégration et de migration des données. Vous pouvez utiliser Cloud Data Fusion pour créer des pipelines par lot et en temps réel, en fonction de vos besoins. Les pipelines vous permettent de représenter vos workflows de traitement de données à l'aide du flux logique de données, tandis que Cloud Data Fusion gère toutes les fonctionnalités requises pour s'exécuter physiquement dans un environnement d'exécution.
Nœud de pipeline	Sur la page "Studio" de l'interface Web Cloud Data Fusion, les pipelines sont représentés sous la forme d'une série de nœuds disposés dans un graphe orienté acyclique (DAG), sous forme unidirectionnelle. Les nœuds représentent les différentes actions que vous pouvez effectuer avec vos pipelines, comme lire à partir de sources, effectuer des transformations de données et écrire des résultats dans des récepteurs. Vous pouvez développer des pipelines de données dans l'interface Web de Cloud Data Fusion en connectant des sources, des transformations, des récepteurs et d'autres nœuds.
Plug-in	Un plug-in est un module personnalisable qui peut être utilisé pour étendre les fonctionnalités de Cloud Data Fusion. Cloud Data Fusion fournit des plug-ins pour les sources, les transformations, les agrégats, les récepteurs, les collecteurs d'erreurs, les éditeurs d'alerte, les actions et les actions post-exécution. Un plug-in est parfois appelé nœud, généralement dans le contexte de l'interface Web de Cloud Data Fusion. Pour découvrir et accéder aux plug-ins Cloud Data Fusion populaires, consultez Plug-ins Cloud Data Fusion.
Hub	Dans l'interface Web de Cloud Data Fusion, cliquez sur Hub pour parcourir les plug-ins, les exemples de pipelines et les autres intégrations. Lorsqu'une nouvelle version d'un plug-in est publiée, elle est visible dans le Hub dans toute instance compatible. Cela s'applique même si l'instance a été créée avant la sortie du plug-in.
Aperçu du pipeline	Cloud Data Fusion Studio vous permet de tester la précision de la conception du pipeline à l'aide de la fonctionnalité Aperçu sur le sous-ensemble de données. Un pipeline en mode Aperçu s'exécute dans le projet locataire.
Exécution de pipeline	Cloud Data Fusion crée des environnements d'exécution éphémères pour exécuter les pipelines. Cloud Data Fusion est compatible avec Managed Service pour Apache Spark en tant qu'environnement d'exécution. Cloud Data Fusion provisionne un cluster Managed Service pour Apache Spark éphémère dans votre projet client au début de l'exécution d'un pipeline, exécute le pipeline à l'aide de Spark dans le cluster, puis supprime le cluster une fois l'exécution du pipeline terminée. Par ailleurs, si vous gérez vos clusters Managed Service pour Apache Spark dans des environnements contrôlés, grâce à des technologies telles que Terraform, vous pouvez également configurer Cloud Data Fusion pour ne pas provisionner les clusters. Dans ces environnements, vous pouvez exécuter des pipelines sur des clusters Managed Service pour Apache Spark existants.
Profil de calcul	Un profil de calcul spécifie comment et où un pipeline est exécuté. Un profil encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline. Par exemple, un profil de calcul inclut les éléments suivants : Fournisseur d'exécution Ressources (mémoire et processeur) Nombre minimal et maximal de nœuds Autres valeurs Un profil est identifié par son nom et doit être affecté à un approvisionneur ainsi qu'à la configuration associée. Un profil peut exister au niveau de l'instance Cloud Data Fusion ou au niveau de l'espace de noms. Le profil de calcul par défaut de Cloud Data Fusion est "Autoscaling" (Autoscaling).
Pipeline réutilisable	Les pipelines de données réutilisables dans Cloud Data Fusion permettent de créer un pipeline unique qui peut appliquer un modèle d'intégration de données à divers cas d'utilisation et ensembles de données. Les pipelines réutilisables offrent une meilleure gestion en définissant la majeure partie de la configuration d'un pipeline au moment de l'exécution, au lieu de la coder en dur au moment de la conception.
Déclencheur	Cloud Data Fusion permet de créer un déclencheur sur un pipeline de données (appelé pipeline en aval) pour qu'il s'exécute à la fin d'un ou de plusieurs pipelines différents (appelés pipelines en amont). Vous choisissez le moment d'exécution du pipeline en aval : en cas de réussite, d'échec ou d'arrêt de l'exécution du pipeline en amont, ou de toute combinaison de ces événements. Les déclencheurs sont utiles dans les cas suivants : Nettoyer vos données une seule fois, puis les mettre à disposition de plusieurs pipelines en aval pour utilisation. Partager des informations, telles que des arguments d'exécution et des configurations de plug-ins, entre les pipelines (on parle de configuration de la charge utile) ; Disposer d'un ensemble de pipelines dynamiques pouvant s'exécuter à l'aide des données de l'heure, du jour, de la semaine ou du mois, au lieu d'un pipeline statique qui doit être mis à jour à chaque exécution.

Ressources Cloud Data Fusion

Explorez les ressources Cloud Data Fusion :

Les notes de version fournissent des journaux des modifications des fonctionnalités, des changements et des abandons.
Tarifs de Cloud Data Fusion
Régions compatibles pour Cloud Data Fusion
API et documentation de référence

Étapes suivantes

Consultez les cas d'utilisation de Cloud Data Fusion.
Créez une instance Cloud Data Fusion.
Suivez un tutoriel.