Présentation de la mise en réseau Cloud Data Fusion

Cette page fournit des informations générales sur la connexion à vos sources de données depuis des instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

La mise en réseau dans Cloud Data Fusion nécessite une compréhension de base des éléments suivants :

Projet locataire

Cloud Data Fusion crée un projet locataire qui contient les ressources et les services nécessaires pour gérer des pipelines en votre nom, par exemple lorsqu'il exécute des pipelines sur les clusters Managed Service for Apache Spark qui se trouvent dans votre projet client.

Le projet locataire ne vous est pas directement exposé. Cependant, lorsque vous créez une instance privée, vous utilisez le nom du projet pour configurer l'appairage de VPC. Chaque instance privée du projet locataire dispose de son propre réseau et sous-réseau VPC.

Le projet peut comporter plusieurs instances Cloud Data Fusion. Vous gérez les ressources et les services qu'il contient lorsque vous accédez à une instance dans l'UI Cloud Data Fusion ou Google Cloud CLI.
Pour en savoir plus, consultez la documentation Service Infrastructure concernant les projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Managed Service for Apache Spark éphémère dans ce projet pour exécuter vos pipelines.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion, dans lequel vous concevez et exécutez des pipelines. Vous pouvez créer plusieurs instances dans un même projet et spécifier la région Google Cloud dans laquelle créer les instances Cloud Data Fusion. En fonction de vos besoins et des contraintes de coût, vous pouvez créer une instance qui utilise l'édition Developer, Basic ou Enterprise de Cloud Data Fusion. Chaque instance contient un déploiement Cloud Data Fusion unique et indépendant, qui comporte un ensemble de services chargés de la gestion du cycle de vie des pipelines, de l'orchestration, de la coordination et de la gestion des métadonnées. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.

Schéma réseau

Les schémas suivants illustrent les connexions lorsque vous créez des pipelines de données qui extraient, transforment, fusionnent, agrègent et chargent des données à partir de diverses sources de données sur site et dans le cloud.

Consultez les schémas de contrôle de la sortie dans une instance privée et de connexion à une source publique.

Conception et exécution de pipelines

Cloud Data Fusion fournit une séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple : Vous concevez votre pipeline à l'aide de services Cloud Data Fusion, tels que Wrangler et Aperçu. Ces services sont exécutés dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Managed Service for Apache Spark. Dans le projet client, le compte de service Compute Engine par défaut contrôle l'accès aux données. Vous pouvez configurer votre projet pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Environnement de conception

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un projet locataire distinct géré par Google pour exécuter les services requis pour gérer le cycle de vie des pipelines et des métadonnées, l'interface utilisateur Cloud Data Fusion, ainsi que des outils de conception tels qu'Aperçu et Wrangler.

Résolution DNS dans Cloud Data Fusion

Pour résoudre les noms de domaine dans votre environnement de conception lorsque vous manipulez et prévisualisez les données que vous transférez dans Google Cloud, utilisez l'appairage DNS (disponible à partir de Cloud Data Fusion 6.7.0). Il vous permet d'utiliser des noms de domaine ou d'hôte pour les sources et les récepteurs, que vous n'avez pas besoin de reconfigurer aussi souvent que les adresses IP.

La résolution DNS est recommandée dans votre environnement de conception dans Cloud Data Fusion, lorsque vous testez des connexions et prévisualisez des pipelines qui utilisent des noms de domaine de serveurs sur site ou d'autres serveurs (tels que des bases de données ou des serveurs FTP), dans un réseau VPC privé.

Pour en savoir plus, consultez Peering DNS et Transfert Cloud DNS.

Environnement d'exécution

Après avoir vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement ou en fonction d'un calendrier ou d'un déclencheur d'état.

Que l'environnement d'exécution soit provisionné et géré par Cloud Data Fusion ou par le client, l'environnement existe dans votre projet client.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes :

  • Sous-réseaux générés automatiquement pour chaque région
  • Tables de routage
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre les régions

Lorsque vous créez un projet, le réseau VPC par défaut présente l'avantage d'insérer automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée sous la forme d'un bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, dans les régions mondiales de Google Cloud .

Pour garantir que vos ressources informatiques se connectent les unes aux autres entre les régions, le réseau VPC par défaut définit les routes locales par défaut sur chaque sous-réseau. En configurant la route par défaut vers Internet (0.0.0.0/0), vous accédez à Internet et capturez le trafic réseau non acheminé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu :

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autoriser par défaut en interne Activer tcp:0-65535 ; udp:0-65535 ; icmp pour la source 10.128.0.0/9, qui couvre les adresses IP 10.128.0.1 min à 10.255.255.254 max
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau VPC par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. Pour des raisons de sécurité du réseau, les entreprises ne sont généralement pas autorisées à utiliser le réseau VPC par défaut pour des opérations commerciales. Sans le réseau VPC par défaut, vous ne pouvez pas créer d'instance publique Cloud Data Fusion. À la place, créez une instance privée.

Le réseau VPC par défaut n'accorde pas l'accès ouvert aux ressources. À la place, Identity and Access Management (IAM) contrôle l'accès :

  • Vous devez disposer d'une identité validée pour vous connecter à Google Cloud.
  • Une fois connecté, vous avez besoin d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud .

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés des adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence dans tous les types de paramètres réseau VPC.

Private Service Connect dans Cloud Data Fusion

Les instances Cloud Data Fusion peuvent avoir besoin de se connecter à des ressources situées sur site, sur Google Cloudou chez d'autres fournisseurs de services cloud. Lorsque vous utilisez Cloud Data Fusion avec des adresses IP internes, les connexions aux ressources externes sont établies sur le réseau VPC de votre projetGoogle Cloud . Le trafic sur le réseau ne passe pas par l'Internet public. Lorsque Cloud Data Fusion a accès à votre VPC à l'aide de l'appairage de réseaux VPC, des limites s'appliquent. Elles deviennent apparentes lorsque vous utilisez des réseaux à grande échelle.

Grâce aux interfaces Private Service Connect, Cloud Data Fusion se connecte à votre VPC sans utiliser l'appairage de réseaux VPC. L'interface Private Service Connect est un type de Private Service Connect qui permet à Cloud Data Fusion d'établir des connexions privées et sécurisées avec les réseaux VPC des consommateurs. Cela offre non seulement la flexibilité et la facilité d'accès (comme l'appairage de réseaux VPC), mais aussi l'autorisation explicite et le contrôle côté consommateur proposés par Private Service Connect. Pour en savoir plus, consultez Créer une instance privée avec Private Service Connect.

Accès aux données dans des environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder de manière sécurisée à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée de votre environnement d'exécution.

Accès aux sources

Pour accéder aux sources de données et aux instances publiques et privées :

  • Effectuez des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google.
  • Communiquez avec un environnement d'exécution (Managed Service pour Apache Spark) via l'appairage de VPC.

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de diverses sources de données :

Source de données Instance Cloud Data Fusion publique
(lors de la conception)
Cloud Data Fusion Managed Service pour Apache Spark public
(exécution)
Instance Cloud Data Fusion privée
(lors de la conception)
Cloud Data Fusion Managed Service pour Apache Spark privé
(exécution)
SourceGoogle Cloud
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré un VPN/l'interconnexion, accordé des autorisations et défini des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini les règles de pare-feu)

Étapes suivantes