Cette page explique comment créer une instance Cloud Data Fusion avec une adresse IP interne. Vous créez l'instance dans un réseau VPC ou un réseau VPC partagé.
Une instance Cloud Data Fusion privée présente les avantages suivants :
Les connexions à l'instance sont établies sur un réseau VPC privé dans votre projet Google Cloud . Le trafic sur le réseau ne passe pas par l'Internet public.
L'instance peut se connecter à vos ressources sur site, telles que des bases de données relationnelles, car votre réseau sur site se connecte au réseau VPC privéGoogle Cloud via Cloud VPN ou Cloud Interconnect. Vous pouvez accéder de manière sécurisée à vos ressources sur site, telles que des bases de données, en passant par le réseau privé sans ouvrir l'accès à Google Cloud.
Objectifs
- Configurez le réseau VPC ou le réseau VPC partagé.
- Allouez une plage d'adresses IP qui sera utilisée pour déployer l'instance Cloud Data Fusion dans le projet locataire.
- Créez l'instance privée Cloud Data Fusion.
- Configurez l'appairage de réseaux VPC entre le VPC contenant l'instance Cloud Data Fusion et celui contenant le projet locataire associé.
- Pour les réseaux VPC partagés, configurez les autorisations IAM (Identity and Access Management).
- Si votre instance privée utilise Cloud Data Fusion version 6.2.0 ou antérieure, créez une règle de pare-feu.
- Permettez à différents services Google Cloud de communiquer en interne en activant l'accès privé à Google sur le sous-réseau Managed Service pour Apache Spark.
Avant de commencer
- Pour en savoir plus sur l'architecture de déploiement de Cloud Data Fusion, consultez Mise en réseau.
Configurer le réseau VPC
Si vous ne l'avez pas déjà fait, créez un réseau VPC ou un réseau VPC partagé.
Pour configurer votre réseau VPC, vous devez allouer une plage d'adresses IP.
Allouer une plage d'adresses IP
Réseau VPC
Si vous n'utilisez pas de réseau VPC partagé, Cloud Data Fusion alloue une plage d'adresses IP par défaut lorsque vous créez une instance.
Réseau VPC partagé
Pour utiliser un VPC partagé, vous devez allouer une plage d'adresses IP à votre instance Cloud Data Fusion.
Pour allouer une plage d'adresses IP à votre instance Cloud Data Fusion, procédez comme suit :
Dans la console Google Cloud , accédez à la page Réseaux VPC.
Dans la colonne Nom, cliquez sur le réseau VPC dans lequel vous souhaitez créer une instance Cloud Data Fusion privée.
La page Détails du réseau VPC s'ouvre.
Cliquez sur Connexion de service privé. Si vous y êtes invité, activez l'API Service Networking en cliquant sur Activer l'API.

Cliquez sur Allouer une plage d'adresses IP.
Attribuez un nom à votre plage d'adresses IP.
Pour Plage d'adresses IP, cliquez sur Automatique.
Spécifiez une taille de préfixe de
22.Cliquez sur Allouer.

Créer une instance privée
Créez l'instance Cloud Data Fusion privée dans un réseau VPC ou un réseau VPC partagé.
Réseau VPC
Pour créer l'instance dans un réseau VPC, utilisez la consoleGoogle Cloud ou cURL.
Si vous utilisez la console Google Cloud pour créer votre instance privée, Cloud Data Fusion attribue la plage d'adresses IP/22 par défaut. Pour choisir une autre plage d'adresses IP, vous devez utiliser la commande cURL.
Console
Accédez à la page Créer une instance Data Fusion.
Saisissez un nom et une description pour votre instance.
Sélectionnez la région dans laquelle créer l'instance.
Sélectionnez une version et une édition Cloud Data Fusion.
Spécifiez le compte de service Managed Service pour Apache Spark à utiliser pour exécuter votre pipeline Cloud Data Fusion dans Managed Service pour Apache Spark. Le compte Compute Engine par défaut est présélectionné.
Développez le menu Options avancées, puis cliquez sur Activer l'adresse IP privée.
Dans le champ Réseau, sélectionnez un réseau dans lequel créer l'instance.
Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes.
cURL
Pour plus de commodité, vous pouvez exporter les variables suivantes ou remplacer directement ces valeurs dans les commandes suivantes :
export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com
Pour créer l'instance, appelez sa méthode create() :
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Remplacez les éléments suivants :
INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit obtenir.NETWORK_NAME: nom du réseau VPC dans lequel vous souhaitez créer votre instance privée.IP_RANGE: plage d'adresses IP que vous avez allouée. Pour trouver la plage d'adresses IP dans la consoleGoogle Cloud , accédez à Détails du réseau VPC > Connexion au service privé > Plage d'adresses IP interne .
Réseau VPC partagé
Pour créer votre instance dans un réseau VPC partagé, utilisez cURL et non la consoleGoogle Cloud .
cURL
Pour plus de commodité, vous pouvez exporter les variables suivantes. Vous pouvez également remplacer ces valeurs directement dans les commandes suivantes :
export PROJECT=PROJECT_ID export LOCATION=REGION export DATA_FUSION_API_NAME=datafusion.googleapis.com
Pour créer l'instance, appelez sa méthode create() :
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Remplacez les éléments suivants :
INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit obtenir.SHARED_VPC_HOST_PROJECT_ID: ID du projet qui héberge le réseau VPC partagé.NETWORK_NAME: nom du réseau VPC dans lequel vous souhaitez créer l'instance privée.IP_RANGE: plage d'adresses IP que vous avez allouée. Pour trouver la plage d'adresses IP dans la console Google Cloud , accédez à la page Détails du réseau VPC > Connexion au service privé > Plage d'adresses IP interne.
Configurer l'appairage de réseaux VPC
Les services Cloud Data Fusion que vous utilisez dans votre environnement de conception (par exemple, Wrangler, le gestionnaire de connexions et la validation de schéma) initient des connexions réseau du VPC du projet locataire aux systèmes sources. Cloud Data Fusion utilise l'appairage de réseaux VPC pour établir la connectivité réseau avec le VPC ou le VPC partagé contenant votre instance. L'appairage de réseaux VPC permet à Cloud Data Fusion d'accéder aux ressources de votre réseau à l'aide d'adresses IP internes, en utilisant votre propre VPC et ses contrôles. Pour vous connecter à une ressource dans un autre réseau, consultez les étapes à suivre pour les cas d'utilisation des connexions.
La section suivante explique comment créer une configuration d'appairage entre votre réseau et le réseau du projet locataire Cloud Data Fusion.
Obtenir l'ID du projet locataire
Pour créer une configuration d'appairage, vous avez besoin de l'ID du projet locataire.
Accédez à la page Instances de Cloud Data Fusion.
Dans la colonne Nom de l'instance, sélectionnez l'instance.
Sur la page Détails de l'instance, copiez l'ID du projet locataire, qui est requis lorsque vous créez une connexion d'appairage lors des étapes suivantes.
Créer une connexion d'appairage
Accédez à la page Appairage de réseaux VPC.
Cliquez sur Créer une connexion > Continuer.
Sur la page Créer une connexion d'appairage qui s'ouvre, procédez comme suit :
- Saisissez le nom de votre connexion d'appairage.
- Sous Votre réseau VPC, sélectionnez le réseau qui contient votre instance Cloud Data Fusion.
- Pour Réseau VPC appairé, sélectionnez Dans un autre projet.
- Pour ID du projet, saisissez l'ID du projet locataire que vous avez trouvé précédemment dans ce tutoriel.
Pour Nom du réseau VPC, sélectionnez un réseau ou saisissez INSTANCE_REGION-INSTANCE_ID.
Remplacez les éléments suivants :
- INSTANCE_REGION : région dans laquelle vous avez créé votre instance Cloud Data Fusion.
- INSTANCE_ID : ID de votre instance Cloud Data Fusion.
Sélectionnez la version du protocole Internet pour que la connexion d'appairage échange des routes IPv4 et IPv6 entre votre réseau VPC et le réseau VPC appairé. Pour en savoir plus, consultez Appairage de réseaux VPC.
Sélectionnez Exporter les routes personnalisées pour que les routes personnalisées puissent être exportées de votre réseau VPC vers le réseau VPC du locataire.
Indiquez si vous souhaitez autoriser l'importation ou l'exportation de routes de sous-réseau avec une adresse IPv4 publique dans votre réseau VPC.
Cliquez sur Créer.
L'appairage de réseaux VPC devient actif peu de temps après sa création.
Configurer les autorisations IAM
Réseau VPC
Ignorez cette étape et passez à Créer une règle de pare-feu.
Réseau VPC partagé
Si vous créez votre instance Cloud Data Fusion dans un réseau VPC partagé, vous devez accorder le rôle Utilisateur du réseau Compute aux comptes de service suivants. Pour accorder des autorisations sur tous les sous-réseaux, attribuez le rôle au projet hôte du VPC partagé.
Pour contrôler davantage l'accès, attribuez plutôt le rôle à un sous-réseau spécifique et le rôle Lecteur de réseau sur le projet hôte.
- Compte de service Cloud Data Fusion :
service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com - Compte de service Managed Service pour Apache Spark :
service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com
PROJECT_NUMBER correspond au numéro du projetGoogle Cloud qui contient votre instance Cloud Data Fusion.
Pour en savoir plus, consultez Accorder l'accès aux comptes de service requis.
Créer une règle de pare-feu
Sur votre réseau VPC, créez une règle de pare-feu autorisant les connexions SSH entrantes de la plage d'adresses IP que vous avez spécifiée lors de la création de votre instance Cloud Data Fusion privée.
Cette étape est obligatoire pour les versions de Cloud Data Fusion antérieures à la version 6.2.0. Il permet la communication entre Cloud Data Fusion et les clusters Managed Service pour Apache Spark exécutant des pipelines.
Vous pouvez créer la règle de pare-feu à l'aide de la console Google Cloud ou à l'aide de la CLI gcloud.
Console
Consultez la section Créer des règles de pare-feu.
gcloud
Exécutez la commande ci-dessous.
gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID
Remplacez les éléments suivants :
FIREWALL_NAME: nom de la règle de pare-feu à créer.IP_RANGE: plage d'adresses IP que vous avez attribuée.NETWORK_NAME: nom du réseau auquel la règle de pare-feu est associée. Il s'agit du nom du réseau VPC dans lequel vous avez créé l'instance privée.PROJECT_ID: ID du projet qui héberge le réseau VPC.
Étapes pour les cas d'utilisation de la connexion
Les sections suivantes décrivent les cas d'utilisation liés à la connexion pour les instances privées.
Activer l'accès privé à Google
Pour accéder aux ressources à l'aide d'adresses IP internes, Cloud Data Fusion doit créer les clusters Managed Service pour Apache Spark et exécuter les pipelines de données dans un sous-réseau disposant de l'accès privé à Google. Vous devez activer l'accès privé à Google pour le sous-réseau contenant les clusters Managed Service pour Apache Spark.
- Si un seul sous-réseau est présent dans la région où les clusters Managed Service pour Apache Spark sont lancés, le cluster est lancé dans ce sous-réseau.
S'il existe plusieurs sous-réseaux dans une région, vous devez configurer Cloud Data Fusion pour qu'il sélectionne le sous-réseau avec accès privé à Google afin de lancer des clusters Managed Service pour Apache Spark.
Pour activer l'accès privé à Google pour le sous-réseau, consultez Configuration de l'accès privé à Google.
Facultatif : Se connecter à d'autres sources
Une fois que vous avez créé une instance privée dans Cloud Data Fusion, vous pouvez vous connecter à d'autres sources, par exemple dans les cas d'utilisation suivants :
- Bases de données et systèmes sur site s'exécutant dans d'autres réseaux VPC
- Autres services Google Cloud s'exécutant dans leur propre réseau en mode privé, tels que Cloud SQL
- Sources sur l'Internet public
Facultatif : Activer l'appairage DNS
Activez l'appairage DNS dans les cas suivants :
- Lorsque Cloud Data Fusion se connecte à des systèmes via des noms d'hôte et non des adresses IP
- Lorsque le système cible est déployé derrière un équilibreur de charge, comme c'est le cas dans certains déploiements SAP
Étapes suivantes
- En savoir plus sur les concepts de sécurité dans Cloud Data Fusion
- Découvrez comment vous connecter à des ressources dans des réseaux externes.
- Familiarisez-vous avec d'autres concepts et fonctionnalités clés de Cloud Data Fusion.
- Consultez les tarifs de Cloud Data Fusion.