Cette page explique comment configurer Private Service Connect dans Cloud Data Fusion.
À propos de Private Service Connect dans Cloud Data Fusion
Les instances Cloud Data Fusion peuvent avoir besoin de se connecter à des ressources situées sur site, dans Google Cloud, ou chez d'autres fournisseurs cloud. Lorsque vous utilisez Cloud Data Fusion avec des adresses IP internes, les connexions aux ressources externes sont établies via un réseau cloud privé virtuel (VPC) dans votre Google Cloud projet. Le trafic sur le réseau ne passe pas par le réseau Internet public. Lorsque Cloud Data Fusion a accès à votre réseau VPC à l'aide de l'appairage de VPC, des limites s'appliquent, qui deviennent évidentes lorsque vous utilisez des réseaux à grande échelle.
Avec les interfaces Private Service Connect, Cloud Data Fusion se connecte à votre VPC sans utiliser l'appairage de VPC. L'interface Private Service Connect est un type de Private Service Connect qui permet à Cloud Data Fusion d'établir des connexions privées et sécurisées aux réseaux VPC des clients. Cela offre non seulement la flexibilité et la facilité d'accès (comme l'appairage de VPC), mais également l'autorisation explicite et le contrôle côté client proposés par Private Service Connect.
Le schéma suivant montre comment l'interface Private Service Connect est déployée dans Cloud Data Fusion :

Figure 1 : Déploiement de l'interface Private Service Connect
Description de la figure 1 :
Les machines virtuelles (VM) exécutant Cloud Data Fusion sont hébergées dans un projet locataire appartenant à Google. Pour accéder aux ressources du VPC client, les VM Cloud Data Fusion utilisent l'adresse IP attribuée par l'interface réseau Private Service Connect, à partir du sous-réseau du client. Ce sous-réseau est ajouté au rattachement de réseau utilisé par Cloud Data Fusion.
Les paquets IP provenant de l'interface Private Service Connect sont traités de la même manière que ceux d'une VM du même sous-réseau. Cette configuration permet à Cloud Data Fusion d'accéder directement aux ressources du VPC client ou d'un VPC pair sans avoir besoin d'un proxy.
Les ressources Internet deviennent accessibles lorsque Cloud NAT est activé dans le VPC client, tandis que les ressources sur site sont accessibles via une interconnexion.
Pour gérer l'entrée ou la sortie de Private Service Connect, vous pouvez implémenter des règles de pare-feu.
Principaux avantages
Voici les principaux avantages de l'utilisation de Cloud Data Fusion avec Private Service Connect :
Meilleur contrôle de l'espace IP : vous contrôlez les adresses IP que Cloud Data Fusion utilise pour se connecter à votre réseau. Vous choisissez les sous-réseaux à partir desquels les adresses IP sont allouées à Cloud Data Fusion. Tout le trafic provenant de Cloud Data Fusion possède une adresse IP source provenant de votre sous-réseau configuré.
Private Service Connect élimine le besoin d'adresses IP réservées à partir d'un VPC client. L'appairage de VPC nécessite un bloc CIDR /22 (1 024 adresses IP) par instance Cloud Data Fusion.
Sécurité et isolation améliorées : en configurant un rattachement de réseau, vous contrôlez les services qui peuvent accéder à votre réseau.
Configuration simplifiée de l'instance Cloud Data Fusion : créez un rattachement de réseau par VPC client une seule fois. Vous n'avez pas besoin d'utiliser des VM proxy pour vous connecter à des ressources sur Internet, à des VPC pairs ou sur site.
Concepts clés
Cette section explique les concepts impliqués dans Private Service Connect dans Cloud Data Fusion.
Rattachement de réseau
Un rattachement de réseau est une ressource régionale qui permet d'autoriser Cloud Data Fusion à utiliser et à établir des connexions réseau de manière privée pour accéder aux ressources de votre VPC. Pour en savoir plus, consultez la page À propos des rattachements de réseau.
VPC partagé
Voici un cas d'utilisation des interfaces Private Service Connect avec un VPC partagé :
L'équipe réseau ou l'équipe d'infrastructure possède les sous-réseaux d'un projet hôte. Elle permet aux équipes d'application d'utiliser ces sous-réseaux à partir de leur projet de service.
Les équipes d'application possèdent les rattachements de réseau dans un projet de service. Le rattachement de réseau définit les projets locataires Cloud Data Fusion qui peuvent se connecter aux sous-réseaux associés au rattachement de réseau.
Vous pouvez créer un rattachement de réseau dans un projet de service. Les sous-réseaux utilisés dans un rattachement de réseau ne peuvent se trouver que dans le projet hôte.
Le schéma suivant illustre ce cas d'utilisation :

Figure 2 : Cas d'utilisation des interfaces Private Service Connect avec un VPC partagé
Description de la figure 2 :
Le rattachement de réseau est présent dans le projet de service. Le rattachement de réseau utilise un sous-réseau appartenant à un VPC partagé dans le projet hôte.
L'instance Cloud Data Fusion est présente dans le projet de service et utilise le rattachement de réseau du projet de service pour établir une connectivité privée.
Des adresses IP sont attribuées à l'instance Cloud Data Fusion à partir du sous-réseau du VPC partagé.
Avant de commencer
Private Service Connect n'est disponible que dans Cloud Data Fusion version 6.10.0 et ultérieure.
Vous ne pouvez activer Private Service Connect que lorsque vous créez une instance Cloud Data Fusion. Vous ne pouvez pas migrer les instances existantes pour utiliser Private Service Connect.
Tarifs
L'entrée et la sortie de données via Private Service Connect sont facturées. Pour en savoir plus, consultez les tarifs de Private Service Connect.
Rôles et autorisations requis
Pour obtenir les autorisations nécessaires pour créer une instance Cloud Data Fusion et un rattachement de réseau, demandez à votre administrateur de vous accorder les rôles Identity and Access Management (IAM) suivants dans votre projet :
- Créer une instance Cloud Data Fusion:
Administrateur Cloud Data Fusion (
roles/datafusion.admin) - Créer, afficher et supprimer des rattachements de réseau :
Administrateur de réseaux Compute (
roles/compute.networkAdmin)
Pour vous assurer que Cloud Data Fusion dispose des autorisations nécessaires pour valider
la configuration réseau, demandez à votre administrateur d'accorder les
rôles IAM suivants
à l'agent de service Cloud Data Fusion
(au format service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com)
dans votre projet :
Pour le VPC associé au rattachement de réseau : Lecteur de réseau Compute (
roles/compute.networkViewer)Pour que Cloud Data Fusion ajoute son projet locataire à la liste d'acceptation du producteur du rattachement de réseau :
compute.networkAttachments.getcompute.networkAttachments.updatecompute.networkAttachments.list
Le rôle le plus restrictif avec ces autorisations est le rôle Administrateur de réseaux Compute (
roles/compute.networkAdmin). Ces autorisations font partie du rôle Agent de service de l'API Cloud Data Fusion (roles/datafusion.serviceAgent), qui est automatiquement accordé à l'agent de service Cloud Data Fusion. Par conséquent, aucune action n'est requise, sauf si l'attribution du rôle d'agent de service a été explicitement supprimée.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur les options de contrôle des accès dans Cloud Data Fusion, consultez la section Contrôle des accès avec IAM.
Créer un réseau VPC ou un réseau VPC partagé
Assurez-vous d'avoir créé un réseau VPC ou un réseau VPC partagé.
Configurer Private Service Connect
Pour configurer Private Service Connect dans Cloud Data Fusion, vous devez d'abord créer un rattachement de réseau, puis créer une instance Cloud Data Fusion avec Private Service Connect.
Créer un rattachement de réseau
Le rattachement de réseau fournit un ensemble de sous-réseaux. Pour créer un rattachement de réseau, procédez comme suit :
Console
Dans la Google Cloud console, accédez à la page Rattachements de réseau :
Cliquez sur Créer un rattachement de réseau.
Dans le champ Nom, saisissez le nom du rattachement de réseau.
Dans la liste Réseau, sélectionnez un réseau VPC ou un réseau VPC partagé.
Dans la liste Région, sélectionnez une Google Cloud région. Cette région doit être la même que celle de l'instance Cloud Data Fusion.
Dans la liste Sous-réseau, sélectionnez une plage de sous-réseaux.
Dans Préférence de connexion, sélectionnez Accepter les connexions pour les projets sélectionnés.
Cloud Data Fusion ajoute automatiquement le projet locataire Cloud Data Fusion à la liste Projets acceptés lorsque vous créez l'instance Cloud Data Fusion.
N'ajoutez pas de projets acceptés ni de projets refusés.
Cliquez sur Créer un rattachement de réseau.

gcloud
Créez un ou plusieurs sous-réseaux. Exemple :
gcloud compute networks subnets create subnet-1 --network=network-0 --range=10.10.1.0/24 --region=REGIONLe rattachement de réseau utilise ces sous-réseaux lors des étapes suivantes.
Créez une ressource de rattachement de réseau dans la même région que l'instance Cloud Data Fusion, avec la propriété
connection-preferencedéfinie surACCEPT_MANUAL:gcloud compute network-attachments create NAME --region=REGION --connection-preference=ACCEPT_MANUAL --subnets=SUBNETRemplacez les éléments suivants :
NAME: nom de votre rattachement de réseau.REGION: nom de la Google Cloud région. Cette région doit être la même que celle de l'instance Cloud Data Fusion.SUBNET: nom du sous-réseau.
Le résultat de cette commande est une URL de rattachement de réseau au format suivant :
projects/PROJECT/locations/REGION/network-attachments/NETWORK_ATTACHMENT_ID.Notez cette URL, car Cloud Data Fusion en a besoin pour la connectivité.
API REST
Créer un rattachement de réseau :
alias authtoken="gcloud auth print-access-token" NETWORK_ATTACHMENT_NAME=NETWORK_ATTACHMENT_NAME REGION=REGION SUBNET=SUBNET PROJECT_ID=PROJECT_ID read -r -d '' BODY << EOM { "name": "$NETWORK_ATTACHMENT_NAME", "description": "Network attachment for private Cloud Data Fusion", "connectionPreference": "ACCEPT_MANUAL", "subnetworks": [ "projects/$PROJECT_ID/regions/$REGION/subnetworks/$SUBNET" ] } EOM curl -H "Authorization: Bearer $(authtoken)" \ -H "Content-Type: application/json" \ -X POST -d "$BODY" "https://compute.googleapis.com/compute/v1/projects/$PROJECT_ID/regions/$REGION/networkAttachments"Remplacez les éléments suivants :
NETWORK_ATTACHMENT_NAME: nom de votre rattachement de réseau.REGION: nom de la Google Cloud région. Cette région doit être la même que celle de l'instance Cloud Data Fusion.SUBNET: nom du sous-réseau.PROJECT_ID: ID de votre projet.
Créer une instance Cloud Data Fusion
Cloud Data Fusion utilise un bloc CIDR /25 (128 adresses IP) pour les ressources du projet locataire. Il s'agit de la plage inaccessible ou réservée. Vous pouvez utiliser les mêmes adresses IP dans les VPC, mais les VM Cloud Data Fusion ne pourront pas se connecter à vos ressources à l'aide de cette plage.
Dans la plupart des cas, cela ne pose pas de problème, car le bloc CIDR inaccessible se trouve par défaut dans une plage non RFC 1918 (240.0.0.0/8). Si vous souhaitez contrôler la plage inaccessible, consultez Configurations avancées.
Pour créer une instance Cloud Data Fusion avec Private Service Connect activé, procédez comme suit :
Console
Dans la Google Cloud console, accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une instance.
Dans le champ Nom de l'instance, saisissez le nom de la nouvelle instance.
Dans le champ Description, saisissez une description de votre instance.
Dans la liste Région, sélectionnez la Google Cloud région dans laquelle vous souhaitez créer l'instance.
Dans la liste Version, sélectionnez
6.10ou une version ultérieure.Sélectionnez une édition. Pour en savoir plus sur les tarifs des différentes éditions, consultez la présentation des tarifs de Cloud Data Fusion.
Développez Options avancées et procédez comme suit :
Sélectionnez Activer l'adresse IP privée.
Sélectionnez Private Service Connect comme type de connectivité.
Dans la section Rattachement de réseau, sélectionnez le rattachement de réseau que vous avez créé dans Créer un rattachement de réseau.
Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes.

API REST
Exécutez la commande suivante :
alias authtoken="gcloud auth print-access-token"
EDITION=EDITION
PROJECT_ID=PROJECT_ID
REGION=REGION
CDF_ID=INSTANCE_ID
NETWORK_ATTACHMENT_ID=NETWORK_ATTACHMENT_ID
read -r -d '' BODY << EOM
{
"description": "PSC enabled instance",
"version": "6.10",
"type": "$EDITION",
"privateInstance": "true",
"networkConfig": {
"connectionType": "PRIVATE_SERVICE_CONNECT_INTERFACES",
"privateServiceConnectConfig": {
"networkAttachment": "$NETWORK_ATTACHMENT_ID"
}
}
}
EOM
curl -H "Authorization: Bearer $(authtoken)" \
-H "Content-Type: application/json" \
-X POST -d "$BODY" "https://datafusion.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/instances/?instanceId=$CDF_ID"
Remplacez les éléments suivants :
EDITION: édition Cloud Data Fusion :BASIC,DEVELOPERouENTERPRISE.PROJECT_ID: ID de votre projet.REGION: nom de la Google Cloud région. Cette région doit être la même que celle de l'instance Cloud Data Fusion.INSTANCE_ID: ID de votre instance.NETWORK_ATTACHMENT_ID: ID de votre rattachement de réseau.
Configurations avancées
Pour activer le partage de sous-réseaux, vous pouvez fournir le même rattachement de réseau à plusieurs instances Cloud Data Fusion. En revanche, si vous souhaitez dédier un sous-réseau à une instance Cloud Data Fusion particulière, vous devez fournir un rattachement de réseau spécifique, qui sera utilisé par l'instance Cloud Data Fusion.
Recommandé : Pour appliquer une stratégie de pare-feu uniforme à toutes les instances Cloud Data Fusion, utilisez le même rattachement de réseau.
Si vous souhaitez contrôler le bloc CIDR /25 qui n'est pas accessible par Cloud Data Fusion, spécifiez la propriété unreachableCidrBlock lorsque vous créez l'instance. Exemple :
alias authtoken="gcloud auth print-access-token"
EDITION=EDITION
PROJECT_ID=PROJECT_ID
REGION=REGION
CDF_ID=INSTANCE_ID
NETWORK_ATTACHMENT_ID=NETWORK_ATTACHMENT_ID
UNREACHABLE_RANGE=UNREACHABLE_RANGE
read -r -d '' BODY << EOM
{
"description": "PSC enabled instance",
"version": "6.10",
"type": "$EDITION",
"privateInstance": "true",
"networkConfig": {
"connectionType": "PRIVATE_SERVICE_CONNECT_INTERFACES",
"privateServiceConnectConfig": {
"unreachableCidrBlock": "$UNREACHABLE_RANGE",
"networkAttachment": "projects/$PROJECT_ID/regions/$REGION/networkAttachments/$NETWORK_ATTACHMENT_ID"
}
}
}
EOM
curl -H "Authorization: Bearer $(authtoken)" \
-H "Content-Type: application/json" \
-X POST -d "$BODY" "https://datafusion.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/instances/?instanceId=$CDF_ID"
Remplacez les éléments suivants :
EDITION: édition Cloud Data Fusion :BASIC,DEVELOPERouENTERPRISE.PROJECT_ID: ID de votre projet.REGION: nom de la Google Cloud région. Cette région doit être la même que celle de l'instance Cloud Data Fusion.INSTANCE_ID: ID de votre instance.NETWORK_ATTACHMENT_ID: ID de votre rattachement de réseau.UNREACHABLE_RANGE: plage inaccessible, par exemple10.0.0.0/25.
Sécurité
Cette section décrit la sécurité entre Cloud Data Fusion et les clients.
Sécurité de Cloud Data Fusion pour les clients
Les interfaces Private Service Connect sont compatibles avec les règles de pare-feu de sortie pour contrôler ce à quoi Cloud Data Fusion peut accéder dans votre VPC. Pour en savoir plus, consultez Limiter l'entrée du producteur au consommateur.
Sécurité du client pour Cloud Data Fusion
Les VM Cloud Data Fusion avec interface Private Service Connect bloquent tout trafic provenant de votre VPC qui n'est pas un paquet de réponse.
Étapes pour les cas d'utilisation de la connexion
Les sections suivantes décrivent les cas d'utilisation liés à la connexion pour les instances privées.
Activer l'accès privé à Google
Pour accéder aux ressources via des adresses IP internes, Cloud Data Fusion doit créer les clusters Managed Service for Apache Spark et exécuter les pipelines de données dans un sous-réseau disposant de l'accès privé à Google. Vous devez activer l'accès privé à Google pour le sous-réseau contenant les clusters Managed Service for Apache Spark.
- Si un seul sous-réseau est présent dans la région où les clusters Managed Service for Apache Spark sont lancés, le cluster est lancé dans ce sous-réseau.
S'il existe plusieurs sous-réseaux dans une région, vous devez configurer Cloud Data Fusion pour qu'il sélectionne le sous-réseau avec l'accès privé à Google pour lancer les clusters Managed Service for Apache Spark.
Pour activer l'accès privé à Google pour le sous-réseau, consultez Configuration de l'accès privé à Google.
Facultatif : Activer l'appairage DNS
Activez l'appairage DNS dans les cas suivants :
- Lorsque Cloud Data Fusion se connecte à des systèmes via des noms d'hôte, et non des adresses IP
- Lorsque le système cible est déployé derrière un équilibreur de charge, comme dans certains déploiements SAP