Connecteur Cloud Storage

La bibliothèque Java Open Source du connecteur Cloud Storage vous permet d'exécuter des tâches Apache Hadoop ou Apache Spark directement sur des données dans Cloud Storage.

Avantages du connecteur Cloud Storage

Accès direct aux données : stockez vos données dans Cloud Storage et accédez-y directement. Vous n'avez pas besoin de les transférer dans HDFS.
Compatibilité HDFS : accédez à vos données dans Cloud Storage en utilisant le préfixe gs:// au lieu de hdfs://.
Interopérabilité : le stockage de données dans Cloud Storage permet une interopérabilité transparente entre les services Spark, Hadoop et Google.
Accessibilité des données : contrairement à HDFS, lorsque vous arrêtez un cluster Hadoop, vous avez toujours accès à vos données dans Cloud Storage.
Disponibilité élevée des données : la disponibilité des données stockées dans Cloud Storage est élevée, et elles sont répliquées à l'échelle mondiale sans perte de performance.
Pas de surcharge de la gestion du stockage : contrairement à HDFS, Cloud Storage ne nécessite pas de maintenance périodique, telle que la vérification, la mise à niveau ou le rollback vers une version précédente du système de fichiers, etc.
Démarrage rapide : dans HDFS, une tâche MapReduce ne peut pas être lancée tant que NameNode n'est pas en mode sans échec. Ce processus peut durer de quelques secondes à plusieurs minutes en fonction de la taille et de l'état de vos données. Avec Cloud Storage, vous pouvez exécuter la tâche dès le démarrage des nœuds de tâche, ce qui permet de réaliser des économies considérables au fil du temps.

Configurer le connecteur sur les clusters Dataproc

Le connecteur Cloud Storage est installé par défaut sur tous les nœuds de cluster Dataproc dans le répertoire /usr/local/share/google/dataproc/lib/. Les sous-sections suivantes décrivent les étapes à suivre pour terminer la configuration du connecteur sur les clusters Dataproc.

Compte de service de VM

Lorsque vous exécutez le connecteur sur des nœuds de cluster Dataproc et d'autres VM Compute Engine, la propriété google.cloud.auth.service.account.enable est définie sur false par défaut. Cela signifie que vous n'avez pas besoin de configurer les identifiants du compte de service de la VM pour le connecteur. Les identifiants du compte de service de la VM sont fournis par le serveur de métadonnées de la VM.

Le compte de service de VM Dataproc doit être autorisé à accéder à votre bucket Cloud Storage.

Si vous utilisez un compte de service personnalisé avec un cluster de tâches Spark 2.2 : si vous sélectionnez un compte de service personnalisé lors de la création d'un cluster de version d'image Dataproc 2.2 auquel vous envoyez des tâches Spark, et si vos tâches Spark lisent ou écrivent des données dans Cloud Storage, ajoutez la configuration suivante (en gras) à votre code de création de session Spark pour éviter les problèmes d'autorisation pouvant entraîner l'échec des tâches :

spark = SparkSession.builder \
.appName(appName) \
.config("fs.gs.auth.type", "SERVICE_ACCOUNT_JSON_KEYFILE") \
.config("fs.gs.auth.service.account.json.keyfile", "path/to/your/keyfile.json") \
.getOrCreate()

Pour vérifier que les autorisations sont correctement définies, assurez-vous que le compte de service personnalisé dispose des autorisations storage.objects.get et storage.objects.create :

Afficher l'accès actuel pour lister les rôles accordés au compte de service personnalisé.
Recherchez un rôle ou une autorisation pour consulter les autorisations associées à un rôle.

Versions de connecteurs sélectionnées par l'utilisateur

Les versions par défaut du connecteur Cloud Storage utilisées dans les dernières images installées sur les clusters Dataproc sont listées sur les pages des versions d'image. Si votre application dépend d'une version de connecteur non définie par défaut déployée sur votre cluster, vous pouvez effectuer l'une des actions suivantes pour utiliser la version de connecteur de votre choix :

Créez un cluster avec l'option --metadata=GCS_CONNECTOR_VERSION=x.y.z, qui met à jour le connecteur utilisé par les applications s'exécutant sur le cluster vers la version de connecteur spécifiée.
Incluez et déplacez les classes et les dépendances du connecteur pour la version que vous utilisez dans le fichier JAR de votre application. La relocalisation est nécessaire pour éviter un conflit entre la version de connecteur que vous avez déployée et la version de connecteur par défaut installée sur le cluster Dataproc. Consultez également l'exemple de relocalisation des dépendances Maven.

Configurer le connecteur sur des clusters autres que Dataproc

Vous pouvez suivre les étapes ci-dessous pour configurer le connecteur Cloud Storage sur un cluster autre que Dataproc, tel qu'un cluster Apache Hadoop ou Spark que vous utilisez pour transférer des données HDFS sur site vers Cloud Storage.

Téléchargez le connecteur.
- Pour télécharger le connecteur Cloud Storage :
  - Pour utiliser une version latest située dans un bucket Cloud Storage (l'utilisation d'une version latest n'est pas recommandée pour les applications de production) :
  - Pour utiliser une version spécifique de votre bucket Cloud Storage, remplacez les versions du connecteur Hadoop et Cloud Storage dans le modèle de nom gcs-connector-HADOOP_VERSION-CONNECTOR_VERSION.jar, par exemple gs://hadoop-lib/gcs/gcs-connector-hadoop2-2.1.1.jar.
  - Pour utiliser une version spécifique du dépôt Apache Maven, téléchargez un fichier JAR ombré dont le nom contient le suffixe -shaded.
Installez le connecteur.

Suivez les instructions GitHub pour installer, configurer et tester le connecteur Cloud Storage.

Utilisation des connecteurs

Vous pouvez utiliser le connecteur pour accéder aux données Cloud Storage de différentes manières :

Dans une application Spark, PySpark ou Hadoop avec le préfixe gs://
Dans un shell Hadoop avec hadoop fs -ls gs://bucket/dir/file
Dans le navigateur Cloud Storage Dans la console Google Cloud
Utilisez les commandes du SDK Google Cloud, par exemple :
- gcloud storage cp
- gcloud storage rsync

Utilisation de Java

Java 8 est indispensable au fonctionnement du connecteur Cloud Storage.

Vous trouverez ci-dessous un exemple de section de gestion des dépendances POM Maven pour le connecteur Cloud Storage. Pour en savoir plus, consultez Gestion des dépendances.

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
</dependency>

Pour une version ombrée :

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
    <classifier>shaded</classifier>
</dependency>

Compatibilité des connecteurs

Le connecteur Cloud Storage est compatible avec Google Cloud pour une utilisation avec les produits et cas d'utilisationGoogle Cloud . Lorsqu'il est utilisé avec Dataproc, il bénéficie du même niveau d'assistance que celui-ci. Pour en savoir plus, consultez Obtenir de l'aide.

Se connecter à Cloud Storage à l'aide de gRPC

Par défaut, le connecteur Cloud Storage sur Dataproc utilise l'API JSON Cloud Storage. Cette section vous explique comment activer le connecteur Cloud Storage pour utiliser gRPC.

Informations concernant l'utilisation

L'utilisation du connecteur Cloud Storage avec gRPC implique les considérations suivantes :

Emplacement régional du bucket : le gRPC ne peut améliorer les latences de lecture que lorsque les VM Compute Engine et les buckets Cloud Storage se trouvent dans la même région Compute Engine.
Tâches à forte intensité de lecture : gRPC peut améliorer les latences de lecture pour les lectures de longue durée et peut aider les charges de travail à forte intensité de lecture. Il n'est pas recommandé pour les applications qui créent un canal gRPC, exécutent un calcul court, puis ferment le canal.
Requêtes non authentifiées : gRPC n'accepte pas les requêtes non authentifiées.

Conditions requises

Les exigences suivantes s'appliquent lorsque vous utilisez gRPC avec le connecteur Cloud Storage :

Le réseau VPC de votre cluster Dataproc doit être compatible avec la connectivité directe. Cela signifie que les routes et les règles de pare-feu du réseau doivent autoriser le trafic sortant à atteindre 34.126.0.0/18 et 2001:4860:8040::/42.
- Si votre cluster Dataproc utilise la mise en réseau IPv6, vous devez configurer un sous-réseau IPv6 pour les instances de VM. Pour en savoir plus, consultez Configurer IPv6 pour les instances et les modèles d'instance.
Lorsque vous créez un cluster Dataproc, vous devez utiliser le connecteur Cloud Storage version 2.2.23 ou ultérieure avec la version d'image 2.1.56+, ou le connecteur Cloud Storage version 3.0.0 ou ultérieure avec la version d'image 2.2.0 ou ultérieure. La version du connecteur Cloud Storage installée sur chaque version d'image Dataproc est indiquée sur les pages des versions d'image Dataproc.
- Si vous créez et utilisez un cluster virtuel Dataproc sur GKE pour vos requêtes gRPC Cloud Storage, la version 1.28.5-gke.1199000 de GKE avec gke-metadata-server 0.4.285 est recommandée. Cette combinaison est compatible avec la connectivité directe.
Vous ou l'administrateur de votre organisation devez attribuer des rôles Identity and Access Management qui incluent les autorisations nécessaires pour configurer le connecteur Cloud Storage et lui envoyer des requêtes gRPC. Voici quelques exemples de rôles :
- Rôle utilisateur : rôle Éditeur Dataproc accordé aux utilisateurs pour leur permettre de créer des clusters et d'envoyer des jobs
- Rôle du compte de service : le rôle Utilisateur d'objets de stockage accordé au compte de service de VM Dataproc pour permettre aux applications exécutées sur les VM du cluster d'afficher, de lire, de créer et d'écrire des objets Cloud Storage.

Activer gRPC sur le connecteur Cloud Storage

Vous pouvez activer gRPC sur le connecteur Cloud Storage au niveau du cluster ou du job. Une fois activées sur le cluster, les requêtes de lecture du connecteur Cloud Storage utilisent gRPC. S'il est activé au niveau d'un job plutôt qu'au niveau du cluster, les requêtes de lecture du connecteur Cloud Storage utilisent gRPC uniquement pour le job.

Activer un cluster

Pour activer gRPC sur le connecteur Cloud Storage au niveau du cluster, définissez la propriété core:fs.gs.client.type=STORAGE_CLIENT lorsque vous créez un cluster Dataproc. Une fois gRPC activé au niveau du cluster, les requêtes read du connecteur Cloud Storage effectuées par les jobs exécutés sur le cluster utilisent gRPC.

Exemple de gcloud CLI :

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --properties=core:fs.gs.client.type=STORAGE_CLIENT

Remplacez les éléments suivants :

CLUSTER_NAME : spécifiez un nom pour votre cluster.
PROJECT_NAME : ID du projet dans lequel se trouve le cluster. Les ID de projet sont listés dans la section Informations sur le projet du tableau de bord de la console Google Cloud .
REGION : spécifiez une région Compute Engine dans laquelle le cluster sera situé.

Activer un job

Pour activer gRPC sur le connecteur Cloud Storage pour une tâche spécifique, incluez --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT lorsque vous envoyez une tâche.

Exemple : Exécutez un job sur un cluster existant qui utilise gRPC pour lire des données depuis Cloud Storage.

Créez un script /tmp/line-count.py PySpark local qui utilise gRPC pour lire un fichier texte Cloud Storage et afficher le nombre de lignes du fichier.

cat <<EOF >"/tmp/line-count.py"
#!/usr/bin/python
import sys
from pyspark.sql import SparkSession
path = sys.argv[1]
spark = SparkSession.builder.getOrCreate()
rdd = spark.read.text(path)
lines_counter = rdd.count()
print("There are {} lines in file: {}".format(lines_counter,path))
EOF

Créez un fichier texte /tmp/line-count-sample.txt local.

cat <<EOF >"/tmp/line-count-sample.txt"
Line 1
Line 2
line 3
EOF

Importez les fichiers /tmp/line-count.py et /tmp/line-count-sample.txt locaux dans votre bucket Cloud Storage.
```
gcloud storage cp /tmp/line-count* gs://BUCKET
```
Exécutez le job line-count.py sur votre cluster. Définissez --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT sur "true" pour activer gRPC pour les requêtes de lecture du connecteur Cloud Storage.
```
gcloud dataproc jobs submit pyspark gs://BUCKET/line-count.py \
--cluster=CLUSTER_NAME \
--project=PROJECT_ID  \
--region=REGION \
--properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT \
-- gs://BUCKET/line-count-sample.txt
```
Remplacez les éléments suivants :
- CLUSTER_NAME : nom d'un cluster existant.
- PROJECT_NAME : ID de votre projet Les ID de projet sont listés dans la section Informations sur le projet du tableau de bord de la console Google Cloud .
- REGION : région Compute Engine dans laquelle se trouve le cluster.
- BUCKET : votre bucket Cloud Storage.

Générer des métriques gRPC côté client

Vous pouvez configurer le connecteur Cloud Storage pour générer des métriques gRPC dans Cloud Monitoring. Les métriques liées à gRPC peuvent vous aider à effectuer les opérations suivantes :

Surveiller et optimiser les performances des requêtes gRPC adressées à Cloud Storage
Résoudre et déboguer les problèmes
Obtenez des insights sur l'utilisation et le comportement des applications.

Pour savoir comment configurer le connecteur Cloud Storage afin de générer des métriques liées à gRPC, consultez Utiliser les métriques gRPC côté client.

Ressources

Consultez les propriétés de configuration du connecteur GitHub Cloud Storage.
Consultez Se connecter à Cloud Storage à l'aide de gRPC pour utiliser le connecteur Cloud Storage avec les bibliothèques clientes, VPC Service Controls et d'autres scénarios.
Obtenez davantage d'informations sur Cloud Storage.
Consultez Utiliser le connecteur Cloud Storage avec Apache Spark.
Comprendre le système de fichiers Apache Hadoop
Consultez la documentation de référence Javadoc.