Extraire des métadonnées d'Apache Hive pour la migration
Ce document explique comment utiliser l'outil dwh-migration-dumper pour extraire les métadonnées nécessaires avant d'exécuter une migration de données ou d'autorisations Apache Hive.
Ce document couvre l'extraction de métadonnées à partir des sources de données suivantes :
- Apache Hive
- Système de fichiers distribué Hadoop (HDFS) Apache
- Apache Ranger
- Cloudera Manager
- Journaux de requêtes Apache Hive
Avant de commencer
Avant de pouvoir utiliser l'outil dwh-migration-dumper, procédez comme suit :
Installer Java
Java 8 ou une version ultérieure doit être installé sur le serveur sur lequel vous prévoyez d'exécuter l'outil dwh-migration-dumper. Si ce n'est pas le cas, téléchargez Java à partir de la page des téléchargements Java et installez-le.
Autorisations requises
Le compte utilisateur que vous spécifiez pour connecter l'outil dwh-migration-dumper au système source doit être autorisé à lire les métadonnées de ce système.
Vérifiez que ce compte dispose de l'appartenance appropriée au rôle pour interroger les ressources de métadonnées disponibles pour votre plate-forme. Par exemple, INFORMATION_SCHEMA est une ressource de métadonnées commune à plusieurs plates-formes.
Installez l'outil dwh-migration-dumper
Pour installer l'outil dwh-migration-dumper, procédez comme suit :
- Sur la machine sur laquelle vous souhaitez exécuter l'outil
dwh-migration-dumper, téléchargez le fichier ZIP à partir du dépôt GitHub de l'outildwh-migration-dumper. Pour valider le fichier ZIP de l'outil
dwh-migration-dumper, téléchargez le fichierSHA256SUMS.txtet exécutez la commande suivante :Bash
sha256sum --check SHA256SUMS.txt
Si la validation échoue, consultez la section Dépannage.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Remplacez
RELEASE_ZIP_FILENAMEpar le nom du fichier ZIP téléchargé correspondant à la version de l'outil d'extraction en ligne de commandedwh-migration-dumper(par exemple,dwh-migration-tools-v1.0.52.zip).Le résultat
Trueconfirme la réussite de la vérification de la somme de contrôle.Le résultat
Falseindique une erreur de validation. Assurez-vous que le fichier de somme de contrôle et le fichier ZIP ont été téléchargés à partir de la même version et placés dans le même répertoire.Extrayez le fichier ZIP. Le fichier binaire de l'outil d'extraction se trouve dans le sous-répertoire
/bindu dossier créé en extrayant le fichier ZIP.Mettez à jour la variable d'environnement
PATHpour inclure le chemin d'installation de l'outil d'extraction.
Extraire des métadonnées pour la migration
Sélectionnez l'une des options suivantes pour découvrir comment extraire des métadonnées pour votre source de données :
Apache Hive
Suivez les étapes de la section Apache Hive Extraire des métadonnées et interroger les journaux à partir de votre entrepôt de données pour extraire vos métadonnées Apache Hive. Vous pouvez ensuite importer les métadonnées dans votre bucket Cloud Storage contenant vos fichiers de migration.
HDFS
Exécutez la commande suivante pour extraire des métadonnées de HDFS à l'aide de l'outil dwh-migration-dumper.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Remplacez les éléments suivants :
HDFS-HOST: nom d'hôte du composant NameNode HDFSHDFS-PORT: numéro de port du composant NameNode HDFS. Vous pouvez ignorer cet argument si vous utilisez le port8020par défaut.MIGRATION-BUCKET: bucket Cloud Storage que vous utilisez pour stocker les fichiers de migration.
Cette commande extrait les métadonnées de HDFS dans un fichier nommé hdfs-dumper-output.zip dans le répertoire MIGRATION-BUCKET.
L'extraction de métadonnées à partir de HDFS présente plusieurs limites connues :
- Certaines tâches de ce connecteur sont facultatives et peuvent échouer, ce qui entraîne la journalisation d'une trace de pile complète dans la sortie. Tant que les tâches requises ont réussi et que le fichier
hdfs-dumper-output.zipest généré, vous pouvez poursuivre la migration HDFS. - Le processus d'extraction peut échouer ou s'exécuter plus lentement que prévu si la taille du pool de threads configuré est trop importante. Si vous rencontrez ces problèmes, nous vous recommandons de réduire la taille du pool de threads à l'aide de l'argument de ligne de commande
--thread-pool-size.
Apache Ranger
Exécutez la commande suivante pour extraire des métadonnées d'Apache Ranger à l'aide de l'outil dwh-migration-dumper.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Remplacez les éléments suivants :
RANGER-HOST: nom d'hôte de l'instance Apache RangerRANGER-USER: nom d'utilisateur de l'utilisateur Apache RangerRANGER-PASSWORD: mot de passe de l'utilisateur Apache RangerRANGER-SCHEME: indiquez si Apache Ranger utilisehttpouhttps. La valeur par défaut esthttp.MIGRATION-BUCKET: bucket Cloud Storage que vous utilisez pour stocker les fichiers de migration.
Vous pouvez également inclure les options facultatives suivantes :
--kerberos-auth-for-hadoop: remplace--useret--passwordsi Apache Ranger est protégé par Kerberos au lieu d'une authentification de base. Vous devez exécuter la commandekinitavant l'outildwh-migration-dumperpour utiliser cette option.--ranger-disable-tls-validation: incluez cette option si le certificat HTTPS utilisé par l'API est auto-signé. Par exemple, lorsque vous utilisez Cloudera.
Cette commande extrait les métadonnées d'Apache Ranger dans un fichier nommé ranger-dumper-output.zip dans le répertoire MIGRATION-BUCKET.
Cloudera
Exécutez la commande suivante pour extraire des métadonnées de Cloudera à l'aide de l'outil dwh-migration-dumper.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Remplacez les éléments suivants :
CLOUDERA-URL: URL de Cloudera ManagerCLOUDERA-USER: nom d'utilisateur de l'utilisateur ClouderaCLOUDERA-PASSWORD: mot de passe de l'utilisateur ClouderaMIGRATION-BUCKET: bucket Cloud Storage que vous utilisez pour stocker les fichiers de migration.APPLICATION-TYPES: (facultatif) liste de tous les types d'applications existants à partir de Hadoop YARN. Par exemple,SPARK, MAPREDUCE.PAGE-SIZE: (facultatif) spécifiez la quantité de données extraites de services tiers, tels que l'API Hadoop YARN. La valeur par défaut est1000, ce qui représente 1 000 entités par requête.
Cette commande extrait les métadonnées de Cloudera dans un fichier nommé dwh-migration-cloudera.zip dans le répertoire MIGRATION-BUCKET.
Journaux de requêtes Apache Hive
Suivez les étapes de la section Apache Hive Extraire les journaux de requêtes avec le hook de journalisation hadoop-migration-assessment
pour extraire vos journaux de requêtes Apache Hive. Vous pouvez ensuite importer les journaux dans votre bucket Cloud Storage contenant vos fichiers de migration.
Étape suivante
Une fois les métadonnées extraites de Hadoop, vous pouvez les utiliser pour effectuer les opérations suivantes :