Estrarre i metadati da Apache Hive per la migrazione
Questo documento mostra come utilizzare lo strumento dwh-migration-dumper per estrarre i metadati necessari prima di eseguire una migrazione dei dati o delle autorizzazioni di Apache Hive.
Questo documento tratta l'estrazione dei metadati dalle seguenti origini dati:
- Apache Hive
- File system distribuito Hadoop (HDFS) di Apache
- Apache Ranger
- Cloudera Manager
- Log delle query di Apache Hive
Prima di iniziare
Prima di poter utilizzare lo strumento dwh-migration-dumper:
Installare Java
Sul server su cui prevedi di eseguire lo strumento dwh-migration-dumper deve essere installato Java 8 o versioni successive. In caso contrario, scarica Java dalla
pagina dei download di Java
e installalo.
Autorizzazioni obbligatorie
L'account utente che specifichi per connettere lo strumento dwh-migration-dumper al sistema di origine deve disporre delle autorizzazioni per leggere i metadati da quel sistema.
Verifica che questo account abbia l'appartenenza al ruolo appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA è una risorsa di metadati comune a diverse piattaforme.
Installare lo strumento dwh-migration-dumper
Per installare lo strumento dwh-migration-dumper:
- Sulla macchina su cui vuoi eseguire lo strumento
dwh-migration-dumper, scarica il file zip dal repository GitHub dello strumentodwh-migration-dumper. Per convalidare il file zip dello strumento
dwh-migration-dumper, scarica ilSHA256SUMS.txtfile ed esegui il seguente comando:Bash
sha256sum --check SHA256SUMS.txt
Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci
RELEASE_ZIP_FILENAMEcon il nome del file zip scaricato della release dello strumento di estrazione da riga di comandodwh-migration-dumper, ad esempiodwh-migration-tools-v1.0.52.zip.Il risultato
Trueconferma che la verifica del checksum è andata a buon fine.Il risultato
Falseindica un errore di verifica. Assicurati che i file checksum e zip siano scaricati dalla stessa versione di release e inseriti nella stessa directory.Estrai il file ZIP. Il file binario dello strumento di estrazione si trova nella sottodirectory
/bindella cartella creata estraendo il file zip.Aggiorna la variabile di ambiente
PATHin modo da includere il percorso di installazione dello strumento di estrazione.
Estrarre i metadati per la migrazione
Seleziona una delle seguenti opzioni per scoprire come estrarre i metadati per l'origine dati:
Apache Hive
Esegui i passaggi descritti nella sezione Apache Hive Estrarre i metadati e i log delle query dal data warehouse per estrarre i metadati di Apache Hive. Puoi quindi caricare i metadati nel bucket Cloud Storage contenente i file di migrazione.
HDFS
Esegui il seguente comando per estrarre i metadati da HDFS utilizzando lo strumento dwh-migration-dumper.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Sostituisci quanto segue:
HDFS-HOST: il nome host di NameNode HDFSHDFS-PORT: il numero di porta di NameNode HDFS. Puoi saltare questo argomento se utilizzi la porta predefinita8020.MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
Questo comando estrae i metadati da HDFS in un file denominato hdfs-dumper-output.zip nella directory MIGRATION-BUCKET.
Esistono diverse limitazioni note durante l'estrazione dei metadati da HDFS:
- Alcune attività in questo connettore sono facoltative e possono non riuscire, registrando un'analisi dello stack completa nell'output. Se le attività richieste sono state completate correttamente e viene generato il file
hdfs-dumper-output.zip, puoi procedere con la migrazione di HDFS. - Il processo di estrazione potrebbe non riuscire o essere più lento del previsto se le dimensioni del pool di thread configurato sono troppo grandi. Se riscontri questi problemi, ti consigliamo di ridurre le dimensioni del pool di thread utilizzando l'argomento della riga di comando
--thread-pool-size.
Apache Ranger
Esegui il seguente comando per estrarre i metadati da Apache Ranger utilizzando lo strumento dwh-migration-dumper.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Sostituisci quanto segue:
RANGER-HOST: il nome host dell'istanza di Apache RangerRANGER-USER: il nome utente dell'utente di Apache RangerRANGER-PASSWORD: la password dell'utente di Apache RangerRANGER-SCHEME: specifica se Apache Ranger utilizzahttpohttps. Il valore predefinito èhttp.MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
Puoi anche includere i seguenti flag facoltativi:
--kerberos-auth-for-hadoop: sostituisce--usere--password, se Apache Ranger è protetto da Kerberos anziché dall'autenticazione di base. Per utilizzare questo flag, devi eseguire il comandokinitprima dello strumentodwh-migration-dumper.--ranger-disable-tls-validation: includi questo flag se il certificato https utilizzato dall'API è autofirmato. Ad esempio, quando utilizzi Cloudera.
Questo comando estrae i metadati da Apache Ranger in un file denominato ranger-dumper-output.zip nella directory MIGRATION-BUCKET.
Cloudera
Esegui il seguente comando per estrarre i metadati da Cloudera utilizzando lo strumento dwh-migration-dumper.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Sostituisci quanto segue:
CLOUDERA-URL: l'URL di Cloudera ManagerCLOUDERA-USER: il nome utente dell'utente di ClouderaCLOUDERA-PASSWORD: la password dell'utente di ClouderaMIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.APPLICATION-TYPES: (facoltativo) elenco di tutti i tipi di applicazioni esistenti da Hadoop YARN. Ad esempio,SPARK, MAPREDUCE.PAGE-SIZE: (facoltativo) specifica la quantità di dati recuperati da servizi di terze parti, come l'API Hadoop YARN. Il valore predefinito è1000, che rappresenta 1000 entità per richiesta.
Questo comando estrae i metadati da Cloudera in un file denominato dwh-migration-cloudera.zip nella directory MIGRATION-BUCKET.
Log delle query di Apache Hive
Esegui i passaggi descritti nella sezione Apache Hive Estrarre i log delle query con l'hook di logging hadoop-migration-assessment
per estrarre i log delle query di Apache Hive. Puoi quindi caricare i log nel bucket Cloud Storage contenente i file di migrazione.
Passaggi successivi
Con i metadati estratti da Hadoop, puoi utilizzare questi file di metadati per: