Estrarre i metadati da Apache Hive per la migrazione

Questo documento mostra come utilizzare lo strumento dwh-migration-dumper per estrarre i metadati necessari prima di eseguire una migrazione dei dati o delle autorizzazioni di Apache Hive.

Questo documento tratta l'estrazione dei metadati dalle seguenti origini dati:

  • Apache Hive
  • File system distribuito Hadoop (HDFS) di Apache
  • Apache Ranger
  • Cloudera Manager
  • Log delle query di Apache Hive

Prima di iniziare

Prima di poter utilizzare lo strumento dwh-migration-dumper:

Installare Java

Sul server su cui prevedi di eseguire lo strumento dwh-migration-dumper deve essere installato Java 8 o versioni successive. In caso contrario, scarica Java dalla pagina dei download di Java e installalo.

Autorizzazioni obbligatorie

L'account utente che specifichi per connettere lo strumento dwh-migration-dumper al sistema di origine deve disporre delle autorizzazioni per leggere i metadati da quel sistema. Verifica che questo account abbia l'appartenenza al ruolo appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA è una risorsa di metadati comune a diverse piattaforme.

Installare lo strumento dwh-migration-dumper

Per installare lo strumento dwh-migration-dumper:

  1. Sulla macchina su cui vuoi eseguire lo strumento dwh-migration-dumper, scarica il file zip dal repository GitHub dello strumento dwh-migration-dumper.
  2. Per convalidare il file zip dello strumento dwh-migration-dumper, scarica il SHA256SUMS.txt file ed esegui il seguente comando:

    Bash

    sha256sum --check SHA256SUMS.txt

    Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Sostituisci RELEASE_ZIP_FILENAME con il nome del file zip scaricato della release dello strumento di estrazione da riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip.

    Il risultato True conferma che la verifica del checksum è andata a buon fine.

    Il risultato False indica un errore di verifica. Assicurati che i file checksum e zip siano scaricati dalla stessa versione di release e inseriti nella stessa directory.

  3. Estrai il file ZIP. Il file binario dello strumento di estrazione si trova nella sottodirectory /bin della cartella creata estraendo il file zip.

  4. Aggiorna la variabile di ambiente PATH in modo da includere il percorso di installazione dello strumento di estrazione.

Estrarre i metadati per la migrazione

Seleziona una delle seguenti opzioni per scoprire come estrarre i metadati per l'origine dati:

Apache Hive

Esegui i passaggi descritti nella sezione Apache Hive Estrarre i metadati e i log delle query dal data warehouse per estrarre i metadati di Apache Hive. Puoi quindi caricare i metadati nel bucket Cloud Storage contenente i file di migrazione.

HDFS

Esegui il seguente comando per estrarre i metadati da HDFS utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

  • HDFS-HOST: il nome host di NameNode HDFS
  • HDFS-PORT: il numero di porta di NameNode HDFS. Puoi saltare questo argomento se utilizzi la porta predefinita 8020.
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Questo comando estrae i metadati da HDFS in un file denominato hdfs-dumper-output.zip nella directory MIGRATION-BUCKET.

Esistono diverse limitazioni note durante l'estrazione dei metadati da HDFS:

  • Alcune attività in questo connettore sono facoltative e possono non riuscire, registrando un'analisi dello stack completa nell'output. Se le attività richieste sono state completate correttamente e viene generato il file hdfs-dumper-output.zip, puoi procedere con la migrazione di HDFS.
  • Il processo di estrazione potrebbe non riuscire o essere più lento del previsto se le dimensioni del pool di thread configurato sono troppo grandi. Se riscontri questi problemi, ti consigliamo di ridurre le dimensioni del pool di thread utilizzando l'argomento della riga di comando --thread-pool-size.

Apache Ranger

Esegui il seguente comando per estrarre i metadati da Apache Ranger utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

  • RANGER-HOST: il nome host dell'istanza di Apache Ranger
  • RANGER-USER: il nome utente dell'utente di Apache Ranger
  • RANGER-PASSWORD: la password dell'utente di Apache Ranger
  • RANGER-SCHEME: specifica se Apache Ranger utilizza http o https. Il valore predefinito è http.
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Puoi anche includere i seguenti flag facoltativi:

  • --kerberos-auth-for-hadoop: sostituisce --user e --password, se Apache Ranger è protetto da Kerberos anziché dall'autenticazione di base. Per utilizzare questo flag, devi eseguire il comando kinit prima dello strumento dwh-migration-dumper.
  • --ranger-disable-tls-validation: includi questo flag se il certificato https utilizzato dall'API è autofirmato. Ad esempio, quando utilizzi Cloudera.

Questo comando estrae i metadati da Apache Ranger in un file denominato ranger-dumper-output.zip nella directory MIGRATION-BUCKET.

Cloudera

Esegui il seguente comando per estrarre i metadati da Cloudera utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Sostituisci quanto segue:

  • CLOUDERA-URL: l'URL di Cloudera Manager
  • CLOUDERA-USER: il nome utente dell'utente di Cloudera
  • CLOUDERA-PASSWORD: la password dell'utente di Cloudera
  • MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
  • APPLICATION-TYPES: (facoltativo) elenco di tutti i tipi di applicazioni esistenti da Hadoop YARN. Ad esempio, SPARK, MAPREDUCE.
  • PAGE-SIZE: (facoltativo) specifica la quantità di dati recuperati da servizi di terze parti, come l'API Hadoop YARN. Il valore predefinito è 1000, che rappresenta 1000 entità per richiesta.

Questo comando estrae i metadati da Cloudera in un file denominato dwh-migration-cloudera.zip nella directory MIGRATION-BUCKET.

Log delle query di Apache Hive

Esegui i passaggi descritti nella sezione Apache Hive Estrarre i log delle query con l'hook di logging hadoop-migration-assessment per estrarre i log delle query di Apache Hive. Puoi quindi caricare i log nel bucket Cloud Storage contenente i file di migrazione.

Passaggi successivi

Con i metadati estratti da Hadoop, puoi utilizzare questi file di metadati per: