Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Estrazione dei metadati da Apache Hive per la migrazione

Questo documento mostra come utilizzare lo strumento dwh-migration-dumper per estrarre i metadati necessari prima di eseguire una migrazione dei dati o delle autorizzazioni di Apache Hive.

Questo documento riguarda l'estrazione dei metadati dalle seguenti origini dati:

Apache Hive
Apache Hadoop Distributed File System (HDFS)
Apache Ranger
Cloudera Manager
Log delle query Apache Hive

Prima di iniziare

Prima di poter utilizzare lo strumento dwh-migration-dumper:

Installare Java

Sul server su cui prevedi di eseguire lo strumento dwh-migration-dumper deve essere installato Java 8 o versioni successive. In caso contrario, scarica Java dalla pagina dei download di Java e installalo.

Autorizzazioni obbligatorie

L'account utente specificato per connettere lo strumento dwh-migration-dumper al sistema di origine deve disporre delle autorizzazioni per leggere i metadati da quel sistema. Conferma che questo account disponga dell'appartenenza al ruolo appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA è una risorsa di metadati comune a diverse piattaforme.

Installare lo strumento `dwh-migration-dumper`

Per installare lo strumento dwh-migration-dumper:

Sulla macchina in cui vuoi eseguire lo strumento dwh-migration-dumper, scarica il file zip dal repository GitHub dello strumento dwh-migration-dumper.
Per convalidare il file zip dello strumento dwh-migration-dumper, scarica il file SHA256SUMS.txt ed esegui questo comando:
Bash
sha256sum --check SHA256SUMS.txt
Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME con il nome del file zip scaricato della release dello strumento di estrazione da riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip.

Il risultato True conferma la verifica riuscita del checksum.

Il risultato False indica un errore di verifica. Assicurati che i file checksum e zip siano scaricati dalla stessa versione di release e inseriti nella stessa directory.
Estrai il file ZIP. Il binario dello strumento di estrazione si trova nella sottodirectory /bin della cartella creata estraendo il file zip.
Aggiorna la variabile di ambiente PATH in modo da includere il percorso di installazione dello strumento di estrazione.

Estrazione dei metadati per la migrazione

Seleziona una delle seguenti opzioni per scoprire come estrarre i metadati per la tua origine dati:

Apache Hive

Esegui i passaggi descritti nella sezione Apache Hive Estrai i metadati e i log delle query dal data warehouse per estrarre i metadati di Apache Hive. Puoi quindi caricare i metadati nel bucket Cloud Storage contenente i file di migrazione.

HDFS

Esegui questo comando per estrarre i metadati da HDFS utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

HDFS-HOST: l'hostname di HDFS NameNode
HDFS-PORT: il numero di porta di HDFS NameNode. Puoi ignorare questo argomento se utilizzi la porta 8020 predefinita.
MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Questo comando estrae i metadati da HDFS in un file denominato hdfs-dumper-output.zip nella directory MIGRATION-BUCKET.

Esistono diverse limitazioni note durante l'estrazione dei metadati da HDFS:

Alcune attività in questo connettore sono facoltative e possono non riuscire, registrando un'analisi dello stack completa nell'output. Se le attività richieste sono state completate correttamente e viene generato il hdfs-dumper-output.zip, puoi procedere con la migrazione HDFS.
Il processo di estrazione potrebbe non riuscire o essere più lento del previsto se la dimensione del pool di thread configurato è troppo grande. Se riscontri questi problemi, ti consigliamo di ridurre le dimensioni del pool di thread utilizzando l'argomento della riga di comando --thread-pool-size.

Apache Ranger

Esegui questo comando per estrarre i metadati da Apache Ranger utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Sostituisci quanto segue:

RANGER-HOST: il nome host dell'istanza Apache Ranger
RANGER-USER: il nome utente dell'utente Apache Ranger
RANGER-PASSWORD: la password dell'utente Apache Ranger
RANGER-SCHEME: specifica se Apache Ranger utilizza http o https. Il valore predefinito è http.
MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.

Puoi anche includere i seguenti flag facoltativi:

--kerberos-auth-for-hadoop: sostituisce --user e --password, se Apache Ranger è protetto da Kerberos anziché dall'autenticazione di base. Per utilizzare questo flag, devi eseguire il comando kinit prima dello strumento dwh-migration-dumper.
--ranger-disable-tls-validation: includi questo flag se il certificato https utilizzato dall'API è autofirmato. Ad esempio, quando utilizzi Cloudera.

Questo comando estrae i metadati da Apache Ranger in un file denominato ranger-dumper-output.zip nella directory MIGRATION-BUCKET.

Cloudera

Esegui questo comando per estrarre i metadati da Cloudera utilizzando lo strumento dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Sostituisci quanto segue:

CLOUDERA-URL: l'URL di Cloudera Manager
CLOUDERA-USER: il nome utente dell'utente Cloudera
CLOUDERA-PASSWORD: la password dell'utente Cloudera
MIGRATION-BUCKET: il bucket Cloud Storage che utilizzi per archiviare i file di migrazione.
APPLICATION-TYPES: (facoltativo) elenco di tutti i tipi di applicazioni esistenti di Hadoop YARN. Ad esempio, SPARK, MAPREDUCE.
PAGE-SIZE: (facoltativo) specifica la quantità di dati recuperati da servizi di terze parti, come l'API Hadoop YARN. Il valore predefinito è 1000, che rappresenta 1000 entità per richiesta.

Questo comando estrae i metadati da Cloudera in un file denominato dwh-migration-cloudera.zip nella directory MIGRATION-BUCKET.

Log delle query Apache Hive

Esegui i passaggi descritti nella sezione Apache Hive Estrai i log delle query con l'hook di logging hadoop-migration-assessment per estrarre i log delle query Apache Hive. Puoi quindi caricare i log nel bucket Cloud Storage contenente i file di migrazione.

Passaggi successivi

Con i metadati estratti da Hadoop, puoi utilizzare questi file di metadati per:

Estrazione dei metadati da Apache Hive per la migrazione

Prima di iniziare

Installare Java

Autorizzazioni obbligatorie

Installare lo strumento dwh-migration-dumper

Bash

Windows PowerShell

Estrazione dei metadati per la migrazione

Apache Hive

HDFS

Apache Ranger

Cloudera

Log delle query Apache Hive

Passaggi successivi

Installare lo strumento `dwh-migration-dumper`