Mengekstrak metadata dari Apache Hive untuk migrasi
Dokumen ini menunjukkan cara menggunakan alat dwh-migration-dumper untuk mengekstrak
metadata yang diperlukan sebelum menjalankan migrasi data atau izin
Apache Hive.
Dokumen ini membahas ekstraksi metadata dari sumber data berikut:
- Apache Hive
- Apache Hadoop Distributed File System (HDFS)
- Apache Ranger
- Cloudera Manager
- Log kueri Apache Hive
Sebelum memulai
Sebelum Anda dapat menggunakan alat dwh-migration-dumper, lakukan hal berikut:
Menginstal Java
Server tempat Anda berencana menjalankan alat dwh-migration-dumper harus sudah menginstal Java 8 atau yang lebih baru. Jika tidak, download Java dari halaman download Java, lalu instal.
Izin yang diperlukan
Akun pengguna yang Anda tentukan untuk menghubungkan alat dwh-migration-dumper ke sistem sumber harus memiliki izin untuk membaca metadata dari sistem tersebut.
Pastikan akun ini memiliki keanggotaan peran yang sesuai untuk membuat kueri resource metadata yang tersedia untuk platform Anda. Misalnya, INFORMATION_SCHEMA adalah resource metadata yang umum di beberapa platform.
Menginstal alat dwh-migration-dumper
Untuk menginstal alat dwh-migration-dumper, ikuti langkah-langkah berikut:
- Di komputer tempat Anda ingin menjalankan alat
dwh-migration-dumper, download file zip dari repositori GitHub alatdwh-migration-dumper. Untuk memvalidasi file zip alat
dwh-migration-dumper, download fileSHA256SUMS.txtdan jalankan perintah berikut:Bash
sha256sum --check SHA256SUMS.txt
Jika verifikasi gagal, lihat Pemecahan masalah.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Ganti
RELEASE_ZIP_FILENAMEdengan nama file zip yang didownload dari rilis alat ekstraksi command linedwh-migration-dumper—misalnya,dwh-migration-tools-v1.0.52.zipHasil
Truemengonfirmasi keberhasilan verifikasi checksum.Hasil
Falsemenunjukkan error verifikasi. Pastikan file checksum dan ZIP didownload dari versi rilis yang sama dan ditempatkan di direktori yang sama.Ekstrak file ZIP. Biner alat ekstraksi berada dalam subdirektori
/bindari folder yang dibuat dengan mengekstrak file ZIP.Update variabel lingkungan
PATHuntuk menyertakan jalur penginstalan untuk alat ekstraksi.
Mengekstrak metadata untuk migrasi
Pilih salah satu opsi berikut untuk mempelajari cara mengekstrak metadata untuk sumber data Anda:
Apache Hive
Lakukan langkah-langkah di bagian Apache Hive Mengekstrak metadata dan log kueri dari data warehouse Anda untuk mengekstrak metadata Apache Hive Anda. Kemudian, Anda dapat mengupload metadata ke bucket Cloud Storage yang berisi file migrasi Anda.
HDFS
Jalankan perintah berikut untuk mengekstrak metadata dari HDFS menggunakan alat dwh-migration-dumper.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Ganti kode berikut:
HDFS-HOST: nama host HDFS NameNodeHDFS-PORT: nomor port HDFS NameNode. Anda dapat melewati argumen ini jika menggunakan port8020default.MIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.
Perintah ini mengekstrak metadata dari HDFS ke
file bernama hdfs-dumper-output.zip di direktori MIGRATION-BUCKET.
Ada beberapa batasan umum saat mengekstrak metadata dari HDFS:
- Beberapa tugas di konektor ini bersifat opsional dan dapat gagal, mencatat perdagangan stack penuh dalam output. Selama tugas yang diperlukan telah berhasil dan
hdfs-dumper-output.zipdibuat, Anda dapat melanjutkan migrasi HDFS. - Proses ekstraksi mungkin gagal atau berjalan lebih lambat dari yang diharapkan jika ukuran thread pool yang dikonfigurasi terlalu besar. Jika Anda mengalami masalah ini, sebaiknya kurangi ukuran kumpulan thread menggunakan argumen command line
--thread-pool-size.
Apache Ranger
Jalankan perintah berikut untuk mengekstrak metadata dari Apache Ranger menggunakan alat dwh-migration-dumper.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Ganti kode berikut:
RANGER-HOST: nama host instance Apache RangerRANGER-USER: nama pengguna Apache RangerRANGER-PASSWORD: sandi pengguna Apache RangerRANGER-SCHEME: tentukan apakah Apache Ranger menggunakanhttpatauhttps. Nilai defaultnya adalahhttp.MIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.
Anda juga dapat menyertakan flag opsional berikut:
--kerberos-auth-for-hadoop: menggantikan--userdan--password, jika Apache Ranger dilindungi oleh kerberos, bukan autentikasi dasar. Anda harus menjalankan perintahkinitsebelum alatdwh-migration-dumperuntuk menggunakan flag ini.--ranger-disable-tls-validation: sertakan tanda ini jika sertifikat https yang digunakan oleh API ditandatangani sendiri. Misalnya, saat menggunakan Cloudera.
Perintah ini mengekstrak metadata dari Apache Ranger ke
file bernama ranger-dumper-output.zip di direktori MIGRATION-BUCKET.
Cloudera
Jalankan perintah berikut untuk mengekstrak metadata dari Cloudera menggunakan alat dwh-migration-dumper.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Ganti kode berikut:
CLOUDERA-URL: URL untuk Cloudera ManagerCLOUDERA-USER: nama pengguna ClouderaCLOUDERA-PASSWORD: sandi pengguna ClouderaMIGRATION-BUCKET: bucket Cloud Storage yang Anda gunakan untuk menyimpan file migrasi.APPLICATION-TYPES: (Opsional) daftar semua jenis aplikasi yang ada dari Hadoop YARN. Contoh,SPARK, MAPREDUCE.PAGE-SIZE: (Opsional) tentukan jumlah data yang diambil dari layanan pihak ketiga, seperti Hadoop YARN API. Nilai defaultnya adalah1000, yang mewakili 1.000 entity per permintaan.
Perintah ini mengekstrak metadata dari Cloudera ke
file bernama dwh-migration-cloudera.zip di direktori MIGRATION-BUCKET.
Log kueri Apache Hive
Lakukan langkah-langkah di bagian Apache Hive Mengekstrak log kueri dengan hook logging hadoop-migration-assessment
untuk mengekstrak log kueri Apache Hive Anda. Kemudian, Anda dapat mengupload log
ke bucket Cloud Storage yang berisi file migrasi Anda.
Langkah berikutnya
Dengan metadata yang diekstrak dari Hadoop, Anda dapat menggunakan file metadata ini untuk melakukan hal berikut: