Mencadangkan layanan Metastore Dataproc

Halaman ini menjelaskan cara membuat cadangan layanan Dataproc Metastore.

Cadangan mengambil snapshot layanan Anda, menyimpan setelan konfigurasi saat ini, dan semua metadata yang disimpan.

Setelah membuat cadangan, Anda dapat menggunakan fitur Pulihkan dari cadangan untuk mengisi layanan Dataproc Metastore baru dengan data yang disimpan dalam snapshot.

Sebelum memulai

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk mencadangkan layanan Dataproc Metastore, minta administrator untuk memberi Anda peran IAM berikut:

  • Untuk memberikan kontrol penuh atas resource Dataproc Metastore guna menyelesaikan cadangan, berikan salah satu peran berikut:
  • Untuk memberikan akses baca dan ubah ke metadata tertentu dari database dan tabel: Dataproc Metastore Metadata Operator (roles/metastore.metadataOperator) pada layanan metadata
  • Untuk menggunakan objek Cloud Storage yang menyimpan cadangan terjadwal: Cloud Storage Object User (roles/storage.objectUser) pada agen layanan Dataproc Metastore

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk mencadangkan layanan Dataproc Metastore. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk mencadangkan layanan Dataproc Metastore:

  • Untuk mencadangkan layanan metadata: metastore.backups.create
  • Untuk menggunakan objek Cloud Storage:
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.

Pertimbangan pencadangan

Sebelum menjalankan operasi pencadangan, perhatikan pertimbangan berikut:

  • Untuk setiap layanan Dataproc Metastore, Anda dapat membuat dan menyimpan hingga tujuh cadangan sekaligus. Jika Anda mencoba melebihi tujuh cadangan, proses pencadangan akan gagal. Jika ingin membuat cadangan lain, Anda harus menghapus salah satu file cadangan tersimpan secara manual terlebih dahulu.
  • Saat operasi pencadangan sedang berjalan, Anda tidak dapat memperbarui layanan Dataproc Metastore. Misalnya, Anda tidak dapat mengubah setelan konfigurasi. Namun, Anda masih dapat menggunakan layanan untuk operasi normal, seperti mengakses metadata dari Managed Service untuk Apache Spark terlampir atau cluster yang dikelola sendiri.
  • Anda dapat membuat cadangan terjadwal yang berjalan pada berbagai interval cron, seperti setiap hari.

Membuat cadangan

Untuk mencadangkan layanan Dataproc Metastore, selesaikan langkah-langkah di salah satu tab berikut:

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore:

    Buka Dataproc Metastore

  2. Di halaman Dataproc Metastore, klik nama layanan yang ingin Anda cadangkan.

    Halaman Detail layanan akan terbuka.

    Halaman detail layanan
    Gambar 1. Halaman detail layanan Dataproc Metastore
  3. Di bagian atas halaman, klik Cadangkan.

    Halaman Cadangkan akan terbuka.

  4. Masukkan Nama cadangan.

  5. Opsional: Masukkan Deskripsi cadangan.

  6. Untuk memulai operasi pencadangan, klik Cadangkan.

    Kembali ke halaman Dataproc Metastore, lalu pastikan layanan Anda berhasil dicadangkan.

    Saat pencadangan selesai, Dataproc Metastore akan otomatis kembali ke status aktif, terlepas dari apakah pencadangan berhasil atau tidak.

gcloud CLI

  1. Untuk mencadangkan layanan Dataproc Metastore, jalankan perintah berikut gcloud metastore services backups create:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Ganti kode berikut:

    • BACKUP: ID atau ID lengkap untuk cadangan.
    • LOCATION: region tempat layanan Dataproc Metastore Anda berada. Google Cloud
    • SERVICE: nama layanan Dataproc Metastore Anda.
    • DESCRIPTION: deskripsi cadangan Anda.
  2. Pastikan layanan Anda berhasil dicadangkan.

    Saat pencadangan selesai, Dataproc Metastore akan otomatis kembali ke status aktif, terlepas dari apakah pencadangan berhasil atau tidak.

REST

Ikuti petunjuk API untuk mencadangkan metadata dari layanan menggunakan APIs Explorer.

Saat pencadangan selesai, Dataproc Metastore akan otomatis kembali ke status aktif, terlepas dari apakah pencadangan berhasil atau tidak.

Melihat histori cadangan

Untuk melihat histori cadangan layanan Dataproc Metastore di Google Cloud konsol, selesaikan langkah-langkah berikut:

  1. Di konsol konsol, buka halaman Dataproc Metastore . Google Cloud
  2. Di panel navigasi, klik Cadangkan/Pulihkan.

    Histori cadangan Anda akan muncul dalam tabel di bagian Cadangan.

    Histori ini menampilkan hingga 7 cadangan terbaru.

    Menghapus layanan Dataproc Metastore juga akan menghapus semua histori cadangan terkait.

Menghapus cadangan

Untuk menghapus cadangan Dataproc Metastore di Google Cloud konsol, selesaikan langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore.
  2. Di panel navigasi, klik Cadangkan/Pulihkan.
  3. Temukan cadangan yang ingin Anda hapus, lalu klik tombol setelan.
  4. Klik Hapus.

Menjadwalkan cadangan

Cadangan dapat dijadwalkan untuk berjalan pada interval tugas cron yang ditentukan pengguna, termasuk berjalan setiap hari, setiap minggu, atau setiap bulan. Jadwal cron menggunakan format string unix-cron (* * * * *) yang merupakan kumpulan lima kolom dalam satu baris, yang menunjukkan kapan tugas harus dijalankan.

Misalnya, Anda dapat menetapkan interval kustom untuk membuat cadangan setiap minggu, seperti membuat cadangan setiap hari Rabu pukul 14.00 PST.

Pertimbangan cadangan terjadwal

  • Cadangan terjadwal harus menentukan lokasi cadangan, yang harus berupa jalur Cloud Storage.
  • Cadangan terjadwal selalu dibuat dalam format file Avro.
  • Cadangan terjadwal dikonfigurasi dalam zona waktu UTC secara default. Anda dapat mengubah zona waktu saat membuat cadangan untuk pertama kalinya.
  • Cadangan terjadwal dapat ditetapkan untuk berjalan pada interval per jam, harian, mingguan, atau bulanan. Interval per jam minimum yang dapat Anda tetapkan adalah 4 jam.

Membuat cadangan terjadwal

Jadwal cadangan dapat ditetapkan saat Anda membuat layanan untuk pertama kalinya atau ditambahkan nanti saat Anda memperbarui layanan.

Untuk membuat layanan Dataproc Metastore 2 dengan cadangan terjadwal, selesaikan langkah-langkah di salah satu tab berikut:

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore.

  2. Di bagian atas halaman Dataproc Metastore, klik tombol Buat.

    Halaman Buat layanan akan terbuka.

  3. Pilih Dataproc Metastore 2.

  4. Di bagian Cadangan Terjadwal, tetapkan tombol ke Aktifkan.

  5. Di bagian Lokasi, pilih lokasi Cloud Storage tempat Anda ingin menyimpan cadangan terjadwal.

  6. Opsional: Di bagian jadwal, pilih hal berikut:

    1. Untuk Ulangi, pilih pengulangan, seperti Harian atau Mingguan.
    2. Untuk Pada waktu, pilih waktu pengulangan, seperti 00.00.
    3. Untuk Zona waktu, pilih zona waktu yang sesuai, seperti UTC-8.
  7. Untuk opsi konfigurasi layanan yang tersisa, gunakan nilai default yang disediakan.

  8. Klik Kirim.

gcloud CLI

  1. Untuk menjadwalkan cadangan layanan Dataproc Metastore, jalankan gcloud metastore services backups create perintah berikut:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Ganti kode berikut:

    • SERVICE: ID atau ID lengkap untuk cadangan.
    • LOCATION: region tempat layanan Dataproc Metastore Anda berada. Google Cloud
    • SCHEDULED_BACKUP_CRON: frekuensi cadangan Anda, yang ditentukan dalam format waktu cron. Misalnya, nilai cron 0 0 * * * menjadwalkan cadangan harian.
    • SCHEDULED_BACKUP_LOCATION: lokasi Cloud Storage cadangan Anda. Misalnya: gs://my-bucket/path/to/location.

    atau

    Anda juga dapat menjadwalkan cadangan dengan menyimpan nilai sebelumnya dalam file konfigurasi:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Ganti kode berikut:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: jalur ke file JSON yang berisi nilai konfigurasi cadangan enabled, cron_schedule, time_zone, dan backup_location.

    Contoh berikut menunjukkan file konfigurasi cadangan yang mengaktifkan cadangan terjadwal, menetapkan jadwal cadangan setiap jam, menentukan zona waktu sebagai PST, dan menentukan lokasi cadangan sebagai bucket Cloud Storage. Anda dapat memilih zona waktu dari daftar zona waktu database tz umum.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Ikuti petunjuk API untuk membuat cadangan terjadwal menggunakan APIs Explorer.

Memperbarui cadangan terjadwal

Untuk memperbarui layanan Dataproc Metastore 2 yang dikonfigurasi dengan cadangan terjadwal, selesaikan langkah-langkah di salah satu tab berikut:

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore.

  2. Di halaman Dataproc Metastore, klik nama layanan yang ingin Anda jadwalkan cadangannya.

  3. Di bagian Cadangan Terjadwal, tetapkan tombol ke Aktifkan.

  4. Di bagian Lokasi, pilih lokasi Cloud Storage tempat Anda ingin menyimpan cadangan terjadwal.

  5. Opsional: Di bagian Jadwal, pilih nilai untuk kolom berikut:

    1. Untuk Ulangi, pilih pengulangan, seperti Harian atau Mingguan.
    2. Untuk Pada waktu, pilih waktu pengulangan, seperti 00.00.
    3. Untuk Zona waktu, pilih zona waktu yang sesuai, seperti UTC-8.

gcloud CLI

  1. Untuk menjadwalkan cadangan layanan Dataproc Metastore, jalankan gcloud metastore services backups update perintah berikut:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Ganti kode berikut:

    • SERVICE: ID atau ID lengkap untuk cadangan terjadwal.
    • LOCATION: region tempat layanan Dataproc Metastore Anda berada. Google Cloud
    • SCHEDULED_BACKUP_CRON: frekuensi cadangan Anda, yang ditentukan dalam format waktu cron. Misalnya, nilai cron 0 0 * * * menjadwalkan cadangan harian.
    • SCHEDULED_BACKUP_LOCATION: lokasi Cloud Storage cadangan terjadwal Anda. Misalnya: gs://my-bucket/path/to/location.

    Anda juga dapat memperbarui cadangan terjadwal menggunakan nilai sebelumnya yang disimpan dalam file konfigurasi:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Ganti kode berikut:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: jalur ke file JSON yang berisi konfigurasi cadangan.

    Contoh berikut menunjukkan file konfigurasi cadangan yang menonaktifkan cadangan terjadwal.

    {
    "enabled": false,
    }
    

REST

Ikuti petunjuk API untuk memperbarui cadangan terjadwal menggunakan APIs Explorer.

Melihat cadangan terjadwal

Untuk melihat layanan Dataproc Metastore 2 yang dikonfigurasi dengan cadangan terjadwal, selesaikan langkah-langkah di salah satu tab berikut:

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore.

  2. Di bagian atas halaman, klik Cadangkan.

    Halaman Cadangkan akan terbuka dan menampilkan cadangan terjadwal Anda. Perhatikan bahwa cadangan sebenarnya disimpan di bucket Cloud Storage yang Anda berikan dalam konfigurasi cadangan terjadwal.

gcloud CLI

  1. Jalankan perintah gcloud storage ls berikut:

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Ganti kode berikut:

    • BUCKET_NAME: jalur ke bucket Cloud Storage yang menyimpan cadangan terjadwal yang ingin Anda lihat.
    • SERVICE: ID atau ID lengkap untuk cadangan terjadwal.
    • LOCATION: region tempat layanan Dataproc Metastore Anda berada. Google Cloud

REST

Ikuti petunjuk API untuk melihat cadangan terjadwal menggunakan APIs Explorer.

Memecahkan masalah umum

Langkah berikutnya