Menyamarkan data rahasia

Tutorial ini menunjukkan cara menggunakan plugin Cloud Data Fusion untuk Cloud DLP guna menyamarkan data sensitif.

Skenario

Pertimbangkan skenario berikut, di mana beberapa informasi sensitif pelanggan harus disamarkan:

Tim dukungan Anda mencatat detail setiap kasus dukungan yang mereka tangani dalam tiket dukungan. Semua informasi dalam tiket dukungan akan ditarik ke dalam file CSV. Teknisi dukungan tidak boleh mendokumentasikan informasi pelanggan apa pun yang dianggap sensitif, tetapi terkadang mereka melakukannya secara keliru. Anda melihat bahwa dalam file CSV, nomor telepon beberapa pelanggan muncul.

Anda ingin membuka file CSV dan menyembunyikan semua nomor telepon. Anda membuat pipeline Cloud Data Fusion yang menyamarkan data pelanggan sensitif dengan menggunakan plugin Cloud DLP.

Dalam tutorial ini, Anda akan membuat pipeline yang melakukan hal berikut:

  • Menyensor nomor telepon pelanggan dengan menyamarkannya menggunakan karakter #.
  • Menyimpan data sensitif yang disamarkan dan data yang tidak sensitif di bucket Cloud Storage.

Buat pipeline

Buat pipeline yang menyamarkan data pelanggan sensitif. Pipeline yang Anda buat melakukan hal berikut:

  • Membaca data input menggunakan plugin sumber Cloud Storage.
  • Men-deploy plugin Cloud DLP dari Hub.
  • Menulis data output menggunakan plugin sink Cloud Storage.

Memuat data pelanggan

Tutorial ini menggunakan set data input, CallCenterRecords.csv, yang disediakan di bucket Cloud Storage yang tersedia secara publik.

  1. Buka instance Cloud Data Fusion Anda, lalu klik Menu > Studio.

  2. Di menu Source, klik plugin Cloud Storage.

    Pilih plugin.

  3. Pada node Cloud Storage, klik Properties.

  4. Di kolom Nama referensi, masukkan nama.

  5. Di kolom Path, masukkan gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Di kolom Format, pilih CSV.

  7. Untuk Output Schema, hapus kolom offset dan body. Klik Tambahkan, lalu masukkan kolom berikut:

    • Tanggal
    • Bank
    • Negara bagian/Provinsi
    • Kode Pos
    • Catatan

    Masukkan properti sumber.

  8. Klik Validasi untuk memeriksa apakah ada error.

  9. Klik Tutup.

Menyamarkan data sensitif

Plugin Redaksi Cloud DLP mengidentifikasi catatan sensitif dalam aliran data input Anda dan menerapkan transformasi yang Anda tentukan ke catatan tersebut. Kumpulan data dianggap sensitif jika cocok dengan filter Cloud DLP yang telah ditentukan sebelumnya yang Anda pilih atau template kustom yang Anda tentukan.

Dalam tutorial ini, Anda ingin menyamarkan nomor telepon pelanggan yang secara tidak sengaja dicatat oleh beberapa teknisi dukungan di tim Anda. Mereka memasukkan informasi sensitif di bagian Catatan tiket dukungan, yang muncul sebagai kolom Catatan dalam file CSV. Anda membuat template Cloud DLP kustom, lalu memberikan ID template di menu properti plugin.

Men-deploy plugin Cloud DLP

  1. Di instance Cloud Data Fusion Anda, klik Hub.

  2. Klik plugin Cloud DLP.

  3. Klik Deploy.

  4. Klik Selesai.

  5. Klik Tutup untuk keluar dari dialog Cloud DLP.

  6. Klik Tutup untuk keluar dari Hub.

Membuat template kustom

  1. Di konsol Google Cloud , buka halaman Cloud DLP.

    Buka Cloud DLP

  2. Dari menu Buat, pilih Template. gambar

  3. Di kolom Template ID, masukkan ID untuk template Anda.

  4. Klik Lanjutkan.

  5. Di kolom Konfigurasi deteksi, klik Kelola infotipe.

  6. Di tab Bawaan, gunakan filter untuk menelusuri "nomor telepon".

    Filter.

  7. Pilih PHONE_NUMBER.

  8. Klik Selesai > Buat.

Pelajari lebih lanjut cara membuat template Cloud DLP.

Menerapkan transformasi Redact Cloud DLP

  1. Buka halaman Studio Cloud Data Fusion, lalu klik untuk meluaskan menu Transformasi.

  2. Klik plugin Redact Cloud DLP.

    Klik plugin untuk menambahkannya ke pipeline Anda.

  3. Tarik panah koneksi dari node Cloud Storage ke node Redact.

    Hubungkan kedua node.

  4. Arahkan kursor ke node Redact, lalu klik Properties.

    1. Tetapkan Template Kustom ke Yes.

    2. Di kolom Template ID, masukkan ID template template kustom yang Anda buat.

    3. Di kolom Pencocokan , terapkan Penyamaran pada Template kustom dalam Catatan.

    4. Di kolom Karakter Masking, masukkan #.

      Masker.

    5. Klik Validasi untuk memeriksa apakah ada error.

    6. Klik Tutup.

Menyimpan data output

Simpan hasil pipeline Anda dalam file Cloud Storage.

  1. Dari halaman Studio, klik untuk meluaskan menu Sinkronkan.

  2. Klik Cloud Storage.

  3. Tarik panah koneksi dari node Redact ke node Cloud Storage2.

    Hubungkan node Redact ke node Cloud Storage kedua.

  4. Arahkan pointer ke node Cloud Storage2, lalu klik Properties.

    1. Di kolom Nama referensi, masukkan nama.

    2. Di kolom Path, masukkan jalur bucket Cloud Storage tempat Anda ingin menyimpan hasil pipeline. Cloud Data Fusion akan membuat bucket untuk Anda. Pastikan untuk mengikuti panduan penamaan bucket.

    3. Di kolom Format, pilih CSV.

    4. Klik Validasi untuk memastikan tidak ada error.

    5. Klik Tutup.

Menjalankan pipeline dalam mode pratinjau

Jalankan pipeline dalam mode pratinjau sebelum Anda men-deploy-nya.

  1. Klik Pratinjau, lalu klik Jalankan.

    Jalankan pipeline.

    Mengklik Run akan menampilkan status pipeline, yang dimulai dengan Starting, lalu berubah menjadi Stop, dan kemudian menjadi Run.

  2. Setelah pratinjau selesai dijalankan, di node Redact, klik Preview Data untuk melihat perbandingan data input dan output secara berdampingan. Periksa apakah nomor telepon telah disamarkan dengan karakter #.

    Pastikan nomor telepon disamarkan.

Menyembunyikan jenis data lain

Saat memeriksa hasil eksekusi pratinjau, Anda melihat bahwa masih ada informasi sensitif yang muncul di kolom Catatan: alamat email. Anda kembali dan mengedit template Cloud DLP untuk menyamarkan alamat email juga.

  1. Di konsol Google Cloud , buka halaman Cloud DLP.

    Buka halaman Cloud DLP

  2. Di tab Configuration, pilih template Anda.

  3. Klik Edit.

  4. Klik Kelola infotipe.

  5. Di tab Bawaan, gunakan filter untuk menelusuri "OR" "alamat email".

    Filter.

  6. Pilih semua, lalu klik Selesai.

  7. Klik Simpan.

  8. Sekali lagi, jalankan pipeline dalam mode pratinjau. Cloud Data Fusion akan otomatis menggunakan template Cloud DLP yang diperbarui.

  9. Pastikan kedua nomor telepon dan alamat email telah disamarkan dengan karakter #.

    Pastikan data disamarkan.

Men-deploy dan menjalankan pipeline

  1. Pastikan mode Pratinjau tidak dicentang.

  2. Klik Simpan. Mengklik Simpan akan meminta Anda memberi nama pipeline. Kemudian, klik Oke.

  3. Klik Deploy.

  4. Setelah deployment selesai, klik Jalankan. Menjalankan pipeline dapat memerlukan waktu beberapa menit. Sambil menunggu, Anda dapat mengamati transisi Status pipeline dari Provisioning ke Starting ke Running ke Deprovisioning ke Succeeded.

Melihat hasil

  1. Di Google Cloud konsol, buka halaman Cloud Storage.

    Buka Cloud Storage

  2. Di Storage browser, buka bucket Cloud Storage sink yang Anda tentukan di properti plugin Cloud Storage sink.

  3. Di URL Link, klik link untuk mendownload file CSV dengan hasilnya. Pastikan nomor telepon dan alamat email telah disamarkan dengan karakter #.

    Pastikan data disamarkan.