De-identifikasi

Sensitive Data Protection menggunakan jenis informasi—atau infoType—untuk menentukan apa yang dipindai. InfoType adalah jenis data sensitif, seperti nama, alamat email, nomor telepon, nomor identifikasi, nomor kartu kredit, dan sebagainya.

Setiap infoType yang ditentukan di Sensitive Data Protection memiliki pendeteksi yang sesuai. Sensitive Data Protection menggunakan pendeteksi infoType dalam konfigurasi pemindaiannya untuk menentukan apa yang akan diperiksa dan cara mengubah temuan. Nama infoType juga digunakan saat menampilkan atau melaporkan hasil pemindaian.

Topik ini menjelaskan infoType dan pendeteksi infoType secara mendetail, serta memberikan panduan tentang cara menggunakan pendeteksi infoType saat memindai konten untuk data sensitif menggunakan Sensitive Data Protection.

Menentukan pendeteksi infoType

Saat menyiapkan Sensitive Data Protection untuk memindai konten, Anda menyertakan pendeteksi infoType yang akan digunakan dalam konfigurasi pemindaian.

Misalnya, JSON berikut menunjukkan permintaan pemindaian sederhana ke DLP API. Perhatikan bahwa pendeteksi PHONE_NUMBER ditentukan dalam inspectConfig, yang menginstruksikan Sensitive Data Protection untuk memindai string yang diberikan untuk nomor telepon.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Permintaan sebelumnya menampilkan hal berikut:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Selalu tentukan infoTypes dalam konfigurasi pemindaian. Jika Anda tidak menentukan infoType apa pun, Sensitive Data Protection akan menggunakan daftar infoType default. Bergantung pada jumlah konten yang akan dipindai, pemindaian untuk infoType default dapat menghabiskan waktu atau biaya yang sangat besar.

Untuk mengetahui informasi selengkapnya tentang cara menggunakan pendeteksi infoType untuk memindai konten, lihat salah satu topik panduan tentang pemeriksaan, pengeditan, atau de-identifikasi.

Jenis pendeteksi infoType

Pendeteksi jenis informasi (atau "infoType") adalah mekanisme yang digunakan Sensitive Data Protection untuk menemukan data sensitif.

Sensitive Data Protection mencakup beberapa jenis pendeteksi infoType, yang semuanya diringkas di sini:

  • Pendeteksi infoType bawaan sudah ada di Sensitive Data Protection. Pendeteksi ini mencakup pendeteksi untuk jenis data sensitif khusus negara atau wilayah serta jenis data yang berlaku secara global.
  • _Pendeteksi infoType kustom_ adalah pendeteksi yang Anda buat sendiri. Ada tiga jenis pendeteksi infoType kustom:
    • Pendeteksi kamus kustom reguler adalah daftar kata sederhana yang dicocokkan oleh Sensitive Data Protection. Gunakan pendeteksi kamus kustom reguler jika Anda memiliki daftar hingga beberapa puluh ribu kata atau frasa. Pendeteksi kamus kustom reguler lebih disukai jika Anda tidak memperkirakan daftar kata Anda akan berubah secara signifikan.
    • Pendeteksi kamus kustom tersimpan dibuat oleh Sensitive Data Protection menggunakan daftar kata atau frasa besar yang disimpan di Cloud Storage atau BigQuery. Gunakan pendeteksi kamus kustom tersimpan jika Anda memiliki daftar kata atau frasa yang besar—hingga puluhan juta.
    • Pendeteksi ekspresi reguler (regex) memungkinkan Sensitive Data Protection mendeteksi kecocokan berdasarkan pola ekspresi reguler.

Untuk menyempurnakan hasil pemindaian, Anda dapat membuat aturan pemeriksaan.

Pendeteksi infoType bawaan

Pendeteksi infoType bawaan sudah ada di Sensitive Data Protection, dan mencakup pendeteksi untuk jenis data sensitif khusus negara atau wilayah seperti _Numéro d'Inscription au Répertoire (NIR)_ Prancis (FRANCE_NIR), nomor surat izin mengemudi Inggris (UK_DRIVERS_LICENSE_NUMBER), dan nomor Jaminan Sosial AS (US_SOCIAL_SECURITY_NUMBER). Pendeteksi ini juga mencakup jenis data yang berlaku secara global seperti nama orang (PERSON_NAME), nomor telepon (PHONE_NUMBER), alamat email (EMAIL_ADDRESS), dan nomor kartu kredit (CREDIT_CARD_NUMBER).Untuk mendeteksi konten yang sesuai dengan infoType, Sensitive Data Protection memanfaatkan berbagai teknik termasuk pencocokan pola, checksum, machine learning, analisis konteks, dan lainnya.

Daftar pendeteksi infoType bawaan selalu diperbarui. Untuk mengetahui daftar lengkap pendeteksi infoType bawaan yang saat ini didukung, lihat Referensi pendeteksi infoType.

Anda juga dapat melihat daftar lengkap semua pendeteksi infoType bawaan dengan memanggil infoTypes.list metode Sensitive Data Protection.

Pendeteksi infoType kustom

Ada tiga jenis pendeteksi infoType kustom:

Untuk menyempurnakan hasil pemindaian, Anda dapat membuat aturan pemeriksaan.

Pendeteksi kamus kustom reguler

Gunakan pendeteksi kamus kustom reguler untuk mencocokkan daftar kata atau frasa yang singkat (hingga beberapa puluh ribu). Kamus kustom reguler dapat bertindak sebagai pendeteksi uniknya sendiri.

Pendeteksi kamus kustom berguna jika Anda ingin memindai daftar kata atau frasa yang tidak mudah dicocokkan dengan ekspresi reguler atau pendeteksi bawaan. Misalnya, Anda ingin memindai ruang konferensi yang biasanya disebut dengan nama ruang yang ditetapkan, bukan nomor ruangnya, seperti nama negara atau wilayah, landmark, karakter fiksi, dan sebagainya. Anda dapat membuat pendeteksi kamus kustom reguler yang berisi daftar nama ruang ini. Sensitive Data Protection dapat memindai konten Anda untuk setiap nama ruang dan menampilkan kecocokan saat menemukan salah satunya dalam konteks. Pelajari lebih lanjut cara Sensitive Data Protection mencocokkan kamus kata dan frasa di bagian "Spesifikasi pencocokan kamus" di Membuat Pendeteksi Kamus Kustom Reguler.

Untuk mengetahui detail selengkapnya tentang cara kerja pendeteksi infoType kustom kamus reguler, serta contoh dalam tindakan, lihat Membuat Pendeteksi Kamus Kustom Reguler Detektor.

Pendeteksi kamus kustom tersimpan

Gunakan pendeteksi kamus kustom tersimpan jika Anda memiliki lebih dari beberapa kata atau frasa untuk dipindai, atau jika daftar kata atau frasa Anda sering berubah. Pendeteksi kamus kustom tersimpan dapat mencocokkan hingga puluhan juta kata atau frasa.

Pendeteksi kamus kustom tersimpan, karena sifatnya sebagai pendeteksi kustom yang sangat besar, dibuat secara berbeda dari pendeteksi kustom ekspresi reguler dan pendeteksi kamus kustom reguler. Setiap kamus kustom tersimpan memiliki dua komponen:

  • Daftar frasa yang Anda buat dan tentukan. Daftar ini disimpan sebagai file teks dalam Cloud Storage atau kolom dalam tabel BigQuery.
  • File kamus yang dihasilkan, yang dibuat oleh Sensitive Data Protection berdasarkan daftar frasa Anda. File kamus disimpan di Cloud Storage, dan terdiri dari salinan data frasa sumber ditambah filter bloom, yang membantu dalam penelusuran dan pencocokan. Anda tidak dapat mengedit file ini secara langsung.

Setelah membuat daftar kata, lalu menggunakan Sensitive Data Protection untuk membuat kamus kustom, Anda akan memulai atau menjadwalkan pemindaian menggunakan pendeteksi kamus kustom tersimpan dengan cara yang sama seperti pendeteksi infoType lainnya.

Untuk mengetahui detail selengkapnya tentang cara kerja pendeteksi kamus kustom tersimpan, serta contoh dalam tindakan, lihat Membuat Pendeteksi Kamus Kustom Tersimpan.

Ekspresi reguler

Pendeteksi infoType kustom ekspresi reguler (regex) memungkinkan Anda membuat pendeteksi infoType sendiri yang memungkinkan Sensitive Data Protection mendeteksi kecocokan berdasarkan pola regex. Misalnya, Anda memiliki nomor rekam medis dalam bentuk ###-#-#####. Anda dapat menentukan pola regex seperti berikut:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Sensitive Data Protection kemudian akan mencocokkan item seperti ini:

123-4-56789

Anda juga dapat menentukan kemungkinan untuk ditetapkan ke setiap kecocokan infoType kustom. Artinya, saat Sensitive Data Protection mencocokkan urutan yang Anda tentukan, kemungkinan yang Anda tunjukkan akan ditetapkan. Hal ini berguna karena jika regex kustom Anda menentukan urutan yang cukup umum sehingga dapat dengan mudah mencocokkan urutan acak lainnya, Anda tidak ingin Sensitive Data Protection memberi label VERY_LIKELY pada setiap kecocokan. Tindakan ini akan mengurangi kepercayaan pada hasil pemindaian dan berpotensi menyebabkan informasi yang salah di-de-identifikasi.

Untuk mengetahui informasi selengkapnya tentang pendeteksi infoType kustom ekspresi reguler, dan untuk melihatnya dalam tindakan, lihat Membuat Pendeteksi Regex Kustom.