Jenis file dan mode pemindaian yang didukung

Halaman ini mencantumkan jenis file yang dapat dipindai oleh Sensitive Data Protection dan menjelaskan mode pemindaian yang digunakan Sensitive Data Protection untuk menganalisis file.

Jenis file yang didukung dalam operasi inspeksi dan de-identifikasi

Tabel berikut menunjukkan jenis file yang dapat diperiksa dan diubah (dide-identifikasi) oleh Sensitive Data Protection.

Perlindungan Data Sensitif mengandalkan ekstensi file dan jenis media (MIME) untuk mengidentifikasi jenis file yang akan dipindai dan mode pemindaian yang akan diterapkan. Misalnya, Sensitive Data Protection memindai file .txt dalam mode teks biasa, meskipun file tersebut terstruktur sebagai file CSV, yang biasanya dipindai dalam mode penguraian terstruktur.

Jenis file Ekstensi file Batas Mode pemindaian Dukungan transformasi
Apache Avro

avro

Batas Avro Penguraian terstruktur
Comma- or tab-separated values

csv, tsv

Penguraian terstruktur De-identifikasi konten
PDF

pdf

Batas PDF Penguraian dokumen cerdas
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Teks biasa De-identifikasi konten
Microsoft Word

docm, docx, dotm, dotx

Batas kata Penguraian dokumen cerdas
Microsoft Excel

xlsm, xlsx, xltm, xltx

Batas Excel Penguraian dokumen cerdas
Microsoft Powerpoint

potm, potx, pptm, pptx

Batas Powerpoint Penguraian dokumen cerdas
Image

bmp, gif, jpe, jpeg, jpg, png

  • OCR
  • Deteksi konten gambar
  • Klasifikasi konten gambar
Penyamaran
Binary

Jenis file yang tidak dikenali dan gambar yang tidak dapat dipindai menggunakan pengenalan karakter optik (OCR), deteksi konten gambar, atau klasifikasi konten gambar.

Biner

Cluster file yang didukung dalam operasi penemuan

Selama penemuan, Sensitive Data Protection mengatur file yang terdeteksi ke dalam kelompok file. Klaster ini adalah kelompok jenis file yang serupa. Tabel berikut menunjukkan cluster file dan ekstensi file yang didukung. Tidak semua file yang terdeteksi dapat dipindai.

File dapat berpindah antar-cluster file saat Perlindungan Data Sensitif menambahkan dukungan untuk lebih banyak cluster file. Seiring dukungan pemindaian diperluas, layanan penemuan mungkin mulai memindai file yang sebelumnya tidak dipindai. Anda ditagih seperti yang dijelaskan dalam harga Discovery.

Kelompok file Ekstensi file Batas Mode pemindaian
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Teks biasa
Source Code

bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Teks biasa
Structured Data

avro, csv, tsv, proto

Penguraian terstruktur untuk file avro, csv, dan tsv. Penguraian teks biasa untuk file proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

File PDF, Microsoft Word, Excel, dan PowerPoint yang didukung dan berukuran kurang dari 30 MiB akan dipindai. Penguraian dokumen cerdas
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp

Gambar yang didukung (bmp, gif, jpe, jpeg, jpg, dan png) yang ukurannya lebih kecil dari 4 MiB dipindai menggunakan OCR di wilayah yang mendukung pemindaian gambar.
  • OCR
  • Deteksi konten gambar
  • Klasifikasi konten gambar
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

Saat ini tidak dipindai
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 dan variannya, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

Sensitive Data Protection memindai file dalam arsip yang memiliki ekstensi file berikut: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip

Mode pemindaian yang digunakan untuk setiap file bergantung pada jenis file.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (dengan DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

Saat ini tidak dipindai
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

Saat ini tidak dipindai
Unknown File lain yang tidak berada dalam cluster lain. Ini adalah file yang tidak memiliki ekstensi atau menggunakan ekstensi umum tetapi tidak standar, seperti .dat atau .1 atau .2 Saat ini tidak dipindai

Jenis file yang tidak dikenal di Cloud Storage

Jika file tidak dikenali selama pemindaian penyimpanan, sistem akan memindai file tersebut sebagai file biner secara default. Lalu, konten akan dikonversi ke UTF_8, dan dipindai sebagai teks biasa.

Jika file tidak dikenali selama pemindaian penemuan, sistem tidak akan memindainya.

Jika Anda memiliki kumpulan file yang ingin dilewati karena tidak dikenali oleh Sensitive Data Protection, Anda dapat menentukan daftar pengecualian menggunakan CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Batas byte yang dipindai per file

Secara umum, Anda dapat membatasi jumlah byte yang dipindai per file. Di konsolGoogle Cloud , Anda dapat melakukannya dengan mengaktifkan pengambilan sampel. Di Cloud Data Loss Prevention API, Anda menetapkan kolom bytes_limit_per_file atau bytesLimitPerFilePercent.

Pengambilan sampel tidak didukung dalam mode OCR dan penguraian cerdas. Artinya, saat jenis file berikut dipindai dalam mode OCR atau penguraian dokumen cerdas, Perlindungan Data Sensitif mengabaikan setelan apa pun yang Anda terapkan untuk membatasi byte yang dipindai per file.

  • Gambar
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Jika Anda memindai file ini dalam mode biner, batas akan berlaku.

Mode pemindaian

Setiap mode pemindaian memberikan detail lokasi tambahan dalam temuan pemeriksaan.

Mode pemindaian Catatan Detail lokasi tambahan yang akan diberikan
Biner

Jika file gagal diurai sebagai jenis lain, file tersebut akan dikonversi ke UTF_8 dan dipindai sebagai teks. Pemindaian biner memengaruhi kualitas deteksi.

Penguraian dokumen cerdas

Dokumen diuraikan dengan teks yang diekstrak dari pemformatan. Gambar yang disematkan dipindai menggunakan OCR di wilayah yang mendukungnya . Di luar wilayah ini, gambar dipindai sebagai file biner.

DocumentLocation
Ekstraksi metadata

Semua file yang dipindai dari Cloud Storage akan memiliki metadata yang dipindai di selain konten file.

MetadataLocation
Pengenalan karakter optik (OCR)

Di wilayah yang mendukung pemindaian gambar, Perlindungan Data Sensitif menggunakan OCR untuk menemukan infoType berbasis teks dalam gambar.

ImageLocation
Deteksi konten gambar

Di region yang mendukung pemindaian gambar, Perlindungan Data Sensitif dapat menganalisis piksel dan fitur gambar secara langsung, bukan teks yang diekstrak dari gambar. Mode pemindaian ini berfokus pada menemukan item tertentu dalam gambar dan menghasilkan kotak pembatas di sekitarnya. Misalnya, mode pemindaian ini dapat mendeteksi seseorang atau kode batang di lokasi tertentu dalam gambar.

Sensitive Data Protection menggunakan mode pemindaian ini untuk objek infoType yang ditentukan dalam konfigurasi inspeksi atau penyamaran.

ImageLocation
Klasifikasi konten gambar

Di region yang mendukung pemindaian gambar, Perlindungan Data Sensitif dapat menganalisis piksel dan fitur gambar secara langsung, bukan teks yang diekstrak dari gambar. Mode pemindaian ini menganalisis seluruh gambar untuk menetapkan satu tema atau kategori dan menghasilkan label atau klasifikasi.

Sensitive Data Protection menggunakan mode pemindaian ini untuk setiap image context infoType detectors yang ditentukan dalam konfigurasi inspeksi atau penyamaran.

ImageLocation
Teks biasa

Tidak ada detail tambahan
Penguraian terstruktur

Informasi struktural digunakan untuk memengaruhi temuan. Dalam mode pemindaian ini, Sensitive Data Protection menggunakan informasi header untuk konteks. Fungsi ini melakukan analisis lintas baris dan lintas kolom untuk menemukan data yang berkorelasi. Misalnya, mode pemindaian ini dapat mengidentifikasi alamat jalan yang komponennya didistribusikan di beberapa kolom dalam baris.

Hasil pemindaian berisi informasi struktural, seperti baris yang berisi temuan dan nama kolom.

Temuan tidak melintasi batas sel tabel.

RecordLocation

Memindai file terstruktur dalam mode penguraian terstruktur

Saat Anda memindai file terstruktur—seperti file Avro, CSV, atau TSV—Sensitive Data Protection akan mencoba memindai file dalam mode pemindaian penguraian terstruktur. Mode pemindaian ini memiliki kualitas deteksi yang lebih baik dibandingkan dengan pemindaian biner karena mode penguraian terstruktur mencari korelasi antara baris dan kolom dalam data terstruktur. Temuan ditampilkan dengan metadata tambahan yang menunjukkan lokasi temuan, termasuk fieldId.

Namun, dalam kasus berikut, Perlindungan Data Sensitif mungkin kembali ke mode pemindaian biner, yang tidak mencakup peningkatan mode parsing terstruktur:

  • File atau header rusak.
  • Konfigurasi tugas pemeriksaan memiliki batas ukuran—seperti bytesLimitPerFile dan bytesLimitPerFilePercent—yang terlalu kecil. Misalnya, jika batas bytesLimitPerFile tidak cukup besar untuk menyertakan header blok lengkap dan setidaknya satu baris data yang valid, maka Sensitive Data Protection dapat memindai file tersebut dalam mode pemindaian biner.

Pemilihan data yang dipindai bergantung pada apakah sampling disetel untuk dimulai dari bagian atas file atau dari posisi acak.

Misalnya, Anda memiliki file Avro yang memiliki header blok 50 KB dan blok data 2 MB. Secara umum, memulai sampel dari atas akan membantu Anda memastikan bahwa header blok selalu disertakan dalam sampel yang diambil oleh Sensitive Data Protection. Jika Anda memulai pengambilan sampel dari posisi acak dalam file dan ukuran sampel lebih kecil dari blok data, ada kemungkinan header blok tidak disertakan dalam sampel. Dalam contoh ini, meningkatkan ukuran sampel (ditentukan oleh bytesLimitPerFile atau bytesLimitPerFilePercent) menjadi 2,05 MB akan membantu mencegah inspeksi kembali ke mode parsing biner.

Contoh: Jika ukuran sampel terlalu kecil, pemeriksaan mungkin tidak menyertakan header blok.
Contoh: Jika ukuran sampel terlalu kecil, inspeksi mungkin tidak menyertakan header blok (klik untuk memperbesar).