Tipi di file e modalità di scansione supportati

Questa pagina elenca i tipi di file che Sensitive Data Protection può analizzare e descrive le modalità di analisi utilizzate da Sensitive Data Protection per analizzare i file.

Tipi di file supportati nelle operazioni di ispezione e anonimizzazione

La tabella seguente mostra i tipi di file che Sensitive Data Protection può ispezionare e trasformare (anonimizzare).

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di media (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, la protezione dei dati sensibili analizza un file .txt in modalità testo normale, anche se il file è strutturato come un file CSV, che normalmente viene analizzato in modalità di analisi strutturata.

Tipo di file Estensioni dei file Limiti Modalità di scansione Supporto per la trasformazione
Apache Avro

avro

Limiti di Avro Analisi strutturata
Comma- or tab-separated values

csv, tsv

Analisi strutturata Anonimizza i contenuti
PDF

pdf

Limiti per i PDF Analisi intelligente dei documenti
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Testo normale Anonimizza i contenuti
Microsoft Word

docm, docx, dotm, dotx

Limiti di parole Analisi intelligente dei documenti
Microsoft Excel

xlsm, xlsx, xltm, xltx

Limiti di Excel Analisi intelligente dei documenti
Microsoft Powerpoint

potm, potx, pptm, pptx

Limiti di PowerPoint Analisi intelligente dei documenti
Image

bmp, gif, jpe, jpeg, jpg, png

  • OCR
  • Rilevamento dei contenuti delle immagini
  • Classificazione dei contenuti delle immagini
Oscuramento
Binary

Tipi di file non riconosciuti e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR), il rilevamento dei contenuti delle immagini o la classificazione dei contenuti delle immagini.

Binario

Cluster di file supportati nelle operazioni di rilevamento

Durante il rilevamento, Sensitive Data Protection organizza i file rilevati in cluster di file. Questi cluster sono gruppi di tipi di file simili. La tabella seguente mostra i cluster di file e le estensioni di file supportati. Non tutti i file rilevati sono analizzabili.

I file potrebbero spostarsi tra i cluster di file man mano che Sensitive Data Protection aggiunge il supporto per altri cluster di file. Man mano che il supporto della scansione si espande, il servizio di rilevamento potrebbe iniziare a scansionare file che in precedenza non venivano scansionati. L'addebito viene effettuato come descritto in Prezzi di Discovery.

Cluster di file Estensioni dei file Limiti Modalità di scansione
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Testo normale
Source Code

bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Testo normale
Structured Data

avro, csv, tsv, proto

Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

Vengono scansionati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB. Analisi intelligente dei documenti
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp

Le immagini supportate (bmp, gif, jpe, jpeg, jpg e png) di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che supportano la scansione delle immagini.
  • OCR
  • Rilevamento dei contenuti delle immagini
  • Classificazione dei contenuti delle immagini
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

Al momento non è stata eseguita la scansione
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 e varianti, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

La protezione dei dati sensibili esamina i file all'interno degli archivi che hanno le seguenti estensioni: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip

La modalità di scansione utilizzata per ogni file dipende dal tipo di file.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

Al momento non è stata eseguita la scansione
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

Al momento non è stata eseguita la scansione
Unknown Qualsiasi altro file non incluso in un altro cluster. Si tratta di file privi di estensioni o che utilizzano estensioni comuni ma non standard, come .dat, .1 o .2 Al momento non è stata eseguita la scansione

Tipi di file non riconosciuti in Cloud Storage

Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, il sistema lo scansionerà per impostazione predefinita come file binario. Tenta di convertire i contenuti in UTF_8, quindi li analizza come testo normale.

Se un file non viene riconosciuto durante una scansione di rilevamento, il sistema non lo scansiona.

Se hai una raccolta di file che vuoi ignorare perché Sensitive Data Protection non li riconosce, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti per i byte scansionati per file

In generale, puoi limitare il numero di byte scansionati per file. Nella consoleGoogle Cloud , puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e analisi intelligente. ovvero, quando i seguenti tipi di file vengono scansionati in modalità OCR o analisi intelligente dei documenti, la protezione dei dati sensibili ignora qualsiasi impostazione applicata per limitare i byte scansionati per file.

  • Immagine
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se scansioni questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.

Modalità di scansione Note Dettagli aggiuntivi sulla sede da fornire
Binario

Se l'analisi di un file non riesce con nessun altro tipo, il file verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento.

Analisi intelligente dei documenti

I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari.

DocumentLocation
Estrazione dei metadati

Tutti i file scansionati da Cloud Storage avranno metadata scansionato in aggiunta ai contenuti del file.

MetadataLocation
Riconoscimento ottico dei caratteri (OCR)

Nelle regioni che supportano la scansione delle immagini, Sensitive Data Protection utilizza l'OCR per trovare gli infoType basati su testo nelle immagini.

ImageLocation
Rilevamento dei contenuti delle immagini

Nelle regioni che supportano la scansione di immagini, Sensitive Data Protection può analizzare direttamente i pixel e le funzionalità delle immagini, anziché il testo estratto dalle immagini. Questa modalità di scansione si concentra sulla localizzazione di un elemento specifico all'interno dell'immagine e produce un riquadro di delimitazione intorno all'elemento. Ad esempio, questa modalità di scansione può rilevare una persona o un codice a barre in una posizione specifica di un'immagine.

Sensitive Data Protection utilizza questa modalità di analisi per tutti gli infoType oggetto specificati nella configurazione di ispezione o oscuramento.

ImageLocation
Classificazione dei contenuti delle immagini

Nelle regioni che supportano la scansione di immagini, Sensitive Data Protection può analizzare direttamente i pixel e le funzionalità delle immagini, anziché il testo estratto dalle immagini. Questa modalità di scansione analizza l'intera immagine per assegnare un singolo tema o categoria e produce un'etichetta o una classificazione.

Sensitive Data Protection utilizza questa modalità di scansione per qualsiasi immagine rilevatore di infoType contestuali specificato nella configurazione di ispezione o oscuramento.

ImageLocation
Testo normale

Nessun dettaglio aggiuntivo
Analisi strutturata

Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di analisi può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive.

I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il risultato e il nome della colonna.

I risultati non superano i limiti delle celle di una tabella.

RecordLocation

Scansione dei file strutturati in modalità di analisi strutturata

Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di eseguire la scansione del file in modalità di scansione dell'analisi strutturata. Questa modalità di scansione ha una qualità di rilevamento superiore rispetto alla scansione binaria perché la modalità di analisi strutturata cerca correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, incluso il fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

  • Il file o l'intestazione è danneggiato.
  • La configurazione del job di ispezione ha limiti di dimensioni, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent, che sono troppo piccoli. Ad esempio, se il limite di bytesLimitPerFile non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe scansionare il file in modalità di scansione binaria.

La selezione dei dati scansionati dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.

Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco da 50 KB e blocchi di dati da 2 MB. In generale, iniziare il campionamento dall'inizio consente di assicurarsi che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, l'aumento delle dimensioni del campione (specificato da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire che l'ispezione ritorni alla modalità di analisi binaria.

Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco.
Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).