Esta página indica os tipos de ficheiros que a Proteção de dados confidenciais pode analisar e descreve os modos de análise que a Proteção de dados confidenciais usa para analisar ficheiros.
Tipos de ficheiros suportados em operações de inspeção e desidentificação
A tabela seguinte mostra os tipos de ficheiros que a proteção de dados confidenciais pode inspecionar e transformar (desidentificar).
A Proteção de dados confidenciais baseia-se nas extensões de ficheiros e nos tipos de multimédia (MIME) para identificar os tipos de ficheiros a analisar e os modos de análise a aplicar. Por exemplo, a Proteção de dados confidenciais analisa um ficheiro .txt
no modo de texto simples, mesmo que o ficheiro esteja estruturado como um ficheiro CSV, que é normalmente analisado no modo de análise estruturada.
Tipo de ficheiro | Extensões de ficheiros | Limites | Modo de procura | Apoio técnico para transformações |
---|---|---|---|---|
Apache Avro |
avro |
Limites do Avro | Análise estruturada | |
Comma- or tab-separated values | csv, tsv | Análise estruturada | Remova a identificação do conteúdo | |
PDF |
Limites de PDF | Análise inteligente de documentos | ||
Text |
asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml |
Texto simples | Remova a identificação do conteúdo | |
Microsoft Word |
docm, docx, dotm e dotx |
Limites de palavras | Análise inteligente de documentos | |
Microsoft Excel |
xlsm, xlsx, xltm e xltx |
Limites do Excel | Análise inteligente de documentos | |
Microsoft Powerpoint |
potm, potx, pptm, pptx |
Limites do PowerPoint | Análise inteligente de documentos | |
Image |
bmp, gif, jpe, jpeg, jpg e png |
OCR | Ocultação | |
Binary |
Tipos de ficheiros não reconhecidos e imagens que não podem ser analisadas através do reconhecimento ótico de carateres (OCR). |
Binário |
Clusters de ficheiros suportados em operações de descoberta
Durante a deteção, a Proteção de dados confidenciais organiza os ficheiros detetados em clusters de ficheiros. Estes clusters são grupos de tipos de ficheiros semelhantes. A tabela seguinte mostra os clusters de ficheiros e as extensões de ficheiros suportados. Nem todos os ficheiros detetados são analisáveis.
Os ficheiros podem mover-se entre clusters de ficheiros à medida que a proteção de dados confidenciais adiciona suporte para mais clusters de ficheiros. À medida que o suporte de análise aumenta, o serviço de deteção pode começar a analisar ficheiros que não eram analisados anteriormente. A faturação é feita conforme descrito nos preços do Discovery.
Conjunto de ficheiros | Extensões de ficheiros | Limites | Modo de procura |
---|---|---|---|
Text |
asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl |
Texto simples | |
Source Code |
bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml |
Texto simples | |
Structured Data |
avro, csv, tsv, proto |
Análise estruturada para ficheiros avro, csv e tsv. Análise de texto simples para ficheiros proto | |
Rich Documents |
doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx |
São analisados ficheiros PDF, Microsoft Word, Excel e PowerPoint suportados com menos de 30 MiB. | Análise inteligente de documentos |
Images |
bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff e webp |
As imagens suportadas (bmp, gif, jpe, jpeg, jpg e png) com menos de 4 MiB são analisadas através de OCR em regiões que o suportam. Fora destas regiões, as imagens não são analisadas. | OCR |
Executables |
ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm |
Não analisado neste momento | |
Archives |
7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 and variants, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz |
A proteção de dados confidenciais analisa ficheiros em arquivos com estas extensões de ficheiros: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz e zip O modo de análise usado para cada ficheiro depende do tipo de ficheiro. |
|
Multimedia |
3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (com DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv |
Não analisado neste momento | |
AI Models |
caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords |
Não analisado neste momento | |
Unknown |
Qualquer outro ficheiro que não esteja noutro cluster. | Estes são ficheiros que não têm extensões ou usam extensões comuns, mas não padrão, como .dat, .1 ou .2 | Não analisado neste momento |
Tipos de ficheiros não reconhecidos no Cloud Storage
Se um ficheiro não for reconhecido durante uma análise de armazenamento, o sistema analisa-o por predefinição como um ficheiro binário. Tenta converter o conteúdo para UTF_8 e, em seguida, analisa-o como texto simples.
Se um ficheiro não for reconhecido durante uma análise de deteção, o sistema não o analisa.
Se tiver uma coleção de ficheiros que quer ignorar porque a proteção de dados confidenciais não os reconhece, pode especificar uma lista de exclusão através de CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limites de bytes analisados por ficheiro
Em geral, pode limitar o número de bytes analisados por ficheiro. NaGoogle Cloud consola, pode fazê-lo ativando a amostragem. Na API Cloud Data Loss Prevention, define o campo bytes_limit_per_file
ou bytesLimitPerFilePercent
.
A amostragem não é suportada nos modos de OCR e análise inteligente. Ou seja, quando os seguintes tipos de ficheiros são analisados no modo de OCR ou de análise inteligente de documentos, a proteção de dados confidenciais ignora todas as definições que aplicar para limitar os bytes analisados por ficheiro.
- Imagem
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Se analisar estes ficheiros no modo binário, aplicam-se os limites.
Modos de análise
Cada modo de análise fornece detalhes de localização adicionais nos resultados da inspeção.
Modo de procura | Notas | Vão ser fornecidos detalhes de localização adicionais |
---|---|---|
Binário | Se não for possível analisar um ficheiro como qualquer outro tipo, este é convertido para UTF_8 e analisado como texto. A análise binária afeta a qualidade da deteção. |
|
Análise inteligente de documentos | Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários. |
DocumentLocation |
Extração de metadados | Todos os ficheiros analisados a partir do Cloud Storage têm a indicação |
MetadataLocation |
Reconhecimento ótico de carateres (OCR) | As imagens são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários. |
ImageLocation |
Texto simples | Sem detalhes adicionais | |
Análise estruturada | As informações estruturais são usadas para influenciar as conclusões. Neste modo de análise, a proteção de dados confidenciais usa as informações do cabeçalho para contexto. Executa uma análise de linhas e colunas cruzadas para encontrar dados correlacionados. Por exemplo, este modo de análise pode identificar uma morada cuja rua cujos componentes estão distribuídos por várias colunas numa linha. Os resultados da análise contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna. As conclusões não atravessam os limites das células de uma tabela. |
RecordLocation |
Analisar ficheiros estruturados no modo de análise estruturada
Quando analisa um ficheiro estruturado, como um ficheiro Avro, CSV ou TSV, a Proteção de dados confidenciais tenta analisar o ficheiro no modo de análise de análise sintática estruturada. Este modo de análise tem uma qualidade de deteção superior em comparação com a análise binária, porque o modo de análise estruturada pesquisa correlações entre linhas e colunas nos dados estruturados.
Os resultados são devolvidos com metadados adicionais que indicam a localização do resultado, incluindo o fieldId
.
No entanto, nos seguintes casos, a proteção de dados confidenciais pode reverter para o modo de análise binária, que não inclui os melhoramentos do modo de análise estruturada:
- O ficheiro ou o cabeçalho está danificado.
- A configuração da tarefa de inspeção tem limites de tamanho, como
bytesLimitPerFile
ebytesLimitPerFilePercent
, que são demasiado pequenos. Por exemplo, se o limite debytesLimitPerFile
não for suficientemente grande para incluir um cabeçalho de bloco completo e, pelo menos, uma linha de dados válidos, a proteção de dados confidenciais pode analisar esse ficheiro no modo de análise binária.
A seleção dos dados analisados depende de a amostragem estar definida para começar a partir da parte superior do ficheiro ou de uma posição aleatória.
Por exemplo, suponha que tem um ficheiro Avro com cabeçalhos de blocos de 50 KB e blocos de dados de 2 MB. Em geral, iniciar a amostragem a partir da parte superior ajuda a garantir que o cabeçalho do bloco é sempre incluído na amostra que o Sensitive Data Protection recolhe. Se começar a amostragem a partir de uma posição aleatória no ficheiro e o tamanho da amostra for inferior a um bloco de dados, existe a possibilidade de o cabeçalho do bloco não estar incluído na amostra. Neste exemplo, o aumento do tamanho da amostra (especificado por bytesLimitPerFile
ou bytesLimitPerFilePercent
) para 2,05 MB ajuda a evitar que a inspeção reverta para o modo de análise binária.