Tipos de ficheiros e modos de análise suportados

Esta página indica os tipos de ficheiros que a Proteção de dados confidenciais pode analisar e descreve os modos de análise que a Proteção de dados confidenciais usa para analisar ficheiros.

Tipos de ficheiros suportados em operações de inspeção e desidentificação

A tabela seguinte mostra os tipos de ficheiros que a proteção de dados confidenciais pode inspecionar e transformar (desidentificar).

A Proteção de dados confidenciais baseia-se nas extensões de ficheiros e nos tipos de multimédia (MIME) para identificar os tipos de ficheiros a analisar e os modos de análise a aplicar. Por exemplo, a Proteção de dados confidenciais analisa um ficheiro .txt no modo de texto simples, mesmo que o ficheiro esteja estruturado como um ficheiro CSV, que é normalmente analisado no modo de análise estruturada.

Tipo de ficheiro Extensões de ficheiros Limites Modo de procura Apoio técnico para transformações
Apache Avro

avro

Limites do Avro Análise estruturada
Comma- or tab-separated values

csv, tsv

Análise estruturada Remova a identificação do conteúdo
PDF

pdf

Limites de PDF Análise inteligente de documentos
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Texto simples Remova a identificação do conteúdo
Microsoft Word

docm, docx, dotm e dotx

Limites de palavras Análise inteligente de documentos
Microsoft Excel

xlsm, xlsx, xltm e xltx

Limites do Excel Análise inteligente de documentos
Microsoft Powerpoint

potm, potx, pptm, pptx

Limites do PowerPoint Análise inteligente de documentos
Image

bmp, gif, jpe, jpeg, jpg e png

OCR Ocultação
Binary

Tipos de ficheiros não reconhecidos e imagens que não podem ser analisadas através do reconhecimento ótico de carateres (OCR).

Binário

Clusters de ficheiros suportados em operações de descoberta

Durante a deteção, a Proteção de dados confidenciais organiza os ficheiros detetados em clusters de ficheiros. Estes clusters são grupos de tipos de ficheiros semelhantes. A tabela seguinte mostra os clusters de ficheiros e as extensões de ficheiros suportados. Nem todos os ficheiros detetados são analisáveis.

Os ficheiros podem mover-se entre clusters de ficheiros à medida que a proteção de dados confidenciais adiciona suporte para mais clusters de ficheiros. À medida que o suporte de análise aumenta, o serviço de deteção pode começar a analisar ficheiros que não eram analisados anteriormente. A faturação é feita conforme descrito nos preços do Discovery.

Conjunto de ficheiros Extensões de ficheiros Limites Modo de procura
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Texto simples
Source Code

bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Texto simples
Structured Data

avro, csv, tsv, proto

Análise estruturada para ficheiros avro, csv e tsv. Análise de texto simples para ficheiros proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

São analisados ficheiros PDF, Microsoft Word, Excel e PowerPoint suportados com menos de 30 MiB. Análise inteligente de documentos
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff e webp

As imagens suportadas (bmp, gif, jpe, jpeg, jpg e png) com menos de 4 MiB são analisadas através de OCR em regiões que o suportam. Fora destas regiões, as imagens não são analisadas. OCR
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

Não analisado neste momento
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 and variants, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

A proteção de dados confidenciais analisa ficheiros em arquivos com estas extensões de ficheiros: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz e zip

O modo de análise usado para cada ficheiro depende do tipo de ficheiro.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (com DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

Não analisado neste momento
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

Não analisado neste momento
Unknown Qualquer outro ficheiro que não esteja noutro cluster. Estes são ficheiros que não têm extensões ou usam extensões comuns, mas não padrão, como .dat, .1 ou .2 Não analisado neste momento

Tipos de ficheiros não reconhecidos no Cloud Storage

Se um ficheiro não for reconhecido durante uma análise de armazenamento, o sistema analisa-o por predefinição como um ficheiro binário. Tenta converter o conteúdo para UTF_8 e, em seguida, analisa-o como texto simples.

Se um ficheiro não for reconhecido durante uma análise de deteção, o sistema não o analisa.

Se tiver uma coleção de ficheiros que quer ignorar porque a proteção de dados confidenciais não os reconhece, pode especificar uma lista de exclusão através de CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites de bytes analisados por ficheiro

Em geral, pode limitar o número de bytes analisados por ficheiro. NaGoogle Cloud consola, pode fazê-lo ativando a amostragem. Na API Cloud Data Loss Prevention, define o campo bytes_limit_per_file ou bytesLimitPerFilePercent.

A amostragem não é suportada nos modos de OCR e análise inteligente. Ou seja, quando os seguintes tipos de ficheiros são analisados no modo de OCR ou de análise inteligente de documentos, a proteção de dados confidenciais ignora todas as definições que aplicar para limitar os bytes analisados por ficheiro.

  • Imagem
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se analisar estes ficheiros no modo binário, aplicam-se os limites.

Modos de análise

Cada modo de análise fornece detalhes de localização adicionais nos resultados da inspeção.

Modo de procura Notas Vão ser fornecidos detalhes de localização adicionais
Binário

Se não for possível analisar um ficheiro como qualquer outro tipo, este é convertido para UTF_8 e analisado como texto. A análise binária afeta a qualidade da deteção.

Análise inteligente de documentos

Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários.

DocumentLocation
Extração de metadados

Todos os ficheiros analisados a partir do Cloud Storage têm a indicação metadata, além do conteúdo do ficheiro.

MetadataLocation
Reconhecimento ótico de carateres (OCR)

As imagens são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários.

ImageLocation
Texto simples

Sem detalhes adicionais
Análise estruturada

As informações estruturais são usadas para influenciar as conclusões. Neste modo de análise, a proteção de dados confidenciais usa as informações do cabeçalho para contexto. Executa uma análise de linhas e colunas cruzadas para encontrar dados correlacionados. Por exemplo, este modo de análise pode identificar uma morada cuja rua cujos componentes estão distribuídos por várias colunas numa linha.

Os resultados da análise contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna.

As conclusões não atravessam os limites das células de uma tabela.

RecordLocation

Analisar ficheiros estruturados no modo de análise estruturada

Quando analisa um ficheiro estruturado, como um ficheiro Avro, CSV ou TSV, a Proteção de dados confidenciais tenta analisar o ficheiro no modo de análise de análise sintática estruturada. Este modo de análise tem uma qualidade de deteção superior em comparação com a análise binária, porque o modo de análise estruturada pesquisa correlações entre linhas e colunas nos dados estruturados. Os resultados são devolvidos com metadados adicionais que indicam a localização do resultado, incluindo o fieldId.

No entanto, nos seguintes casos, a proteção de dados confidenciais pode reverter para o modo de análise binária, que não inclui os melhoramentos do modo de análise estruturada:

  • O ficheiro ou o cabeçalho está danificado.
  • A configuração da tarefa de inspeção tem limites de tamanho, como bytesLimitPerFile e bytesLimitPerFilePercent, que são demasiado pequenos. Por exemplo, se o limite de bytesLimitPerFile não for suficientemente grande para incluir um cabeçalho de bloco completo e, pelo menos, uma linha de dados válidos, a proteção de dados confidenciais pode analisar esse ficheiro no modo de análise binária.

A seleção dos dados analisados depende de a amostragem estar definida para começar a partir da parte superior do ficheiro ou de uma posição aleatória.

Por exemplo, suponha que tem um ficheiro Avro com cabeçalhos de blocos de 50 KB e blocos de dados de 2 MB. Em geral, iniciar a amostragem a partir da parte superior ajuda a garantir que o cabeçalho do bloco é sempre incluído na amostra que o Sensitive Data Protection recolhe. Se começar a amostragem a partir de uma posição aleatória no ficheiro e o tamanho da amostra for inferior a um bloco de dados, existe a possibilidade de o cabeçalho do bloco não estar incluído na amostra. Neste exemplo, o aumento do tamanho da amostra (especificado por bytesLimitPerFile ou bytesLimitPerFilePercent) para 2,05 MB ajuda a evitar que a inspeção reverta para o modo de análise binária.

Exemplo: quando o tamanho da amostra é demasiado pequeno, a inspeção pode não incluir o cabeçalho do bloqueio.
Exemplo: quando o tamanho da amostra é demasiado pequeno, a inspeção pode não incluir o cabeçalho do bloco (clique para aumentar).