O Cloud Data Loss Prevention (Cloud DLP) faz agora parte da Proteção de dados confidenciais. O nome da API permanece o mesmo: Cloud Data Loss Prevention API (API DLP). Para informações sobre os serviços que compõem a proteção de dados confidenciais, consulte o artigo Vista geral da proteção de dados confidenciais.

Tipos de ficheiros e modos de análise suportados

Esta página indica os tipos de ficheiros que a Proteção de dados confidenciais pode analisar e descreve os modos de análise que a Proteção de dados confidenciais usa para analisar ficheiros.

Tipos de ficheiros suportados em operações de inspeção e desidentificação

A tabela seguinte mostra os tipos de ficheiros que a proteção de dados confidenciais pode inspecionar e transformar (desidentificar).

A Proteção de dados confidenciais baseia-se nas extensões de ficheiros e nos tipos de multimédia (MIME) para identificar os tipos de ficheiros a analisar e os modos de análise a aplicar. Por exemplo, a Proteção de dados confidenciais analisa um ficheiro .txt no modo de texto simples, mesmo que o ficheiro esteja estruturado como um ficheiro CSV, que é normalmente analisado no modo de análise estruturada.

Tipo de ficheiro	Extensões de ficheiros	Limites	Modo de procura	Apoio técnico para transformações
`Apache Avro`	avro	Limites do Avro	Análise estruturada
`Comma- or tab-separated values`	csv, tsv Nota: para analisar um ficheiro CSV ou TSV no modo de análise estruturada, certifique-se de que o delimitador do ficheiro corresponde à respetiva extensão do ficheiro. Ou seja, um ficheiro `.csv` tem de ser delimitado por vírgulas e um ficheiro `.tsv` tem de ser delimitado por tabulações.		Análise estruturada	Remova a identificação do conteúdo
`PDF`	pdf	Limites de PDF	Análise inteligente de documentos
`Text`	asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml		Texto simples	Remova a identificação do conteúdo
`Microsoft Word`	docm, docx, dotm e dotx	Limites de palavras	Análise inteligente de documentos
`Microsoft Excel`	xlsm, xlsx, xltm e xltx	Limites do Excel	Análise inteligente de documentos
`Microsoft Powerpoint`	potm, potx, pptm, pptx	Limites do PowerPoint	Análise inteligente de documentos
`Image`	bmp, gif, jpe, jpeg, jpg e png		OCR	Ocultação
`Binary`	Tipos de ficheiros não reconhecidos e imagens que não podem ser analisadas através do reconhecimento ótico de carateres (OCR).		Binário

Clusters de ficheiros suportados em operações de descoberta

Durante a deteção, a Proteção de dados confidenciais organiza os ficheiros detetados em clusters de ficheiros. Estes clusters são grupos de tipos de ficheiros semelhantes. A tabela seguinte mostra os clusters de ficheiros e as extensões de ficheiros suportados. Nem todos os ficheiros detetados são analisáveis.

Os ficheiros podem mover-se entre clusters de ficheiros à medida que a proteção de dados confidenciais adiciona suporte para mais clusters de ficheiros. À medida que o suporte de análise aumenta, o serviço de deteção pode começar a analisar ficheiros que não eram analisados anteriormente. A faturação é feita conforme descrito nos preços do Discovery.

Conjunto de ficheiros	Extensões de ficheiros	Limites	Modo de procura
`Text`	asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl		Texto simples
`Source Code`	bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml		Texto simples
`Structured Data`	avro, csv, tsv, proto		Análise estruturada para ficheiros avro, csv e tsv. Análise de texto simples para ficheiros proto
`Rich Documents`	doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx	São analisados ficheiros PDF, Microsoft Word, Excel e PowerPoint suportados com menos de 30 MiB.	Análise inteligente de documentos
`Images`	bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff e webp	As imagens suportadas (bmp, gif, jpe, jpeg, jpg e png) com menos de 4 MiB são analisadas através de OCR em regiões que o suportam. Fora destas regiões, as imagens não são analisadas.	OCR
`Executables`	ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm		Não analisado neste momento
`Archives`	7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#, lzh, lzx, mou, pak, paq#, paq6, paq7, paq8 and variants, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz		A proteção de dados confidenciais analisa ficheiros em arquivos com estas extensões de ficheiros: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz e zip O modo de análise usado para cada ficheiro depende do tipo de ficheiro.
`Multimedia`	3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (com DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv		Não analisado neste momento
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		Não analisado neste momento
`Unknown`	Qualquer outro ficheiro que não esteja noutro cluster.	Estes são ficheiros que não têm extensões ou usam extensões comuns, mas não padrão, como .dat, .1 ou .2	Não analisado neste momento

Tipos de ficheiros não reconhecidos no Cloud Storage

Se um ficheiro não for reconhecido durante uma análise de armazenamento, o sistema analisa-o por predefinição como um ficheiro binário. Tenta converter o conteúdo para UTF_8 e, em seguida, analisa-o como texto simples.

Se um ficheiro não for reconhecido durante uma análise de deteção, o sistema não o analisa.

Se tiver uma coleção de ficheiros que quer ignorar porque a proteção de dados confidenciais não os reconhece, pode especificar uma lista de exclusão através de CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites de bytes analisados por ficheiro

Em geral, pode limitar o número de bytes analisados por ficheiro. NaGoogle Cloud consola, pode fazê-lo ativando a amostragem. Na API Cloud Data Loss Prevention, define o campo bytes_limit_per_file ou bytesLimitPerFilePercent.

A amostragem não é suportada nos modos de OCR e análise inteligente. Ou seja, quando os seguintes tipos de ficheiros são analisados no modo de OCR ou de análise inteligente de documentos, a proteção de dados confidenciais ignora todas as definições que aplicar para limitar os bytes analisados por ficheiro.

Imagem
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Se analisar estes ficheiros no modo binário, aplicam-se os limites.

Modos de análise

Cada modo de análise fornece detalhes de localização adicionais nos resultados da inspeção.

Modo de procura	Notas	Vão ser fornecidos detalhes de localização adicionais
Binário	Se não for possível analisar um ficheiro como qualquer outro tipo, este é convertido para UTF_8 e analisado como texto. A análise binária afeta a qualidade da deteção.
Análise inteligente de documentos	Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários.	`DocumentLocation`
Extração de metadados	Todos os ficheiros analisados a partir do Cloud Storage têm a indicação `metadata`, além do conteúdo do ficheiro.	`MetadataLocation`
Reconhecimento ótico de carateres (OCR)	As imagens são analisadas através de OCR nas regiões que o suportam . Fora destas regiões, as imagens são analisadas como ficheiros binários.	`ImageLocation`
Texto simples		Sem detalhes adicionais
Análise estruturada	As informações estruturais são usadas para influenciar as conclusões. Neste modo de análise, a proteção de dados confidenciais usa as informações do cabeçalho para contexto. Executa uma análise de linhas e colunas cruzadas para encontrar dados correlacionados. Por exemplo, este modo de análise pode identificar uma morada cuja rua cujos componentes estão distribuídos por várias colunas numa linha. Os resultados da análise contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna. As conclusões não atravessam os limites das células de uma tabela.	`RecordLocation`

Analisar ficheiros estruturados no modo de análise estruturada

Quando analisa um ficheiro estruturado, como um ficheiro Avro, CSV ou TSV, a Proteção de dados confidenciais tenta analisar o ficheiro no modo de análise de análise sintática estruturada. Este modo de análise tem uma qualidade de deteção superior em comparação com a análise binária, porque o modo de análise estruturada pesquisa correlações entre linhas e colunas nos dados estruturados. Os resultados são devolvidos com metadados adicionais que indicam a localização do resultado, incluindo o fieldId.

No entanto, nos seguintes casos, a proteção de dados confidenciais pode reverter para o modo de análise binária, que não inclui os melhoramentos do modo de análise estruturada:

O ficheiro ou o cabeçalho está danificado.
A configuração da tarefa de inspeção tem limites de tamanho, como bytesLimitPerFile e bytesLimitPerFilePercent, que são demasiado pequenos. Por exemplo, se o limite de bytesLimitPerFile não for suficientemente grande para incluir um cabeçalho de bloco completo e, pelo menos, uma linha de dados válidos, a proteção de dados confidenciais pode analisar esse ficheiro no modo de análise binária.

A seleção dos dados analisados depende de a amostragem estar definida para começar a partir da parte superior do ficheiro ou de uma posição aleatória.

Por exemplo, suponha que tem um ficheiro Avro com cabeçalhos de blocos de 50 KB e blocos de dados de 2 MB. Em geral, iniciar a amostragem a partir da parte superior ajuda a garantir que o cabeçalho do bloco é sempre incluído na amostra que o Sensitive Data Protection recolhe. Se começar a amostragem a partir de uma posição aleatória no ficheiro e o tamanho da amostra for inferior a um bloco de dados, existe a possibilidade de o cabeçalho do bloco não estar incluído na amostra. Neste exemplo, o aumento do tamanho da amostra (especificado por bytesLimitPerFile ou bytesLimitPerFilePercent) para 2,05 MB ajuda a evitar que a inspeção reverta para o modo de análise binária.

Exemplo: quando o tamanho da amostra é demasiado pequeno, a inspeção pode não incluir o cabeçalho do bloqueio. — Exemplo: quando o tamanho da amostra é demasiado pequeno, a inspeção pode não incluir o cabeçalho do bloco (clique para aumentar).