Tipos de arquivos e modos de verificação compatíveis

Esta página lista os tipos de arquivos que a Proteção de Dados Sensíveis pode verificar e descreve os modos de verificação usados para analisar arquivos.

Tipos de arquivo compatíveis com operações de inspeção e desidentificação

A tabela a seguir mostra os tipos de arquivos que a Proteção de dados sensíveis pode inspecionar e transformar (desidentificar).

A Proteção de dados sensíveis usa extensões de arquivo e tipos de mídia (MIME) para identificar os tipos de arquivos a serem verificados e os modos de verificação a serem aplicados. Por exemplo, a proteção de dados sensíveis verifica um arquivo .txt no modo de texto simples, mesmo que ele esteja estruturado como um arquivo CSV, que normalmente é verificado no modo de análise estruturada.

Tipo de arquivo Extensões de arquivo Limites Modo de verificação Compatibilidade com transformações
Apache Avro

avro

Limites do Avro Análise estruturada
Comma- or tab-separated values

csv, tsv

Análise estruturada Desidentificar conteúdo
PDF

PDF

Limites do PDF Análise inteligente de documentos
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Texto simples Desidentificar conteúdo
Microsoft Word

docm, docx, dotm, dotx

Limites do Word Análise inteligente de documentos
Microsoft Excel

xlsm, xlsx, xltm, xltx

Limites do Excel Análise inteligente de documentos
Microsoft Powerpoint

potm, potx, pptm, pptx

Limites do PowerPoint Análise inteligente de documentos
Image

bmp, gif, jpe, jpeg, jpg, png

  • OCR
  • Detecção de conteúdo de imagem
  • Classificação de conteúdo de imagem
Edição
Binary

Tipos de arquivos não reconhecidos e imagens que não podem ser verificadas usando o reconhecimento óptico de caracteres (OCR), a detecção de conteúdo de imagem ou a classificação de conteúdo de imagem.

Binário

Clusters de arquivos compatíveis em operações de descoberta

Durante a descoberta, a Proteção de Dados Sensíveis organiza os arquivos detectados em clusters de arquivos. Esses clusters são grupos de tipos de arquivo semelhantes. A tabela a seguir mostra os clusters e as extensões de arquivo compatíveis. Nem todos os arquivos detectados podem ser verificados.

Os arquivos podem ser movidos entre clusters à medida que a Proteção de dados sensíveis adiciona suporte para mais clusters. À medida que o suporte à verificação aumenta, o serviço de descoberta pode começar a verificar arquivos que não eram verificados antes. Você recebe cobranças conforme descrito em Preços da Discovery.

Grupo de arquivos Extensões de arquivo Limites Modo de verificação
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Texto simples
Source Code

bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Texto simples
Structured Data

avro, csv, tsv, proto

Análise estruturada para arquivos avro, csv e tsv. Análise de texto simples para arquivos proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

Os arquivos PDF, Microsoft Word, Excel e PowerPoint aceitos com menos de 30 MiB são verificados. Análise inteligente de documentos
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp

As imagens aceitas (bmp, gif, jpe, jpeg, jpg e png) com menos de 4 MiB são verificadas com OCR em regiões que oferecem suporte à verificação de imagens.
  • OCR
  • Detecção de conteúdo de imagem
  • Classificação de conteúdo de imagem
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

Ainda não foi verificado
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 e variantes, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

A Proteção de Dados Sensíveis verifica arquivos em arquivos compactados com estas extensões: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip.

O modo de verificação usado para cada arquivo depende do tipo dele.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (com DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

Ainda não foi verificado
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

Ainda não foi verificado
Unknown Qualquer outro arquivo que não esteja em outro cluster. São arquivos sem extensões ou que usam extensões comuns, mas não padrão, como .dat, .1 ou .2. Ainda não foi verificado

Tipos de arquivos não reconhecidos no Cloud Storage

Se um arquivo não for reconhecido durante uma verificação de armazenamento, o sistema o verificará, por padrão, como um arquivo binário. Ele tenta converter o conteúdo em UTF_8 e depois o verifica como texto simples.

Se um arquivo não for reconhecido durante uma verificação de descoberta, o sistema não o verificará.

Se você tiver uma coleção de arquivos que quer ignorar porque a Proteção de Dados Sensíveis não os reconhece, especifique uma lista de exclusão usando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites de bytes verificados por arquivo

Em geral, é possível limitar o número de bytes verificados por arquivo. No console do Google Cloud , ative a amostragem. Na API Cloud Data Loss Prevention, defina o campo bytes_limit_per_file ou bytesLimitPerFilePercent.

A amostragem não é compatível com os modos de OCR e análise inteligente. Ou seja, quando os seguintes tipos de arquivo são verificados no modo de OCR ou análise inteligente de documentos, a proteção de dados sensíveis ignora todas as configurações aplicadas para limitar os bytes verificados por arquivo.

  • Imagem
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se você verificar esses arquivos no modo binário, os limites vão ser aplicados.

Modos de verificação

Cada modo de verificação fornece detalhes de local adicionais nas descobertas de inspeção.

Modo de verificação Notas Mais detalhes do local a serem fornecidos
Binário

Se um arquivo não for analisado como qualquer outro tipo, ele será convertido em UTF_8 e verificado como texto. A verificação binária afeta a qualidade da detecção.

Análise inteligente de documentos

Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são verificadas usando o OCR em regiões com suporte para OCR . Fora dessas regiões, as imagens são verificadas como arquivos binários.

DocumentLocation
Extração de metadados

Todos os arquivos verificados do Cloud Storage terão o metadata verificado, além do conteúdo do arquivo.

MetadataLocation
Reconhecimento óptico de caracteres (OCR)

Em regiões que oferecem suporte à verificação de imagens, a Proteção de Dados Sensíveis usa o OCR para encontrar infoTypes baseados em texto em imagens.

ImageLocation
Detecção de conteúdo de imagem

Em regiões que oferecem suporte à verificação de imagens, a Proteção de Dados Sensíveis pode analisar pixels e recursos de imagem diretamente, em vez de texto extraído das imagens. Esse modo de verificação se concentra em localizar um item específico na imagem e produz uma caixa delimitadora ao redor dele. Por exemplo, esse modo de verificação pode detectar uma pessoa ou um código de barras em um local específico de uma imagem.

A Proteção de Dados Sensíveis usa esse modo de verificação para qualquer infoType de objeto especificado na configuração de inspeção ou redação.

ImageLocation
Classificação de conteúdo de imagem

Em regiões que oferecem suporte à verificação de imagens, a Proteção de Dados Sensíveis pode analisar pixels e recursos de imagem diretamente, em vez de texto extraído das imagens. Esse modo de verificação analisa toda a imagem para atribuir um único tema ou categoria e produz um rótulo ou uma classificação.

A Proteção de Dados Sensíveis usa esse modo de verificação para qualquer detector de infoType de contexto de imagem especificado na configuração de inspeção ou redação.

ImageLocation
Texto simples

Nenhum outro detalhe
Análise estruturada

As informações estruturais são usadas para influenciar descobertas. Nesse modo de verificação, a Proteção de Dados Sensíveis usa as informações de cabeçalho para contextualização. Ela realiza uma análise entre linhas e entre colunas para encontrar dados correlacionados. Por exemplo, o modo de verificação pode identificar um endereço com componentes que estejam distribuídos entre várias colunas de uma linha.

Os resultados da verificação contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna.

As descobertas não ultrapassam os limites das células de uma tabela.

RecordLocation

Verificação de arquivos estruturados no modo de análise estruturada

Ao verificar um arquivo estruturado, como Avro, CSV ou TSV, a Proteção de Dados Sensíveis tenta fazer isso no modo de verificação de análise estruturada. Esse modo de verificação tem uma qualidade de detecção superior em comparação com a verificação binária porque o modo de análise estruturada procura correlações entre linhas e colunas nos dados estruturados. Os resultados são retornados com metadados adicionais que indicam a localização do resultado, incluindo o fieldId.

No entanto, nos casos a seguir, a proteção de dados sensíveis pode voltar ao modo de verificação binária, que não inclui as melhorias do modo de análise estruturada:

  • O arquivo ou cabeçalho está corrompido.
  • A configuração do job de inspeção tem limites de tamanho, como bytesLimitPerFile e bytesLimitPerFilePercent, que são muito pequenos. Por exemplo, se o limite de bytesLimitPerFile não for grande o suficiente para incluir um cabeçalho de bloco completo e pelo menos uma linha de dados válidos, a Proteção de Dados Sensíveis poderá verificar esse arquivo no modo de verificação binária.

A seleção dos dados verificados depende se a amostragem está definida para começar da parte de cima do arquivo ou de uma posição aleatória.

Por exemplo, suponha que você tenha um arquivo Avro com cabeçalhos de bloco de 50 KB e blocos de dados de 2 MB. Em geral, começar a amostragem de cima para baixo ajuda a garantir que o cabeçalho do bloco seja sempre incluído na amostra coletada pela Proteção de Dados Sensíveis. Se você começar a amostragem de uma posição aleatória no arquivo e o tamanho da amostra for menor que um bloco de dados, há uma chance de que o cabeçalho do bloco não seja incluído na amostra. Neste exemplo, aumentar o tamanho da amostra (especificado por bytesLimitPerFile ou bytesLimitPerFilePercent) para 2,05 MB ajuda a evitar que a inspeção volte ao modo de análise binária.

Exemplo: quando o tamanho da amostra é muito pequeno, a inspeção pode não incluir o cabeçalho do bloco.
Exemplo: quando o tamanho da amostra é muito pequeno, a inspeção pode não incluir o cabeçalho do bloco (clique para ampliar).