Cloud Data Loss Prevention (Cloud DLP) ist jetzt Teil des Schutzes sensibler Daten. Der Name der API bleibt unverändert: Cloud Data Loss Prevention API (DLP API). Informationen zu den Diensten, die zum Schutz sensibler Daten gehören, finden Sie unter Schutz sensibler Daten.

Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Unterstützte Dateitypen und Scanmodi

Auf dieser Seite werden die Dateitypen aufgeführt, die vom Schutz sensibler Daten gescannt werden können, und die Scanmodi beschrieben, die vom Schutz sensibler Daten zum Analysieren von Dateien verwendet werden.

Unterstützte Dateitypen bei Prüf- und Anonymisierungsvorgängen

In der folgenden Tabelle sind die Dateitypen aufgeführt, die vom Schutz sensibler Daten geprüft und transformiert (de-identifiziert) werden können.

Sensitive Data Protection verwendet Dateiendungen und Medientypen (MIME-Typen), um die zu scannenden Dateitypen und die anzuwendenden Scanmodi zu identifizieren. Beispiel: Sensitive Data Protection scannt eine .txt-Datei im Nur-Text-Modus, auch wenn die Datei als CSV-Datei strukturiert ist, die normalerweise im Modus für strukturiertes Parsen gescannt wird.

Dateityp	Dateiendungen	Limits	Scanmodus	Transformationsunterstützung
`Apache Avro`	avro	Avro-Beschränkungen	Strukturiertes Parsen
`Comma- or tab-separated values`	CSV, TSV Hinweis:Wenn Sie eine CSV- oder TSV-Datei im strukturierten Parsing-Modus scannen möchten, muss das Trennzeichen der Datei mit der Dateiendung übereinstimmen. Eine `.csv`-Datei muss also durch Kommas getrennt sein und eine `.tsv`-Datei durch Tabulatoren.		Strukturiertes Parsen	Identifizierung von Inhalt aufheben
`PDF`	pdf	PDF-Limits	Intelligentes Parsen von Dokumenten
`Text`	asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml		Nur Text	Identifizierung von Inhalt aufheben
`Microsoft Word`	docm, docx, dotm, dotx	Word-Beschränkungen	Intelligentes Parsen von Dokumenten
`Microsoft Excel`	xlsm, xlsx, xltm, xltx	Excel-Limits	Intelligentes Parsen von Dokumenten
`Microsoft Powerpoint`	potm, potx, pptm, pptx	PowerPoint-Limits	Intelligentes Parsen von Dokumenten
`Image`	bmp, gif, jpe, jpeg, jpg, png		OCR Erkennung von Bildinhalten Klassifizierung von Bildinhalten	Entfernen
`Binary`	Nicht erkannte Dateitypen und Bilder, die nicht mit der optischen Zeichenerkennung (Optical Character Recognition, OCR), der Erkennung von Bildinhalten oder der Klassifizierung von Bildinhalten gescannt werden können		Binär

Unterstützte Dateicluster bei Erkennungsvorgängen

Während der Erkennung werden die erkannten Dateien von Sensitive Data Protection in Dateicluster organisiert. Diese Cluster sind Gruppen ähnlicher Dateitypen. In der folgenden Tabelle sind die unterstützten Dateicluster und Dateiendungen aufgeführt. Nicht alle erkannten Dateien können gescannt werden.

Dateien können zwischen Dateiclustern verschoben werden, wenn der Schutz sensibler Daten Unterstützung für weitere Dateicluster hinzufügt. Da die Unterstützung für das Scannen erweitert wird, scannt der Erkennungsdienst möglicherweise Dateien, die zuvor nicht gescannt wurden. Die Abrechnung erfolgt wie unter Preise für Discovery beschrieben.

Dateicluster	Dateiendungen	Limits	Scanmodus
`Text`	asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl		Nur Text
`Source Code`	bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml		Nur Text
`Structured Data`	avro, csv, tsv, proto		Strukturiertes Parsen für Avro-, CSV- und TSV-Dateien. Parsing von Nur-Text für Proto-Dateien
`Rich Documents`	doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx	Unterstützte PDF-, Microsoft Word-, Excel- und PowerPoint-Dateien, die kleiner als 30 MiB sind, werden gescannt.	Intelligentes Parsen von Dokumenten
`Images`	bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp	Unterstützte Bilder (BMP, GIF, JPE, JPEG, JPG und PNG), die kleiner als 4 MiB sind, werden mithilfe von OCR in Regionen gescannt, die das Scannen von Bildern unterstützen.	OCR Erkennung von Bildinhalten Klassifizierung von Bildinhalten
`Executables`	ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm		Derzeit nicht gescannt
`Archives`	7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#, lzh, lzx, mou, pak, paq#, paq6, paq7, paq8 und Varianten, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz		Sensitive Data Protection scannt Dateien in Archiven mit den folgenden Dateiendungen: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip Der für jede Datei verwendete Scanmodus hängt vom Dateityp ab.
`Multimedia`	3G2, 3GP, 8SVX, AA, AAC, AAX, ACT, AIFF, ALAC, AMR, AMV, APE, ASF, AU, AVI, AWB, CDA, DRC, DSS, DVF, F4A, F4B, F4P, F4V, FLAC, FLV, GIF, GIFV, GSM, IKLAX, IVS, M2TS, M2V, M4A, M4B, M4P, M4P (mit DRM), M4V, MKV, MMF, MNG, MOGG, MOV, MOVPKG, MP2, MP3, MP4, MPC, MPE, MPEG, MPG, MPV, MSV, MTS, MXF, NMF, NSV, OGA, OGG, OGV, OPUS, QT, RA, RAW, RF64, RM, RMVB, ROQ, SLN, SVI, TS, TTA, VIV, VOB, VOC, VOX, WAV, WEBM, WMA, WMV, WV, YUV		Derzeit nicht gescannt
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		Derzeit nicht gescannt
`Unknown`	Alle anderen Dateien, die sich nicht in einem anderen Cluster befinden.	Dies sind Dateien ohne Erweiterung oder mit gängigen, aber nicht standardmäßigen Erweiterungen wie .dat, .1 oder .2.	Derzeit nicht gescannt

Nicht erkannte Dateitypen in Cloud Storage

Wenn eine Datei während eines Speicherscans nicht erkannt wird, wird sie vom System standardmäßig als Binärdatei gescannt. Es wird versucht, den Inhalt in UTF_8 zu konvertieren und ihn dann als reinen Text zu scannen.

Wenn eine Datei während eines Erkennungsscans nicht erkannt wird, wird sie vom System nicht gescannt.

Wenn Sie bestimmte Dateien überspringen möchten, die nicht von Sensitive Data Protection erkannt werden, können Sie mit CloudStorageOptions.file_set.regex_file_set.exclude_regex eine Ausschlussliste festlegen.

Beschränkungen für die Anzahl der gescannten Byte pro Datei

Im Allgemeinen können Sie die Anzahl der Byte, die pro Datei gescannt werden, begrenzen. In derGoogle Cloud Console aktivieren Sie dazu die Stichprobenerhebung. In der Cloud Data Loss Prevention API legen Sie das Feld bytes_limit_per_file oder bytesLimitPerFilePercent fest.

Stichproben werden in den Modi „OCR“ und „Intelligentes Parsen“ nicht unterstützt. Wenn die folgenden Dateitypen im OCR- oder intelligenten Dokumentparsing-Modus gescannt werden, ignoriert Sensitive Data Protection alle Einstellungen, die Sie anwenden, um die Anzahl der gescannten Byte pro Datei zu begrenzen.

Bild
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Wenn Sie diese Dateien im binären Modus scannen, gelten die Limits.

Scanmodi

Jeder Scanmodus liefert zusätzliche Standortdetails in den Prüfergebnissen.

Scanmodus	Hinweise	Zusätzliche anzugebende Standortdetails
Binär	Wenn eine Datei nicht wie jeder andere Typ geparst werden kann, wird sie in UTF_8 konvertiert und als Text gescannt. Das binäre Scannen wirkt sich auf die Erkennungsqualität aus.
Intelligentes Parsen von Dokumenten	Dokumente werden nach aus der Formatierung extrahiertem Text geparst. Eingebettete Bilder werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt.	`DocumentLocation`
Extraktion von Metadaten	Für alle von Cloud Storage gescannten Dateien werden zusätzlich zum Inhalt der Datei `metadata` gescannt.	`MetadataLocation`
Optische Zeichenerkennung (OCR)	In Regionen, die das Scannen von Bildern unterstützen, verwendet Sensitive Data Protection OCR, um textbasierte infoTypes in Bildern zu finden.	`ImageLocation`
Erkennung von Bildinhalten	In Regionen, in denen das Scannen von Bildern unterstützt wird, kann der Schutz sensibler Daten Bildpixel und ‑funktionen direkt analysieren, anstatt Text, der aus Bildern extrahiert wurde. In diesem Scanmodus wird ein bestimmter Artikel im Bild gesucht und ein Begrenzungsrahmen darum erstellt. In diesem Scanmodus kann beispielsweise eine Person oder ein Barcode an einer bestimmten Stelle in einem Bild erkannt werden. Sensitive Data Protection verwendet diesen Scanmodus für alle object-infoTypes, die in der Inspektions- oder Bereinigungs-Konfiguration angegeben sind.	`ImageLocation`
Klassifizierung von Bildinhalten	In Regionen, in denen das Scannen von Bildern unterstützt wird, kann der Schutz sensibler Daten Bildpixel und ‑funktionen direkt analysieren, anstatt Text, der aus Bildern extrahiert wurde. In diesem Scanmodus wird das gesamte Bild analysiert, um ein einzelnes Thema oder eine einzelne Kategorie zuzuweisen und ein Label oder eine Klassifizierung zu erstellen. Sensitive Data Protection verwendet diesen Scanmodus für alle infoType-Detektoren für Bildkontext, die in der Inspektions- oder Bereinigungs-Konfiguration angegeben sind.	`ImageLocation`
Nur Text		Keine weiteren Details
Strukturiertes Parsen	Strukturelle Informationen werden verwendet, um Ergebnisse zu beeinflussen. In diesem Scanmodus verwendet Sensitive Data Protection die Headerinformationen als Kontext. Dabei wird eine zeilen- und spaltenübergreifende Analyse ausgeführt, um korrelierte Daten zu finden. Beispielsweise kann dieser Scanmodus eine Adresse identifizieren, deren Komponenten über mehrere Spalten in einer Zeile verteilt sind. Die Scanergebnisse enthalten strukturelle Informationen wie die Zeile, die den Befund enthält, und den Namen der Spalte. Ergebnisse überschreiten nicht die Zellengrenzen einer Tabelle.	`RecordLocation`

Strukturierte Dateien im strukturierten Parsing-Modus scannen

Wenn Sie eine strukturierte Datei wie eine Avro-, CSV- oder TSV-Datei scannen, versucht Sensitive Data Protection, die Datei im strukturierten Parsing-Scanmodus zu scannen. Dieser Scanmodus bietet eine höhere Erkennungsqualität als der binäre Scan, da im strukturierten Parsing-Modus nach Korrelationen zwischen Zeilen und Spalten in den strukturierten Daten gesucht wird. Ergebnisse werden mit zusätzlichen Metadaten zurückgegeben, die den Ort des Ergebnisses angeben, einschließlich des fieldId.

In den folgenden Fällen kann es jedoch sein, dass der Schutz sensibler Daten in den binären Scanmodus zurückkehrt, der nicht die Verbesserungen des strukturierten Parsing-Modus umfasst:

Die Datei oder der Header ist beschädigt.
Die Konfiguration des Inspektionsjobs hat Größenbeschränkungen, z. B. bytesLimitPerFile und bytesLimitPerFilePercent, die zu klein sind. Wenn das Limit bytesLimitPerFile beispielsweise nicht groß genug ist, um eine vollständige Blockkopfzeile und mindestens eine Zeile mit gültigen Daten zu enthalten, scannt Sensitive Data Protection die Datei möglicherweise im binären Scanmodus.

Die Auswahl der gescannten Daten hängt davon ab, ob das Sampling am Anfang der Datei oder an einer zufälligen Position beginnt.

Angenommen, Sie haben eine Avro-Datei mit 50 KB großen Blockheadern und 2 MB großen Datenblöcken. Im Allgemeinen ist es hilfreich, die Stichprobe am Anfang zu beginnen, damit der Blockheader immer in der Stichprobe enthalten ist, die von Sensitive Data Protection erstellt wird. Wenn Sie mit der Stichprobenerhebung an einer zufälligen Position in der Datei beginnen und die Stichprobengröße kleiner als ein Datenblock ist, besteht die Möglichkeit, dass der Blockheader nicht in der Stichprobe enthalten ist. In diesem Beispiel wird durch Erhöhen der Stichprobengröße (angegeben durch bytesLimitPerFile oder bytesLimitPerFilePercent) auf 2,05 MB verhindert, dass die Überprüfung in den binären Parsing-Modus zurückfällt.

Beispiel: Wenn die Stichprobengröße zu klein ist, wird der Blockheader möglicherweise nicht in die Überprüfung einbezogen. — Beispiel: Wenn die Stichprobengröße zu klein ist, wird der Blockheader möglicherweise nicht in die Prüfung einbezogen (zum Vergrößern klicken).