בדף הזה מפורטים סוגי הקבצים ש-Sensitive Data Protection יכול לסרוק, ומתוארים מצבי הסריקה שבהם Sensitive Data Protection משתמש כדי לנתח קבצים.
סוגי קבצים נתמכים בפעולות של בדיקה והסרת פרטים מזהים
בטבלה הבאה מוצגים סוגי הקבצים ש-Sensitive Data Protection יכול לבדוק ולשנות (להסיר מהם את הפרטים המזהים).
התכונה Sensitive Data Protection מסתמכת על סיומות של קבצים ועל סוגי מדיה (MIME) כדי לזהות את סוגי הקבצים שצריך לסרוק ואת מצבי הסריקה שצריך להחיל. לדוגמה, Sensitive Data Protection סורק קובץ .txt במצב טקסט פשוט, גם אם הקובץ בנוי כקובץ CSV, שבדרך כלל נסרק במצב ניתוח מובנה.
| סוג קובץ | סיומות קבצים | מגבלות | מצב סריקה | תמיכה בטרנספורמציות |
|---|---|---|---|---|
Apache Avro |
avro |
מגבלות של Avro | ניתוח מובנה | |
Comma- or tab-separated values | csv, tsv | ניתוח מובנה | הסרת פרטים מזהים מתוכן | |
PDF |
מגבלות על קובצי PDF | ניתוח חכם של מסמכים | ||
Text |
asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml |
טקסט פשוט | הסרת פרטים מזהים מתוכן | |
Microsoft Word |
docm, docx, dotm, dotx |
מגבלות על מספר המילים | ניתוח חכם של מסמכים | |
Microsoft Excel |
xlsm, xlsx, xltm, xltx |
מגבלות ב-Excel | ניתוח חכם של מסמכים | |
Microsoft Powerpoint |
potm, potx, pptm, pptx |
מגבלות ב-PowerPoint | ניתוח חכם של מסמכים | |
Image |
bmp, gif, jpe, jpeg, jpg, png |
|
עריכה | |
Binary |
סוגי קבצים לא מזוהים ותמונות שלא ניתן לסרוק באמצעות זיהוי תווים אופטי (OCR), זיהוי תוכן תמונה או סיווג תוכן תמונה. |
בינארי |
אשכולות קבצים נתמכים בפעולות גילוי
במהלך הגילוי, Sensitive Data Protection מארגן את הקבצים שזוהו באשכולות קבצים. האשכולות האלה הם קבוצות של סוגי קבצים דומים. בטבלה הבאה מוצגים אשכולות הקבצים וסיומות הקבצים הנתמכים. לא ניתן לסרוק את כל הקבצים שזוהו.
יכול להיות שקבצים יועברו בין אשכולות קבצים ככל ש-Sensitive Data Protection מוסיף תמיכה באשכולות קבצים נוספים. ככל שהתמיכה בסריקה מתרחבת, יכול להיות ששירות הגילוי יתחיל לסרוק קבצים שלא נסרקו בעבר. החיוב מתבצע בהתאם לתיאור בתמחור של Discovery.
| אשכול קבצים | סיומות קבצים | מגבלות | מצב סריקה |
|---|---|---|---|
Text |
asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl |
טקסט פשוט | |
Source Code |
bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml |
טקסט פשוט | |
Structured Data |
avro, csv, tsv, proto |
ניתוח מובנה של קבצים בפורמט avro, csv ו-tsv. ניתוח של טקסט פשוט בקובצי proto | |
Rich Documents |
doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx |
המערכת סורקת קבצים נתמכים בפורמט PDF, Microsoft Word, Excel ו-PowerPoint שקטנים מ-30 MiB. | ניתוח חכם של מסמכים |
Images |
bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp |
תמונות נתמכות (bmp, gif, jpe, jpeg, jpg ו-png) בגודל של פחות מ-4 MiB נסרקות באמצעות OCR באזורים שתומכים בסריקת תמונות. |
|
Executables |
ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm |
לא נסרק בשלב הזה | |
Archives |
7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 וגרסאות שונות, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz |
Sensitive Data Protection סורק קבצים בארכיונים עם סיומות הקבצים הבאות: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip מצב הסריקה שבו נעשה שימוש בכל קובץ תלוי בסוג הקובץ. |
|
Multimedia |
3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (עם DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv |
לא נסרק בשלב הזה | |
AI Models |
caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords |
לא נסרק בשלב הזה | |
Unknown |
כל קובץ אחר שלא נמצא באשכול אחר. | אלה קבצים שאין להם סיומות או שיש להם סיומות נפוצות אבל לא סטנדרטיות, כמו .dat, .1 או .2 | לא נסרק בשלב הזה |
סוגי קבצים לא מזוהים ב-Cloud Storage
אם קובץ לא מזוהה במהלך סריקת אחסון, המערכת תסרוק אותו כקובץ בינארי כברירת מחדל. המערכת מנסה להמיר את התוכן ל-UTF_8, ואז סורקת אותו כטקסט פשוט.
אם קובץ לא מזוהה במהלך סריקת גילוי, המערכת לא סורקת אותו.
אם יש לכם אוסף של קבצים שאתם רוצים לדלג עליהם כי Sensitive Data Protection לא מזהה אותם, אתם יכולים לציין רשימת החרגות באמצעות CloudStorageOptions.file_set.regex_file_set.exclude_regex.
מגבלות על מספר הבייטים שנסרקים בכל קובץ
באופן כללי, אפשר להגביל את מספר הבייטים שנסרקים בכל קובץ. במסוףGoogle Cloud , אפשר לעשות זאת על ידי הפעלת דגימה. ב-Cloud Data Loss Prevention API, מגדירים את השדה bytes_limit_per_file או bytesLimitPerFilePercent.
אין תמיכה בדגימה במצבי OCR וניתוח חכם. כלומר, כשסורקים את סוגי הקבצים הבאים במצב OCR או במצב ניתוח מסמכים חכם, Sensitive Data Protection מתעלם מכל ההגדרות שאתם מחילים כדי להגביל את מספר הבייטים שנסרקים בכל קובץ.
- תמונה
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
אם סורקים את הקבצים האלה במצב בינארי, המגבלות חלות.
מצבי סריקה
בכל מצב סריקה מוצגים פרטים נוספים על המיקום בממצאי הבדיקה.
| מצב סריקה | הערות | פרטים נוספים על המיקום שצריך לספק |
|---|---|---|
| בינארי | אם לא ניתן לנתח קובץ כסוג אחר, הוא יומר ל-UTF_8 וייסרק כטקסט. סריקה בינארית משפיעה על איכות הזיהוי. |
|
| ניתוח חכם של מסמכים | המסמכים מנותחים והטקסט מחולץ מהעיצוב. תמונות מוטמעות נסרקות באמצעות OCR באזורים שבהם יש תמיכה ב-OCR . מחוץ לאזורים האלה, התמונות נסרקות כקובצי בינאריים. |
DocumentLocation |
| חילוץ מטא-נתונים | כל הקבצים שנסרקו מ-Cloud Storage יכללו את |
MetadataLocation |
| זיהוי תווים אופטי (OCR) |
באזורים שתומכים בסריקת תמונות, Sensitive Data Protection משתמש ב-OCR כדי למצוא infoTypes מבוססי-טקסט בתמונות. |
ImageLocation |
| זיהוי תוכן תמונות | באזורים שבהם יש תמיכה בסריקת תמונות, Sensitive Data Protection יכול לנתח ישירות פיקסלים ומאפיינים של תמונות, במקום טקסט שחולץ מתמונות. מצב הסריקה הזה מתמקד באיתור פריט ספציפי בתמונה, ומפיק תיבת תוחמת סביבו. לדוגמה, מצב הסריקה הזה יכול לזהות אדם או ברקוד במיקום ספציפי בתמונה. Sensitive Data Protection משתמש במצב הסריקה הזה לכל אובייקט infoTypes שצוינו בהגדרות הבדיקה או הצנזורה. |
ImageLocation |
| סיווג תוכן תמונות | באזורים שבהם יש תמיכה בסריקת תמונות, Sensitive Data Protection יכול לנתח ישירות פיקסלים ומאפיינים של תמונות, במקום טקסט שחולץ מתמונות. במצב הסריקה הזה, המערכת מנתחת את כל התמונה כדי להקצות לה נושא או קטגוריה יחידים, ומפיקה תווית או סיווג. התכונה Sensitive Data Protection משתמשת במצב הסריקה הזה עבור כל גלאי infoType של הקשר תמונה שצוינו בהגדרה של הבדיקה או הצנזורה. |
ImageLocation |
| טקסט פשוט | אין פרטים נוספים | |
| ניתוח מובנה | המידע המבני משמש להשפעה על הממצאים. במצב הסריקה הזה, Sensitive Data Protection משתמש בפרטי הכותרת כדי להבין את ההקשר. הוא מבצע ניתוח של שורות ועמודות כדי למצוא נתונים מתואמים. לדוגמה, מצב הסריקה הזה יכול לזהות כתובת רחוב שהרכיבים שלה מפוזרים על פני כמה עמודות בשורה. תוצאות הסריקה מכילות מידע מבני, כמו השורה שבה נמצאה הבעיה ושם העמודה. התוצאות לא חוצות את הגבולות של תאי הטבלה. |
RecordLocation |
סריקת קבצים מובְנים במצב ניתוח מובְנה
כשסורקים קובץ מובנה – כמו קובץ Avro, CSV או TSV – Sensitive Data Protection מנסה לסרוק את הקובץ במצב סריקה של ניתוח מובנה. מצב הסריקה הזה מספק איכות זיהוי מעולה בהשוואה לסריקה בינארית, כי מצב הניתוח המובנה מחפש קורלציות בין שורות ועמודות בנתונים המובְנים.
התוצאות מוחזרות עם מטא-נתונים נוספים שמציינים את המיקום של התוצאה, כולל fieldId.
עם זאת, במקרים הבאים, Sensitive Data Protection עשויה לחזור למצב סריקה בינארי, שלא כולל את השיפורים של מצב הניתוח המובנה:
- הקובץ או הכותרת פגומים.
- ההגדרות של עבודת הבדיקה כוללות מגבלות גודל קטנות מדי, כמו
bytesLimitPerFileו-bytesLimitPerFilePercent. לדוגמה, אם המגבלהbytesLimitPerFileלא גדולה מספיק כדי לכלול כותרת מלאה של בלוק ולפחות שורה אחת של נתונים תקינים, יכול להיות ש-Sensitive Data Protection יסרוק את הקובץ הזה במצב סריקה בינארי.
הנתונים שנסרקים תלויים בהגדרה של דגימה – אם היא מוגדרת להתחיל מהחלק העליון של הקובץ או ממיקום אקראי.
לדוגמה, נניח שיש לכם קובץ Avro עם כותרות של בלוקים בגודל 50KB ובלוקי נתונים בגודל 2MB. באופן כללי, התחלת הדגימה מהחלק העליון עוזרת לוודא שכותרת הבלוק תמיד כלולה בדגימה ש-Sensitive Data Protection לוקח. אם מתחילים דגימה ממיקום אקראי בקובץ וגודל הדגימה קטן מגודל בלוק הנתונים, יכול להיות שכותרת הבלוק לא תיכלל בדגימה. בדוגמה הזו, הגדלת גודל הדגימה (שמצוין על ידי bytesLimitPerFile או bytesLimitPerFilePercent) ל-2.05MB עוזרת למנוע את החזרה של הבדיקה למצב ניתוח בינארי.