במאמר הזה מוסבר איך להשתמש ב-Sensitive Data Protection כדי ליצור צינור אוטומטי לטרנספורמציה של נתונים, במטרה להסיר את הפרטים המזהים מנתונים רגישים כמו פרטים אישיים מזהים (PII). טכניקות להסרת פרטים מזהים כמו טוקניזציה (פסאודונימיזציה) מאפשרות לשמור על השימושיות של הנתונים לצורך צירוף או ניתוח, תוך צמצום הסיכון בטיפול בנתונים באמצעות הסתרת המזהים הרגישים הגולמיים. כדי למזער את הסיכון בטיפול בכמויות גדולות של נתונים רגישים, אפשר להשתמש בצינור אוטומטי לטרנספורמציה של נתונים כדי ליצור עותקים שבהם הוסרו הפרטים המזהים. Sensitive Data Protection מאפשר לבצע טרנספורמציות כמו צנזורה, מיסוך, טוקניזציה, חלוקה לקטגוריות ושיטות אחרות של הסרת פרטים מזהים. אם מערך נתונים לא אופיין, Sensitive Data Protection יכול גם לבדוק את הנתונים כדי למצוא מידע רגיש באמצעות יותר מ-100 מסווגים מובנים.
המסמך הזה מיועד לקהל טכני שהאחריות שלו כוללת אבטחת מידע, עיבוד נתונים או ניתוח נתונים. המדריך הזה מיועד למי שמכיר את התחום של עיבוד נתונים ופרטיות נתונים, אבל לא צריך להיות מומחה.
תרשים עזר לארכיטקטורה
בתרשים הבא מוצגת ארכיטקטורת הפניה לשימוש במוצריGoogle Cloud כדי להוסיף שכבת אבטחה למערכי נתונים רגישים באמצעות טכניקות להסרת פרטים מזהים.
הארכיטקטורה מורכבת מהרכיבים הבאים:
צינור עיבוד נתונים להסרת פרטים מזהים: מסיר פרטים מזהים מנתונים רגישים בטקסט באמצעות Dataflow. אפשר להשתמש מחדש בצינור עיבוד הנתונים לכמה טרנספורמציות ולתרחישי שימוש.
ניהול הגדרות Sensitive Data Protection (תבנית ומפתח): הגדרה מנוהלת להסרת פרטי הזיהוי, שרק קבוצה קטנה של אנשים יכולה לגשת אליה – למשל, Security Admins – כדי למנוע חשיפה של שיטות להסרת פרטי הזיהוי ומפתחות הצפנה.
פייפליין לאימות נתונים ולשחזור פרטי זיהוי: מאמת עותקים של הנתונים שעברו הסרת פרטים מזהים, ומשתמש בפייפליין ב-Dataflow כדי לשחזר פרטי זיהוי של נתונים בקנה מידה גדול.
עזרה באבטחת מידע אישי ורגיש
אחת המשימות העיקריות של כל ארגון היא להבטיח את אבטחת הנתונים של המשתמשים והעובדים. Google Cloud מספקת אמצעי אבטחה מובנים כדי להקל על אבטחת הנתונים, כולל הצפנה של נתונים מאוחסנים והצפנה של נתונים במעבר.
הצפנה במנוחה: Cloud Storage
שמירה על אבטחת מידע היא קריטית לרוב הארגונים. גישה לא מורשית למידע אישי רגיש, אפילו ברמה בינונית, עלולה לפגוע באמון, ביחסים ובמוניטין שלכם מול הלקוחות. Google מצפינה נתונים שמאוחסנים במנוחה כברירת מחדל. כברירת מחדל, כל אובייקט שמועלה לקטגוריה ב-Cloud Storage מוצפן באמצעות Google-owned and Google-managed encryption key. אם במערך הנתונים שלכם נעשה שימוש בשיטת הצפנה קיימת ונדרשת אפשרות שאינה ברירת המחדל לפני ההעלאה, יש אפשרויות הצפנה אחרות שזמינות ב-Cloud Storage. מידע נוסף מופיע במאמר בנושא אפשרויות להצפנת נתונים.
הצפנה בזמן ההעברה: Dataflow
כשנתונים נמצאים בהעברה, ההצפנה במצב מנוחה לא פועלת. נתונים בהעברה מוגנים באמצעות פרוטוקולי רשת מאובטחים שנקראים הצפנה בהעברה. כברירת מחדל, Dataflow משתמש ב- Google-owned and Google-managed encryption keys. במדריכים שמשויכים למסמך הזה נעשה שימוש בצינור אוטומטי שמשתמש ב- Google-owned and Google-managed encryption keysשמוגדר כברירת מחדל.
טרנספורמציות נתונים ב-Sensitive Data Protection
יש שני סוגים עיקריים של טרנספורמציות שמתבצעות על ידי Sensitive Data Protection:
שתי השיטות, recordTransformations ו-infoTypeTransformations, יכולות להסיר את הפרטים המזהים ולהצפין מידע רגיש בנתונים שלכם. לדוגמה, אפשר להפוך את הערכים בעמודה US_SOCIAL_SECURITY_NUMBER לערכים שלא ניתן לזהות או להשתמש בטוקניזציה כדי להסתיר אותם תוך שמירה על שלמות רפרנציאלית.
השיטה infoTypeTransformations מאפשרת לבדוק אם יש נתונים רגישים ולשנות את הממצא. לדוגמה, אם יש לכם נתונים לא מובנים או טקסט חופשי, השיטה infoTypeTransformations יכולה לעזור לכם לזהות מספר ביטוח לאומי בתוך משפט ולהצפין את הערך של מספר הביטוח הלאומי, בלי לשנות את שאר הטקסט. אתם יכולים גם להגדיר שיטות infoTypes מותאמות אישית.
השיטה recordTransformations מאפשרת להחיל הגדרת טרנספורמציה לכל שדה כשמשתמשים בנתונים מובְנים או בנתונים בפורמט טבלה. באמצעות השיטה recordTransformations, אפשר להחיל את אותה טרנספורמציה על כל ערך בשדה, כמו גיבוב או טוקניזציה של כל ערך בעמודה עם SSN column כשם השדה או הכותרת.
באמצעות השיטה recordTransformations , אפשר גם לשלב את השיטה infoTypeTransformations שחלה רק על הערכים בשדות שצוינו. לדוגמה, אפשר להשתמש בשיטה infoTypeTransformations בתוך שיטה recordTransformations בשדה שנקרא comments כדי לצנזר כל ממצא של US_SOCIAL_SECURITY_NUMBER שנמצא בטקסט בשדה.
תהליכי הסרת הפרטים המזהים, בסדר עולה של מורכבות:
- עריכה: הסרת התוכן הרגיש בלי להחליף אותו בתוכן אחר.
- הסתרת תוכן: החלפת התוכן הרגיש בתווים קבועים.
- הצפנה: החלפת תוכן רגיש במחרוזות מוצפנות, אולי באופן הפיך.
עבודה עם נתונים מופרדים
לרוב, הנתונים מורכבים מרשומות שמופרדות באמצעות תו נבחר, עם סוגים קבועים בכל עמודה, כמו בקובץ CSV. לנתונים מהסוג הזה אפשר להחיל טרנספורמציות של הסרת פרטים מזהים (recordTransformations) ישירות, בלי לבדוק את הנתונים. לדוגמה, אפשר לצפות שעמודה עם התווית SSN תכיל רק נתונים של מספרי ביטוח לאומי. לא צריך לבדוק את הנתונים כדי לדעת שinfoTypeהגלאי US_SOCIAL_SECURITY_NUMBER. עם זאת, עמודות בפורמט חופשי עם התווית Additional Details יכולות להכיל מידע רגיש, אבל לא ידוע מראש מה הסיווג infoType שלהן. בעמודה עם טקסט חופשי, צריך לבדוק את infoTypesהגלאי (infoTypeTransformations) לפני שמחילים טרנספורמציות של הסרת פרטים מזהים. השירות Sensitive Data Protection מאפשר לשני סוגי ההמרה האלה להתקיים יחד בתבנית אחת של הסרת פרטים מזהים.
Sensitive Data Protection כולל יותר מ-100 גלאים מובניםinfoTypes.
אפשר גם ליצור סוגים בהתאמה אישית או לשנות גלאים מובנים של infoTypes כדי למצוא מידע אישי רגיש שייחודי לארגון שלכם.
קביעת סוג הטרנספורמציה
ההחלטה מתי להשתמש בשיטה recordTransformations או בשיטה infoTypeTransformations תלויה בתרחיש לדוגמה. השימוש בשיטה infoTypeTransformations דורש יותר משאבים ולכן הוא יקר יותר, לכן מומלץ להשתמש בשיטה הזו רק במצבים שבהם סוג הנתונים לא ידוע. אפשר להעריך את העלויות של הפעלת Sensitive Data Protection באמצעות מחשבון התמחור שלGoogle Cloud .
בדוגמאות להמרות שמופיעות במסמך הזה, נעשה שימוש במערך נתונים שמכיל קובצי CSV עם עמודות קבועות, כמו שמוצג בטבלה הבאה.
| שם העמודה | בדיקה infoType (בהתאמה אישית או מובנית) |
סוג ההתאמה של Sensitive Data Protection |
|---|---|---|
Card Number
|
לא רלוונטי | הצפנה דטרמיניסטית (DE) |
Card Holder's Name
|
לא רלוונטי | הצפנה דטרמיניסטית (DE) |
Card PIN
|
לא רלוונטי | גיבוב קריפטוגרפי |
SSN (Social Security Number)
|
לא רלוונטי | סימון חלקים |
Age
|
לא רלוונטי | Bucketing |
Job Title
|
לא רלוונטי | Bucketing |
Additional Details
|
מוכן מראש:IBAN_CODE, EMAIL_ADDRESS,
PHONE_NUMBER
בהתאמה אישית:
ONLINE_USER_ID
|
החלפה |
בטבלה הזו מפורטים שמות העמודות ותיאור של סוג השינוי שצריך לבצע בכל עמודה. לדוגמה, העמודה Card Number מכילה מספרי כרטיסי אשראי שצריך להצפין, אבל לא צריך לבדוק אותם כי סוג הנתונים (infoType) ידוע.
העמודה היחידה שמומלץ להחיל עליה טרנספורמציה של בדיקה היא העמודה Additional Details. העמודה הזו היא חופשית ויכול להיות שהיא מכילה פרטים אישיים מזהים (PII). לצורך הדוגמה הזו, צריך לזהות את הפרטים האלה ולהסיר את הפרטים המזהים שלהם.
בדוגמאות שבטבלה הזו מוצגים חמישה סוגים שונים של טרנספורמציות להסרת פרטים מזהים:
טוקניזציה דו-כיוונית: החלפת הנתונים המקוריים בטוקן דטרמיניסטי, תוך שמירה על שלמות הנתונים. אפשר להשתמש בטוקן כדי לצרף נתונים או להשתמש בטוקן בניתוח מצטבר. אפשר לבטל את הטוקניזציה של הנתונים באמצעות אותו מפתח שבו השתמשתם כדי ליצור את הטוקן. יש שתי שיטות לטוקניזציה דו-כיוונית:
- Deterministic encryption (DE): מחליף את הנתונים המקוריים בערך מוצפן בקידוד Base64 ולא שומר על קבוצת התווים או האורך המקוריים.
- הצפנה תוך שמירה על הפורמט באמצעות FFX (FPE-FFX): השיטה הזו מחליפה את הנתונים המקוריים באסימון שנוצר באמצעות הצפנה תוך שמירה על הפורמט במצב FFX. באופן מובנה, FPE-FFX שומרת על האורך ועל ערכת התווים של טקסט הקלט. אין בה אימות ואין וקטור אתחול, ולכן יכול להיות שהאורך של אסימון הפלט יהיה גדול יותר. שיטות אחרות, כמו DE, מספקות אבטחה חזקה יותר ומומלצות לתרחישי שימוש בטוקניזציה, אלא אם שמירה על האורך ועל ערכת התווים היא דרישה מחמירה, למשל לצורך תאימות לאחור עם מערכות נתונים מדור קודם.
טוקניזציה חד-כיוונית באמצעות גיבוב קריפטוגרפי: הערך המקורי מוחלף בערך מגובב, תוך שמירה על שלמות ההפניה. עם זאת, בניגוד לטוקניזציה דו-כיוונית, שיטה חד-כיוונית היא בלתי הפיכה. ערך הגיבוב נוצר באמצעות קוד אימות הודעה מבוסס SHA-256 (HMAC-SHA-256) על ערך הקלט.
הסתרת נתונים: החלפת הנתונים המקוריים בתו שצוין, באופן חלקי או מלא.
Bucketing: מחליף ערך שקל יותר לזהות בערך שפחות קל לזהות.
החלפה: החלפת הנתונים המקוריים באסימון או בשם של
infoTypeאם מזוהים נתונים כאלה.
בחירת שיטה
השיטה הכי טובה להסרת פרטים מזהים משתנה בהתאם לתרחיש השימוש. לדוגמה, אם אפליקציית Legacy מעבדת את הרשומות שבהן הוסרו פרטים מזהים, יכול להיות שחשוב לשמור על הפורמט. אם מדובר במספרים בני 10 ספרות בפורמט קבוע, הצפנה ששומרת על הפורמט שומרת על האורך (10 ספרות) ועל ערכת התווים (מספרי) של קלט לתמיכה במערכת Legacy.
עם זאת, אם לא נדרש פורמט מדויק לצורך תאימות לגרסאות קודמות, כמו במקרה של ערכים בעמודה Card Holder's Name, אז DE היא הבחירה המועדפת כי יש לה שיטת אימות חזקה יותר. גם FPE וגם DE מאפשרות לבטל את האסימונים או לבטל את הטוקניזציה שלהם. אם אתם לא צריכים לבטל את הטוקניזציה, אז גיבוב קריפטוגרפי מספק שלמות, אבל אי אפשר לבטל את האסימונים.
שיטות אחרות – כמו מיסוך, חלוקה לקטגוריות, הזזה של תאריכים והחלפה – מתאימות לערכים שלא צריך לשמור על השלמות המלאה שלהם. לדוגמה, אפשר לנתח ערך גיל (למשל, 27) שסווג לטווח גילאים (20-30), תוך צמצום הייחודיות שעשויה להוביל לזיהוי של אדם מסוים.
מפתחות להצפנת טוקנים
לטרנספורמציות קריפטוגרפיות של הסרת פרטים מזהים, נדרש מפתח קריפטוגרפי, שנקרא גם מפתח הצפנה של טוקן. המפתח להצפנת טוקנים שמשמש להצפנת הסרת הפרטים המזהים משמש גם לשחזור פרטי זיהוי של הערך המקורי. יצירה וניהול מאובטחים של מפתחות להצפנת אסימונים הם מעבר להיקף של המסמך הזה. עם זאת, יש כמה עקרונות חשובים שכדאי להכיר, שנעשה בהם שימוש בהמשך במדריכים הקשורים:
- לא משתמשים במפתחות טקסט פשוט בתבנית. במקום זאת, צריך להשתמש ב-Cloud KMS כדי ליצור מפתח עטוף.
- כדי להקטין את הסיכון לפגיעה במפתחות, מומלץ להשתמש במפתחות נפרדים להצפנת טוקנים לכל רכיב נתונים.
- רוטציה של מפתחות הצפנה של טוקנים. אפשר לבצע רוטציה של המפתח העטוף, אבל רוטציה של מפתח ההצפנה של הטוקן פוגעת בשלמות של הטוקניזציה. כשמבצעים רוטציה למפתח, צריך לבצע מחדש טוקניזציה של כל מערך הנתונים.
תבניות של Sensitive Data Protection
בפריסות רחבות היקף, כדאי להשתמש בתבניות של Sensitive Data Protection כדי לבצע את הפעולות הבאות:
- הפעלה של אמצעי בקרה לאבטחה באמצעות ניהול זהויות והרשאות גישה (IAM).
- הפרדת פרטי ההגדרה, והאופן שבו מבטלים את שיוך הפרטים האלה לזהות מסוימת, מההטמעה של הבקשות.
- שימוש חוזר בסדרת טרנספורמציות. אפשר להשתמש בתבניות להסרת פרטי זיהוי ולשחזור פרטי זיהוי בכמה קבוצות נתונים.
BigQuery
הרכיב האחרון בארכיטקטורת ההפניה הוא הצגה ועבודה עם הנתונים שעברו הסרת פרטים מזהים ב-BigQuery. BigQuery הוא כלי מחסן הנתונים של Google שכולל תשתית ללא שרת, BigQuery ML ואפשרות להפעיל את Sensitive Data Protection ככלי מקורי. בארכיטקטורת ההפניה לדוגמה, BigQuery משמש כמחסן נתונים לנתונים שעברו הסרת פרטים מזהים וכקצה עורפי לצינור נתונים אוטומטי של זיהוי מחדש שיכול לשתף נתונים באמצעות Pub/Sub.
המאמרים הבאים
- מידע על שימוש ב-Sensitive Data Protection כדי לבחון אחסון ומסדי נתונים לאיתור מידע אישי רגיש
- מידע על פתרונות אחרים לזיהוי תבניות
- לדוגמאות נוספות של ארכיטקטורות, תרשימים ושיטות מומלצות, עיינו במאמר Cloud Architecture Center.