יצירת עותקים של נתונים שמאוחסנים ב-Cloud Storage, ללא פרטים מזהים, באמצעות מסוף Google Cloud

בדף הזה מוסבר איך לבדוק ספרייה ב-Cloud Storage וליצור עותקים של הקבצים הנתמכים אחרי הסרת הפרטים המזהים, באמצעות Sensitive Data Protection במסוף Google Cloud .

הפעולה הזו עוזרת לוודא שהקבצים שבהם אתם משתמשים בתהליכים העסקיים שלכם לא מכילים מידע אישי רגיש, כמו פרטים אישיים מזהים (PII). השירות Sensitive Data Protection יכול לבדוק קבצים בקטגוריה של Cloud Storage כדי לזהות מידע אישי רגיש, וליצור עותקים של הקבצים האלה שעברו הסרת פרטים מזהים בקטגוריה נפרדת. אחר כך תוכלו להשתמש בעותקים שעברו דה-אינדנטיפיקציה בתהליכים העסקיים שלכם.

מידע נוסף על מה שקורה כשמסירים פרטי זיהוי מנתונים באחסון זמין במאמר הסרת פרטי זיהוי ממידע אישי רגיש באחסון.

לפני שמתחילים

בדף הזה אנחנו יוצאים מנקודת הנחה ש:

מידע נוסף על המגבלות והנקודות למחשבה לגבי הפעולה הזו

כדי לבדוק את האחסון, צריך את היקף ההרשאות הבא של OAuth: https://www.googleapis.com/auth/cloud-platform. מידע נוסף זמין במאמר בנושא אימות ל-DLP API.

התפקידים שצריך ב-IAM

אם כל המשאבים של הפעולה נמצאים באותו פרויקט, התפקיד של סוכן השירות של DLP API ‏ (roles/dlp.serviceAgent) בסוכן השירות מספיק. בעזרת ההרשאה הזו, אפשר:

  • יצירת עבודת הבדיקה
  • קריאת הקבצים בספריית הקלט
  • כתיבת הקבצים שעברו הסרת פרטים מזהים בספריית הפלט
  • כתיבת פרטי הטרנספורמציה בטבלה ב-BigQuery

המשאבים הרלוונטיים כוללים את משימת הבדיקה, תבניות לביטול הזיהוי, קטגוריית קלט, קטגוריית פלט וטבלה עם פרטי הטרנספורמציה.

אם אתם חייבים שהמשאבים יהיו בפרויקטים נפרדים, ודאו שלסוכן השירות של הפרויקט יש גם את התפקידים הבאים:

  • התפקיד 'צפייה באובייקט אחסון' (roles/storage.objectViewer) בקטגוריית הקלט או בפרויקט שמכיל אותה.
  • התפקיד 'יצירת אובייקטים של אחסון' (roles/storage.objectCreator) בקטגוריית הפלט או בפרויקט שמכיל אותה.
  • תפקיד 'עריכת נתונים' ב-BigQuery ‏ (roles/bigquery.dataEditor) בטבלה עם פרטי ההמרה או בפרויקט שמכיל אותה.

במאמר הקצאת תפקיד יחיד מוסבר איך מקצים תפקיד לסוכן השירות. אפשר גם לשלוט בגישה ברמות הבאות:

סקירה כללית

כדי ליצור עותקים של קבצים ב-Cloud Storage שעברו הסרת פרטים מזהים, מגדירים משימת בדיקה שמחפשת מידע אישי רגיש לפי הקריטריונים שאתם מציינים. לאחר מכן, בעבודת הבדיקה, מפעילים את הפעולה יצירת עותק עם הסרת פרטים מזהים. אתם יכולים להגדיר תבניות לביטול הזיהוי, שמגדירות איך Sensitive Data Protection צריך לשנות את הממצאים. אם לא מספקים תבנית לביטול הזיהוי, Sensitive Data Protection משנה את הממצאים כמו שמתואר במאמר בנושא התנהגות ברירת המחדל של ביטול הזיהוי.

אם מפעילים את הפעולה יצירת עותק עם הסרת פרטים מזהים, כברירת מחדל, Sensitive Data Protection משנה את כל סוגי הקבצים הנתמכים שכלולים בסריקה. עם זאת, אפשר להגדיר את העבודה כך שתתבצע המרה רק של קבוצת משנה של סוגי הקבצים הנתמכים.

אופציונלי: יצירת תבניות לביטול הזיהוי

אם רוצים לשלוט באופן השינוי של הממצאים, צריך ליצור את התבניות הבאות. התבניות האלה מספקות הוראות לגבי טרנספורמציה של ממצאים בקבצים מובנים, בקבצים לא מובנים ובתמונות.

  • תבנית להסרת פרטים מזהים: תבנית ברירת מחדל להסרת פרטים מזהים שמשמשת לקבצים לא מובנים, כמו קובצי טקסט חופשי. תבנית להסרת פרטים מזהים מסוג זה לא יכולה להכיל טרנספורמציות של רשומות, שנתמכות רק בתוכן מובנה. אם התבנית הזו לא קיימת, Sensitive Data Protection משתמש בשיטה infoType replacement כדי לשנות קבצים לא מובְנים.

  • תבנית מובנית להסרת פרטים מזהים: תבנית להסרת פרטים מזהים שמשמשת לקבצים מובנים, כמו קובצי CSV. תבנית הביטול הזהות הזו יכולה להכיל טרנספורמציות של רשומות. אם התבנית הזו לא קיימת, Sensitive Data Protection משתמשת בתבנית ברירת המחדל לביטול הזיהוי שיצרתם. אם גם זה לא קיים, Sensitive Data Protection משתמשת בשיטת ההחלפה של infoType כדי לשנות קבצים מובְנים.

  • תבנית להסתרת תמונות: תבנית להסרת פרטים מזהים שמשמשת לתמונות. אם התבנית הזו לא קיימת, Sensitive Data Protection מצנזר את כל הממצאים בתמונות באמצעות תיבה שחורה.

איך יוצרים תבנית להסרת פרטים מזהים

יצירת משימת בדיקה עם פעולת הסרת פרטים מזהים

  1. נכנסים לדף Create job or job trigger במסוף Google Cloud .

    מעבר אל יצירת משימה או טריגר למשימה

  2. מזינים את פרטי המשימה של Sensitive Data Protection ולוחצים על Continue (המשך) כדי להשלים כל שלב.

בקטעים הבאים מוסבר איך למלא את החלקים הרלוונטיים בדף.

בחירת נתוני קלט

בקטע Choose input data (בחירת נתוני קלט), מבצעים את הפעולות הבאות:

  1. אופציונלי: בשדה שם, מזינים מזהה למשימת הבדיקה.
  2. בשדה מיקום המשאב, בוחרים באפשרות בכל העולם או באזור שבו רוצים לאחסן את עבודת הבדיקה.
  3. בקטע מיקום, בוחרים באפשרות Google Cloud Storage.
  4. בשדה URL, מזינים את הנתיב לספריית הקלט. ספריית הקלט מכילה את הנתונים שרוצים לסרוק – לדוגמה, gs://input-bucket/folder1/folder1a. אם רוצים לסרוק את ספריית הקלט באופן רקורסיבי, מוסיפים לכתובת ה-URL לוכסן בסוף ובוחרים באפשרות סריקה רקורסיבית.
  5. בקטע Sampling, ברשימה Sampling method, בוחרים באפשרות No sampling.

    אין תמיכה בדגימה במשימות ובטריגרים של משימות שהוגדרו עם הסרת פרטים מזהים.

הגדרת זיהוי

בקטע Configure detection (הגדרת הגילוי), בוחרים את סוגי הנתונים הרגישים שרוצים לבדוק. הם נקראים infoTypes. אפשר לבחור מתוך רשימת סוגי המידע המוגדרים מראש, או לבחור תבנית אם קיימת כזו. פרטים נוספים מופיעים במאמר בנושא הגדרת זיהוי.

הוספת פעולות

בקטע Add actions (הוספת פעולות), מבצעים את הפעולות הבאות:

  1. מפעילים את האפשרות יצירת עותק עם הסרת פרטים מזהים.
  2. אופציונלי: בשדה תבנית להסרת פרטים מזהים מזינים את שם המשאב המלא של תבנית ברירת המחדל להסרת פרטים מזהים אם יצרתם אחת.
  3. אופציונלי: בשדה Structured de-identification template (תבנית לביטול הזיהוי של קבצים מובנים) מזינים את שם המשאב המלא של תבנית ביטול הזיהוי של קבצים מובנים, אם יצרתם אחת כזו. אם לא יצרתם תבנית, Sensitive Data Protection תשתמש בתבנית ברירת המחדל.
  4. אופציונלי: אם יצרתם תבנית להסתרת חלקים בתמונה, אתם יכולים להזין את שם המשאב המלא של התבנית להסתרת חלקים בתמונות.
  5. אופציונלי: אם רוצים ש-Sensitive Data Protection ישמור את פרטי השינוי בטבלה ב-BigQuery, בוחרים באפשרות ייצוא פרטי השינוי ל-BigQuery וממלאים את הפרטים הבאים:

    • מזהה הפרויקט: הפרויקט שמכיל את הטבלה ב-BigQuery.
    • מזהה מערך הנתונים: מערך הנתונים שמכיל את הטבלה ב-BigQuery.
    • מזהה הטבלה: הטבלה שבה Sensitive Data Protection צריך לשמור את הפרטים של כל טרנספורמציה. ‫Sensitive Data Protection יוצר את הטבלה הזו עם מזהה הטבלה שאתם מספקים. אם לא מציינים מזהה טבלה, המערכת יוצרת מזהה באופן אוטומטי.

    הטבלה הזו לא שומרת את התוכן עצמו אחרי הסרת הפרטים המזהים.

    כשנתונים נכתבים לטבלה ב-BigQuery, החיוב והשימוש במכסת נפח האחסון חלים על הפרויקט שמכיל את טבלת היעד.

  6. בקטע Cloud Storage output location (מיקום הפלט ב-Cloud Storage), מזינים את כתובת ה-URL של ספריית Cloud Storage שבה רוצים לאחסן את הקבצים שעברו הסרת פרטים מזהים. הספרייה הזו לא יכולה להיות באותה קטגוריה של Cloud Storage כמו ספריית הקלט.

  7. אופציונלי: בסוגי קבצים, בוחרים את סוגי הקבצים שרוצים להמיר.

מידע נוסף על פעולות אחרות שאפשר להוסיף זמין במאמר הוספת פעולות.

לוח זמנים

בקטע Schedule (תזמון), מציינים אם רוצים שהמשימה הזו תהיה משימה חוזרת:

  • כדי להפעיל את הסריקה רק פעם אחת, משאירים את השדה מוגדר לללא.
  • כדי לתזמן סריקות שיפעלו מעת לעת, לוחצים על Create a trigger to run the job on a periodic schedule (יצירת טריגר להפעלת העבודה לפי לוח זמנים תקופתי).

מידע נוסף זמין במאמר בנושא תזמון.

בדיקה

  1. בקטע Schedule (תזמון), בודקים את הגדרות המשימה, ואם צריך, עורכים אותה.

  2. לוחצים על יצירה.

אם לא תזמנתם את העבודה, Sensitive Data Protection יתחיל להריץ אותה באופן מיידי. אחרי שהעבודה מסתיימת, המערכת מפנה אתכם לדף פרטי העבודה, שבו אפשר לראות את התוצאות של פעולות הבדיקה והסרת הפרטים המזהים.

אם בחרתם לייצא את פרטי ההמרה לטבלה ב-BigQuery, הטבלה תאוכלס. הוא מכיל שורה אחת לכל טרנספורמציה שבוצעה על ידי Sensitive Data Protection. בכל טרנספורמציה, הפרטים כוללים תיאור, קוד הצלחה או קוד שגיאה, פרטי שגיאה, מספר הבייטים שעברו טרנספורמציה, המיקום של התוכן שעבר טרנספורמציה ושם עבודת הבדיקה שבה בוצעה הטרנספורמציה על ידי Sensitive Data Protection. הטבלה הזו לא מכילה את התוכן המקורי שעבר הסרת פרטים מזהים.

אישור שהקבצים עברו הסרת פרטים מזהים

  1. בדף Job details, לוחצים על הכרטיסייה Configuration.
  2. כדי לראות את הקבצים שעברו הסרת פרטים מזהים בספריית הפלט, לוחצים על הקישור בשדה Output bucket for de-identified Cloud Storage data.
  3. כדי לראות את טבלה ב-BigQuery שמכילה את פרטי הטרנספורמציה, לוחצים על הקישור בשדה פרטי הטרנספורמציה.

    מידע על שליחת שאילתות לטבלה ב-BigQuery זמין במאמר הרצת שאילתות אינטראקטיביות.

המאמרים הבאים