במדריך הזה מוסבר איך להשתמש בתוסף של Cloud Data Fusion ל-Cloud DLP כדי לצנזר מידע אישי רגיש.
תרחיש
לצורך המחשה, נבחן את התרחיש הבא, שבו צריך לצנזר נתוני לקוח רגישים:
צוות התמיכה מתעד את הפרטים של כל בקשת תמיכה שהוא מטפל בה בכרטיס תמיכה. כל המידע בכרטיס התמיכה נשלף לקובץ CSV. טכנאי התמיכה לא אמורים לתעד מידע על לקוחות שנחשב לרגיש, אבל לפעמים הם עושים זאת בטעות. אתם מבחינים שבקובץ ה-CSV מופיעים מספרי הטלפון של חלק מהלקוחות.
אתם רוצים לעבור על קובץ ה-CSV ולהסתיר את כל מספרי הטלפון. אתם יוצרים צינור Cloud Data Fusion שמצנזר את נתוני הלקוחות הרגישים באמצעות הפלאגין Cloud DLP.
במדריך הזה תיצרו צינור ש:
- מספרי הטלפון של הלקוחות מושחרים באמצעות התו
#. - מאחסן את המידע האישי הרגיש המוסווה ואת המידע הלא רגיש בקטגוריה של Cloud Storage.
מטרות
- מקשרים את Cloud Data Fusion למקור ב-Cloud Storage.
- פורסים את הפלאגין Cloud DLP.
- יוצרים תבנית Cloud DLP בהתאמה אישית.
- משתמשים בתוסף Redact transform כדי להסתיר נתונים רגישים של לקוחות.
- כתיבת נתוני הפלט ל-Cloud Storage.
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
מפעילים את ממשקי ה-API של Cloud Data Fusion, BigQuery, Cloud Storage ו-Dataproc.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידים- יצירת מכונת Cloud Data Fusion
קבלת הרשאות ל-Cloud DLP
נכנסים לדף IAM במסוף Google Cloud .
בטבלת ההרשאות, בעמודה Principal, מחפשים את חשבון השירות שתואם לפורמט
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.
לוחצים על edit עריכה.
לוחצים על הוספת תפקיד נוסף.
משתמשים בסרגל החיפוש כדי לחפש ואז בוחרים באפשרות DLP Administrator (אדמין של DLP).
לוחצים על Save.
בודקים שהאפשרות אדמין של DLP מופיעה בעמודה תפקיד.
איך עוברים לממשק המשתמש של Cloud Data Fusion
כשמשתמשים ב-Cloud Data Fusion, משתמשים גם ב Google Cloud מסוף וגם בממשק המשתמש הנפרד של Cloud Data Fusion. במסוף Google Cloud , אתם יכולים ליצור פרויקט במסוף Google Cloud וליצור ולמחוק מכונות Cloud Data Fusion. בממשק המשתמש של Cloud Data Fusion, אפשר להשתמש בתכונות של Cloud Data Fusion באמצעות הדפים השונים, כמו Studio או Wrangler.
נכנסים לדף Instances במסוף Google Cloud .
בעמודה פעולות של המופע, לוחצים על הקישור הצגת המופע. ממשק המשתמש של Cloud Data Fusion נפתח בכרטיסייה חדשה בדפדפן.
יצירת צינור עיבוד הנתונים
ליצור צינור שמוחק נתונים רגישים של לקוחות. הצינור שאתם יוצרים מבצע את הפעולות הבאות:
- קורא את נתוני הקלט באמצעות פלאגין המקור של Cloud Storage.
- פריסת הפלאגין Cloud DLP מ-Hub.
- כותב את נתוני הפלט באמצעות תוסף של יעד ב-Cloud Storage.
טעינת נתוני הלקוחות
במדריך הזה נעשה שימוש במערך נתוני הקלט, CallCenterRecords.csv, שזמין בקטגוריה של Cloud Storage שנגישה לכולם.
פותחים את מכונת Cloud Data Fusion ולוחצים על menu תפריט > Studio.
בתפריט מקור, לוחצים על הפלאגין Cloud Storage.

בצומת Cloud Storage, לוחצים על Properties (מאפיינים).
מזינים שם בשדה Reference name.
בשדה נתיב, מזינים
gs://datafusion-sample-datasets/CallCenterRecords.csv.בשדה Format, בוחרים באפשרות
CSV.בסכימת הפלט, מוחקים את השדות offset ו-body. לוחצים על הוספה ומזינים את השדות הבאים:
- תאריך
- בנק
- מדינה
- מיקוד
- הערות

לוחצים על אימות כדי לבדוק אם יש שגיאות.
לוחצים על סגירה.
צנזור מידע אישי רגיש
התוסף Cloud DLP Redact מזהה רשומות רגישות בזרם הקלט של הנתונים ומחיל על הרשומות האלה טרנספורמציות שאתם מגדירים. רשומה של נתונים נחשבת רגישה אם היא תואמת למסננים מוגדרים מראש של Cloud DLP שאתם בוחרים או לתבנית מותאמת אישית שאתם מגדירים.
במדריך הזה, אתם רוצים לצנזר מספרי טלפון של לקוחות שחלק מטכנאי התמיכה בצוות שלכם רשמו בטעות. הם הזינו את המידע הרגיש בקטע הערות של כרטיסי התמיכה, שמופיע כעמודה הערות בקובץ ה-CSV. יוצרים תבנית מותאמת אישית של Cloud DLP, ואז מזינים את מזהה התבנית בתפריט המאפיינים של הפלאגין.
פריסת הפלאגין של Cloud DLP
במכונת Cloud Data Fusion, לוחצים על Hub.
לוחצים על התוסף Cloud DLP.
לוחצים על פריסה.
לוחצים על סיום.
לוחצים על סגירה כדי לצאת מתיבת הדו-שיח של Cloud DLP.
לוחצים על סגירה כדי לצאת מהמרכז.
יצירת תבנית בהתאמה אישית
נכנסים לדף Cloud DLP במסוף Google Cloud .
בתפריט יצירה, בוחרים באפשרות תבנית.

בשדה Template ID (מזהה התבנית), מזינים מזהה לתבנית.
לוחצים על Continue.
בשדה הגדרת זיהוי, לוחצים על ניהול סוגי מידע.
בכרטיסייה Built-in, משתמשים במסנן כדי לחפש 'מספר טלפון'.

בוחרים באפשרות PHONE_NUMBER.
לוחצים על סיום > יצירה.
מידע נוסף על יצירת תבניות של Cloud DLP
החלת טרנספורמציית הצנזורה של Cloud DLP
עוברים לדף Studio ב-Cloud Data Fusion ולוחצים כדי להרחיב את התפריט Transform.
לוחצים על הפלאגין Cloud DLP Redact (הסתרת מידע).

גוררים חץ חיבור מהצומת Cloud Storage לצומת Redact.

מעבירים את הסמן מעל הצומת Redact (צנזורה) ולוחצים על Properties (מאפיינים).
מגדירים את תבנית בהתאמה אישית לערך
Yes.בשדה Template ID (מזהה התבנית), מזינים את מזהה התבנית של התבנית המותאמת אישית שיצרתם.
בשדה התאמה , מחילים הסתרת מידע על תבנית בהתאמה אישית בתוך הערות.
בשדה Masking Character (תו לטשטוש), מזינים
#.
לוחצים על אימות כדי לבדוק אם יש שגיאות.
לוחצים על סגירה.
אחסון נתוני הפלט
אחסון התוצאות של צינור העברת הנתונים בקובץ Cloud Storage.
בדף Studio, לוחצים כדי להרחיב את התפריט Sink (יעד).
לוחצים על Cloud Storage.
גוררים חץ חיבור מהצומת Redact לצומת Cloud Storage2.

מעבירים את מצביע העכבר מעל הצומת Cloud Storage2 ולוחצים על Properties (מאפיינים).
מזינים שם בשדה Reference name.
בשדה Path (נתיב), מזינים את הנתיב של קטגוריה ב-Cloud Storage שבה רוצים לאחסן את תוצאות הצינור. Cloud Data Fusion יוצר את הקטגוריה בשבילכם. חשוב לפעול לפי ההנחיות למתן שמות לקטגוריות.
בשדה Format (פורמט), בוחרים באפשרות CSV.
לוחצים על אימות כדי לוודא שאין שגיאות.
לוחצים על סגירה.
הפעלת צינור הנתונים במצב תצוגה מקדימה
מריצים את צינור הנתונים במצב תצוגה מקדימה לפני הפריסה.
לוחצים על תצוגה מקדימה ואז על הפעלה.

כשלוחצים על Run (הפעלה), מוצג סטטוס צינור הנתונים, שמתחיל ב-Starting (התחלה), ואז משתנה ל-Stop (עצירה) ואז ל-Run (הפעלה).
כשהרצת התצוגה המקדימה מסתיימת, בצומת Redact לוחצים על Preview Data כדי לראות השוואה בטבלה של נתוני הקלט והפלט זה לצד זה. בודקים שמספרי הטלפון מוסווים באמצעות התו
#.
השמטת סוג נתונים אחר
במהלך הבדיקה של תוצאות ההרצה בתצוגה המקדימה, שמתם לב שעדיין יש מידע רגיש שמופיע בעמודה הערות: כתובות אימייל. אתם חוזרים ועורכים את התבנית של Cloud DLP כדי לצנזר גם כתובות אימייל.
נכנסים לדף Cloud DLP במסוף Google Cloud .
בכרטיסייה Configuration, בוחרים את התבנית.
לוחצים על Edit.
לוחצים על ניהול סוגי מידע.
בכרטיסייה Built-in, משתמשים במסנן כדי לחפש את האפשרויות OR או email address.

בוחרים באפשרות 'הכול' ולוחצים על סיום.
לוחצים על Save.
מריצים שוב את תהליך המכירות במצב תצוגה מקדימה. Cloud Data Fusion ישתמש אוטומטית בתבנית המעודכנת של Cloud DLP.
בודקים ששני מספרי הטלפון וגם כתובות האימייל מוסווים באמצעות התו
#.
פריסה והפעלה של צינור עיבוד הנתונים
מוודאים שמצב תצוגה מקדימה לא מסומן.
לוחצים על Save. כשלוחצים על שמירה, מוצגת בקשה לתת שם לצינור. ואז לוחצים על אישור.
לוחצים על פריסה.
בסיום הפריסה, לוחצים על הפעלה. הפעלת צינור הנתונים יכולה להימשך כמה דקות. בזמן ההמתנה, תוכלו לעקוב אחרי הסטטוס של המעבר של צינור הנתונים מהקצאת משאבים להפעלה להרצה לביטול הקצאת משאבים להצלחה.
צפייה בתוצאות
במסוף Google Cloud , עוברים לדף Cloud Storage.
בדפדפן האחסון, עוברים לקטגוריית Cloud Storage של יעד הנתונים שצוינה במאפיינים של התוסף Cloud Storage של יעד הנתונים.
בקטע כתובת URL של הקישור, לוחצים על הקישור כדי להוריד את קובץ ה-CSV עם התוצאות. בודקים שמספרי הטלפון וכתובות האימייל מוסווים באמצעות התו
#.
הסרת המשאבים
כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
מחיקת מכונת Cloud Data Fusion
פועלים לפי ההוראות כדי למחוק את מכונת Cloud Data Fusion.
מחיקת הפרויקט
הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך הזה.
כדי למחוק את הפרויקט:
- במסוף Google Cloud , נכנסים לדף Manage resources.
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
- כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.
המאמרים הבאים
- מידע נוסף על Cloud Data Fusion
- כאן מוסבר איך משתמשים בתוסף Cloud Data Fusion, שכולל את התוספים Redact ו-Filter PII לשינוי נתונים.