שיטות מומלצות לאבטחה ב-Dataproc

אבטחת סביבת Dataproc היא חיונית להגנה על נתונים רגישים ולמניעת גישה לא מורשית. במסמך הזה מפורטות שיטות מומלצות חשובות לשיפור מצב האבטחה של Dataproc, כולל המלצות לאבטחת רשת, לניהול זהויות וגישה, להצפנה ולהגדרת אשכול מאובטח.

אבטחת רשת

  • פריסת Dataproc ב-VPC פרטי. יוצרים ענן וירטואלי פרטי ייעודי לאשכולות Dataproc, כדי לבודד אותם מרשתות אחרות ומהאינטרנט הציבורי.

  • שימוש בכתובות IP פרטיות. כדי להגן על אשכולות Dataproc מפני חשיפה לאינטרנט הציבורי, מומלץ להשתמש בכתובות IP פרטיות כדי לשפר את האבטחה והבידוד.

  • הגדרת כללים לחומת אש הטמעת כללי חומת אש מחמירים כדי לשלוט בתעבורה אל אשכולות Dataproc ומאשכולות Dataproc. מאשרים רק את הפרוטוקולים והיציאות הנדרשים.

  • שימוש בקישור בין רשתות שכנות. כדי לשפר את הבידוד, כדאי ליצור קישור בין רשתות VPC שכנות (peering) בין ה-VPC של Dataproc לבין רשתות VPC רגישות אחרות, כדי לשלוט בתקשורת.

  • הפעלת Component Gateway. כדי לגשת לממשקי משתמש של מערכת אקולוגית של Hadoop בצורה מאובטחת, כמו YARN,‏ HDFS או ממשק המשתמש של שרת Spark, במקום לפתוח את יציאות חומת האש, מומלץ להפעיל את שער רכיבי Dataproc כשיוצרים אשכולות.

ניהול זהויות והרשאות גישה

  • בידוד הרשאות. משתמשים בחשבונות שירות שונים של מישור הנתונים עבור אשכולות שונים. צריך להקצות לחשבונות שירות רק את ההרשאות שנדרשות לאשכולות כדי להריץ את עומסי העבודה שלהם.

  • לא מומלץ להסתמך על חשבון השירות שמוגדר כברירת מחדל ב-Google Compute Engine‏ (GCE). לא משתמשים בחשבון השירות שמוגדר כברירת מחדל עבור האשכולות.

  • הקפידו על העיקרון של הרשאות מינימליות. צריך להעניק לחשבונות שירות ולמשתמשים ב-Dataproc רק את ההרשאות המינימליות הנדרשות.

  • אכיפת בקרת גישה מבוססת-תפקידים (RBAC). כדאי להגדיר הרשאות IAM לכל אשכול.

  • שימוש בתפקידים בהתאמה אישית. יצירת תפקידי IAM בהתאמה אישית עם הרשאות גרנולריות שמותאמים לפונקציות ספציפיות של משימות בסביבת Dataproc.

  • בודקים באופן קבוע. חשוב לבצע ביקורת של ההרשאות והתפקידים ב-IAM באופן קבוע כדי לזהות הרשאות מיותרות או לא בשימוש ולהסיר אותן.

הצפנה

  • הצפנה של נתונים במנוחה. להצפנת נתונים במנוחה, אפשר להשתמש ב-Cloud Key Management Service‏ (KMS) או במפתחות הצפנה בניהול הלקוח (CMEK). בנוסף, אפשר להשתמש במדיניות הארגון כדי לאכוף הצפנה במנוחה כשיוצרים אשכול.

  • הצפנה של נתונים במעבר. הפעלת SSL/TLS לתקשורת בין רכיבי Dataproc (באמצעות הפעלת מצב מאובטח של Hadoop) ושירותים חיצוניים. כך אנחנו מגנים על נתונים בתנועה.

  • חשוב להיזהר ממידע רגיש. צריך לנקוט משנה זהירות כשמאחסנים ומעבירים נתונים רגישים כמו פרטים אישיים מזהים (PII) או סיסמאות. במקרים שנדרש, משתמשים בהצפנה ובפתרונות לניהול סודות.

תצורת אשכול מאובטחת

  • אימות באמצעות Kerberos. כדי למנוע גישה לא מורשית למשאבי אשכול, צריך להטמיע את מצב האבטחה של Hadoop באמצעות אימות Kerberos. למידע נוסף, תוכלו לקרוא על אבטחת ריבוי דיירים באמצעות Kerberos.

  • שימוש בסיסמה חזקה לחשבון הראשי ואחסון מאובטח שמבוסס על KMS. במקרה של אשכולות שמשתמשים ב-Kerberos, ‏ Dataproc מגדיר אוטומטית תכונות של אבטחה משופרת לכל רכיבי הקוד הפתוח שפועלים באשכול.

  • מפעילים את OS Login. כדי להוסיף אבטחה כשמנהלים צמתי אשכול באמצעות SSH, מפעילים את OS Login.

  • הפרדה בין קטגוריות זמניות וקטגוריות של שלבי ביניים ב-Google Cloud Storage‏ (GCS). כדי להבטיח בידוד הרשאות, צריך להפריד בין מאגרי Staging ובין מאגרי temp לכל אשכול Dataproc.

  • שימוש ב-Secret Manager לאחסון פרטי כניסה. Secret Manager יכול להגן על המידע הרגיש שלכם, כמו מפתחות API, סיסמאות ואישורים. אפשר להשתמש בו כדי לנהל את הסודות, לגשת אליהם ולבצע בהם ביקורת ב- Google Cloud.

  • שימוש בהגבלות ארגוניות מותאמות אישית. אפשר להשתמש במדיניות ארגונית בהתאמה אישית כדי לאשר או לדחות פעולות ספציפיות באשכולות Dataproc. לדוגמה, אם בקשה ליצור או לעדכן אשכול לא עומדת בדרישות של אימות אילוצים מותאמים אישית שמוגדרים במדיניות הארגון, הבקשה נכשלת ומוחזרת שגיאה למבצע הקריאה.

המאמרים הבאים

מידע נוסף על תכונות אבטחה אחרות ב-Dataproc: