הגדרת גישה לרשת ב-Dataproc Metastore

בדף הזה מוסבר איך להגדיר גישה לרשת עבור מופעי Dataproc Metastore. הגדרה נכונה של הרשת חיונית לאשכולות Dataproc ולעומסי עבודה של Google Cloud Serverless for Apache Spark כדי לתקשר באופן מאובטח ופרטי עם שירות Dataproc Metastore המנוהל.

סקירה כללית על מושגים של רשתות זמינה במאמר סקירה כללית על רשתות

מושגי מפתח בנושא רשתות

בדרך כלל, מופעים של Dataproc Metastore נמצאים ברשת של בעלים של שירות מנוהל שמנוהלת על ידי Google, והם מתקשרים עם רשת הענן הווירטואלי הפרטי (VPC) באמצעות קישוריות פרטית. כדי להגדיר את המערכת בצורה נכונה, חשוב להבין את המושגים הבאים:

  • ענן וירטואלי פרטי משותף: אם אשכולות Dataproc או עומסי עבודה של Serverless for Apache Spark נמצאים בפרויקט שירות שמשתמש ברשת VPC משותפת מפרויקט מארח, צריך לוודא שההגדרות המתאימות של הרשת בוצעו בפרויקט המארח. מידע נוסף זמין במאמר בנושא סקירה כללית על VPC משותף.
  • גישה פרטית ל-Google: מכונות Dataproc Metastore מסתמכות לעיתים קרובות על גישה פרטית ל-Google לצורך תקשורת פרטית עם רשת ה-VPC שלכם. כך מכונות וירטואליות (VM) ב-VPC יכולות להתחבר לשירותים ולממשקי ה-API של Google באמצעות כתובות IP פנימיות. מידע נוסף זמין במאמר גישה פרטית ל-Google.
  • קישור בין רשתות VPC שכנות (peering): המנגנון הזה מאפשר קישוריות של כתובות IP פרטיות בין שתי רשתות VPC, כך שמשאבים ברשת אחת יכולים לתקשר עם משאבים ברשת השנייה באמצעות כתובות IP פנימיות. במסגרת ההגדרה של Dataproc Metastore, נוצר חיבור מנוהל של קישור בין רשתות VPC לרשת ה-VPC שלכם. מידע נוסף זמין במאמר VPC Network Peering.
  • כללים של חומת אש: צריך כללים מתאימים של חומת אש כדי לאפשר תעבורת נתונים בין עומסי העבודה של Dataproc לבין מופע Dataproc Metastore.
  • פתרון בעיות ב-Cloud DNS: מוודאים שפתרון בעיות ב-DNS מוגדר בצורה נכונה ברשת ה-VPC כדי לפתור את בעיות ה-URI של נקודת הקצה של Dataproc Metastore לכתובת ה-IP הפרטית שלה.

שלבי ההגדרה

כדי לוודא שיש גישה לרשת למופע Dataproc Metastore, פועלים לפי השלבים הבאים:

1. הגדרת גישה לשירותים פרטיים

‫Dataproc Metastore משתמש בגישה לשירותים פרטיים כדי ליצור חיבור פרטי בין רשת ה-VPC שלכם לבין רשת הבעלים של שירות מנוהל של Google שבה נמצאת מכונת Dataproc Metastore.

  • אימות החיבור של Private Service Access:
    1. במסוף Google Cloud , עוברים אל Virtual Private Cloud network > VPC Network Peering.
    2. מוודאים שקיים חיבור Peering בשם servicenetworking-googleapis-com ושמצבו הוא ACTIVE.
    3. אם החיבור הזה חסר או לא פעיל, צריך לפעול לפי ההוראות במאמר הגדרת גישה לשירות פרטי. הפעולה הזו כוללת הקצאה של טווח כתובות IP לרשת של בעלים של שירות מנוהל.

2. הגדרת כללים לחומת אש

מוודאים שכללי חומת האש ברשת ה-VPC (או בפרויקט המארח של ה-VPC המשותף, אם רלוונטי) מאפשרים את התנועה הנדרשת.

  • כלל תעבורת נתונים יוצאת (egress) מעומס העבודה אל Metastore:
    • מוודאים שכלל חומת אש ליציאה מאפשר תעבורת TCP יוצאת מאשכול Dataproc או מ-Serverless for Apache Spark לעומסי עבודה לטווח כתובות ה-IP של מופע Dataproc Metastore ביציאה 9083. זו יציאת ברירת המחדל של Hive Metastore.
    • אם משתמשים בגישה לשירות פרטי, התעבורה הזו תנותב באופן פרטי.
  • כללי Ingress (פחות נפוצים במקרים של לקוח ל-Metastore):
    • בדרך כלל, לא צריך להגדיר כללי תעבורת נתונים נכנסת (ingress) ב-VPC לתעבורה ממופע Dataproc Metastore אל עומס העבודה, כי בדרך כלל התקשורת מתחילה מעומס העבודה. עם זאת, צריך לוודא שכללי Ingress מגבילים מדי לא חוסמים בטעות תגובות נחוצות.

3. אימות של רזולוציית DNS

עומסי העבודה של Dataproc צריכים לפתור את ה-URI של נקודת הקצה של Dataproc Metastore לכתובת ה-IP הפרטית שלו.

  • DNS Peering או אזורים פרטיים: אם אתם משתמשים בשרתי DNS בהתאמה אישית או באזורי Cloud DNS פרטיים, ודאו ששאילתות DNS עבור נקודת הקצה של Dataproc Metastore (לדוגמה, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) מועברות או מתורגמות בצורה נכונה לטווח כתובות ה-IP הפרטיות שמשמשות את Private Service Access.
  • בדיקת תרגום DNS: ממכונה וירטואלית באותה רשת משנה כמו עומס העבודה של Dataproc, משתמשים בפקודה nslookup או dig כדי לוודא שנקודת הקצה של Dataproc Metastore מתורגמת לכתובת IP פרטית.

פתרון בעיות בקישוריות לרשת

אם נתקלתם בבעיות בקישוריות אחרי הגדרת הגישה לרשת, כדאי לנסות את השלבים הבאים לפתרון בעיות:

המאמרים הבאים