קשרים מקצועיים

אם אתם רוצים לקבל גישה לאשכולות אימון ב-Vertex AI, אתם יכולים לפנות לנציג המכירות שלכם.

אשכולות אימון של Vertex AI הם שירות מנוהל Google Cloud שמוקצה כמופע של Compute Engine ב-VPC. מודל הפריסה הזה מאפשר לשירות להתחבר באופן מאובטח לעומסי עבודה אחרים ב-VPC, לשירותים מנוהלים של Google או לרשתות מרובות עננים.

דרישה לגבי MTU ברשת

כדי להשיג ביצועים אופטימליים של הרשת בתשתית האימון, צריך להגדיר את יחידת השידור המקסימלית (MTU) של רשת ה-VPC.

ערך ה-MTU המומלץ תלוי בסוג מכונת ה-GPU באשכול:

  • לצמתי A3 Ultra ו-A4: צריך להשתמש ב-MTU‏ 8896.
  • לצמתים של A3 Mega: צריך להשתמש ב-MTU של 8244.

אפשר ליצור VPC חדש או להשתמש ב-VPC קיים.

פריסת אשכולות אימון ב-VPC חדש (מומלץ)

הגישה המומלצת היא לפרוס את אשכול האימון ברשת VPC חדשה שהוגדרה מראש. כך אפשר לוודא שהגדרת ה-MTU הנכונה מוחלת באופן אוטומטי, בלי להשפיע על עומסי העבודה הקיימים.

יש שני שלבים עיקריים לפריסת אשכולות אימון ב-VPC חדש:

  1. יוצרים את רשת ה-VPC: יצירת רשת VPC חדשה. כדי להפעיל פריימים גדולים, צריך להגדיר את ה-MTU ל-8896.

  2. פריסת האשכול: פורסים את אשכול האימון ברשת החדשה שהוגדרה.

לפי הסדר הזה, מכונות ה-VM באשכול יקבלו באופן אוטומטי את הגדרת ה-MTU הנכונה כשהן יופעלו בפעם הראשונה.

יצירה והגדרה של VPC חדש

  1. יוצרים את רשת ה-VPC. כדי להפעיל מסגרות ג'מבו, מגדירים את NETWORK_MTU ל-8896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. יוצרים את רשת המשנה שמשמשת לפריסת אשכול האימון, ומעדכנים את הטווח בהתאם לדרישות של הסביבה. בדוגמה הזו, תת-הרשת 192.168.0.0/19 משמשת לפריסת אשכול האימון.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. יוצרים כלל חומת אש ב-IAP שמאפשר קישוריות SSH לאשכול האימון.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) שמאפשר את כל היציאות והפרוטוקולים לתת-הרשת של אשכול ההדרכה.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

פריסת אשכולות אימון ב-VPC קיים

אם אתם פורסים את אשכול האימון ברשת קיימת עם מופעים של Cloud Storage, מומלץ מאוד להשתמש ב-jumbo frames (MTU 8896) כדי להבטיח ביצועים אופטימליים. לפני שמתחילים, צריך לוודא שמערכות ההפעלה והאפליקציות במכונות הווירטואליות הקיימות יכולות לתמוך בשינוי הזה.

כדי להטמיע מסגרות ג'מבו, צריך לעדכן את ה-MTU של ה-VPC. את העדכון הזה צריך לבצע במהלך חלון תחזוקה מתוכנן, כדי למנוע חוסר יציבות ברשת.

הדרך הבטוחה היחידה היא קודם להפסיק את כל המכונות הווירטואליות שפועלות באותו רשת. שינוי ה-MTU בזמן שהמכונות הווירטואליות פעילות גורם להגדרות לא תואמות ולקישוריות לא אמינה.

אחרי שכל המכונות הווירטואליות יופסקו, אפשר להמשיך לשלבים הבאים:

  1. משנים את ה-MTU של הרשת להגדרה שנבחרה (לדוגמה, 8896).
  2. מפעילים מחדש את כל המכונות הווירטואליות אחרי שעדכון הרשת מסתיים.
  3. עדכון ידני של מכונות וירטואליות שאינן Linux. חשוב לדעת שהפעלה מחדש לא מספיקה בכל מערכות ההפעלה. מכונות וירטואליות מתמונות Linux ציבוריות מאמצות את ה-MTU החדש באופן אוטומטי, אבל במכונות וירטואליות של Windows ובמכונות וירטואליות של תמונות בהתאמה אישית שלא משתמשות ב-DHCP להגדרת MTU, צריך לעדכן את הגדרת ה-MTU באופן ידני בתוך מערכת ההפעלה.

דרישות נוספות:

  • מפעילים את גישה פרטית ל-Google בתת-הרשת שמשמשת לפריסת האשכול.
  • יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) כדי להעניק ל-IAP גישה לאשכול.
  • יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) כדי לאפשר את כל תעבורת הנתונים אל האשכול.

המאמרים הבאים

אחרי שמכינים את רשת ה-VPC עם הגדרות ה-MTU וכללי חומת האש הנכונים, השלבים הבאים הם ליצור את אשכול האימון ולאבטח אותו.

  • אימות הגדרות הרשת: לפני שיוצרים את האשכול, מריצים בדיקת קישוריות כדי לאמת את רשת ה-VPC והגדרות ה-MTU, במיוחד אם שיניתם VPC קיים.
  • אבטחת האשכול באמצעות גבול גזרה לשירות: כדי לשפר את אבטחת מידע, כדאי להשתמש ב-VPC Service Controls כדי ליצור גבול גזרה לשירות מסביב למשאבי Vertex AI. כך אפשר למנוע זליגת נתונים.
  • התחברות מסביבה היברידית או מרובת-עננים: כדי לגשת לאשכול האימון ממרכז נתונים מקומי או מענן ציבורי, משתמשים באפשרויות שלGoogle Cloudלקישוריות היברידית.