אשכולות אימון של Vertex AI הם שירות מנוהל Google Cloud שמוקצה כמופע של Compute Engine ב-VPC. מודל הפריסה הזה מאפשר לשירות להתחבר באופן מאובטח לעומסי עבודה אחרים ב-VPC, לשירותים מנוהלים של Google או לרשתות מרובות עננים.
דרישה לגבי MTU ברשת
כדי להשיג ביצועים אופטימליים של הרשת בתשתית האימון, צריך להגדיר את יחידת השידור המקסימלית (MTU) של רשת ה-VPC.
הגדרות MTU מומלצות
ערך ה-MTU המומלץ תלוי בסוג מכונת ה-GPU באשכול:
- לצמתי A3 Ultra ו-A4: צריך להשתמש ב-MTU 8896.
- לצמתים של A3 Mega: צריך להשתמש ב-MTU של 8244.
אפשר ליצור VPC חדש או להשתמש ב-VPC קיים.
פריסת אשכולות אימון ב-VPC חדש (מומלץ)
הגישה המומלצת היא לפרוס את אשכול האימון ברשת VPC חדשה שהוגדרה מראש. כך אפשר לוודא שהגדרת ה-MTU הנכונה מוחלת באופן אוטומטי, בלי להשפיע על עומסי העבודה הקיימים.
יש שני שלבים עיקריים לפריסת אשכולות אימון ב-VPC חדש:
יוצרים את רשת ה-VPC: יצירת רשת VPC חדשה. כדי להפעיל פריימים גדולים, צריך להגדיר את ה-MTU ל-8896.
פריסת האשכול: פורסים את אשכול האימון ברשת החדשה שהוגדרה.
לפי הסדר הזה, מכונות ה-VM באשכול יקבלו באופן אוטומטי את הגדרת ה-MTU הנכונה כשהן יופעלו בפעם הראשונה.
יצירה והגדרה של VPC חדש
- יוצרים את רשת ה-VPC. כדי להפעיל מסגרות ג'מבו, מגדירים את NETWORK_MTU
ל-8896.
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - יוצרים את רשת המשנה שמשמשת לפריסת אשכול האימון, ומעדכנים את הטווח בהתאם לדרישות של הסביבה. בדוגמה הזו,
תת-הרשת 192.168.0.0/19 משמשת לפריסת אשכול האימון.
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- יוצרים כלל חומת אש ב-IAP שמאפשר קישוריות SSH לאשכול האימון.
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) שמאפשר את כל היציאות והפרוטוקולים לתת-הרשת של אשכול ההדרכה.
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
פריסת אשכולות אימון ב-VPC קיים
אם אתם פורסים את אשכול האימון ברשת קיימת עם מופעים של Cloud Storage, מומלץ מאוד להשתמש ב-jumbo frames (MTU 8896) כדי להבטיח ביצועים אופטימליים. לפני שמתחילים, צריך לוודא שמערכות ההפעלה והאפליקציות במכונות הווירטואליות הקיימות יכולות לתמוך בשינוי הזה.
כדי להטמיע מסגרות ג'מבו, צריך לעדכן את ה-MTU של ה-VPC. את העדכון הזה צריך לבצע במהלך חלון תחזוקה מתוכנן, כדי למנוע חוסר יציבות ברשת.
הדרך הבטוחה היחידה היא קודם להפסיק את כל המכונות הווירטואליות שפועלות באותו רשת. שינוי ה-MTU בזמן שהמכונות הווירטואליות פעילות גורם להגדרות לא תואמות ולקישוריות לא אמינה.
אחרי שכל המכונות הווירטואליות יופסקו, אפשר להמשיך לשלבים הבאים:
- משנים את ה-MTU של הרשת להגדרה שנבחרה (לדוגמה, 8896).
- מפעילים מחדש את כל המכונות הווירטואליות אחרי שעדכון הרשת מסתיים.
- עדכון ידני של מכונות וירטואליות שאינן Linux. חשוב לדעת שהפעלה מחדש לא מספיקה בכל מערכות ההפעלה. מכונות וירטואליות מתמונות Linux ציבוריות מאמצות את ה-MTU החדש באופן אוטומטי, אבל במכונות וירטואליות של Windows ובמכונות וירטואליות של תמונות בהתאמה אישית שלא משתמשות ב-DHCP להגדרת MTU, צריך לעדכן את הגדרת ה-MTU באופן ידני בתוך מערכת ההפעלה.
דרישות נוספות:
- מפעילים את גישה פרטית ל-Google בתת-הרשת שמשמשת לפריסת האשכול.
- יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) כדי להעניק ל-IAP גישה לאשכול.
- יוצרים כלל חומת אש לתעבורת נתונים נכנסת (ingress) כדי לאפשר את כל תעבורת הנתונים אל האשכול.
המאמרים הבאים
אחרי שמכינים את רשת ה-VPC עם הגדרות ה-MTU וכללי חומת האש הנכונים, השלבים הבאים הם ליצור את אשכול האימון ולאבטח אותו.
- אימות הגדרות הרשת: לפני שיוצרים את האשכול, מריצים בדיקת קישוריות כדי לאמת את רשת ה-VPC והגדרות ה-MTU, במיוחד אם שיניתם VPC קיים.
- אבטחת האשכול באמצעות גבול גזרה לשירות: כדי לשפר את אבטחת מידע, כדאי להשתמש ב-VPC Service Controls כדי ליצור גבול גזרה לשירות מסביב למשאבי Vertex AI. כך אפשר למנוע זליגת נתונים.
- התחברות מסביבה היברידית או מרובת-עננים: כדי לגשת לאשכול האימון ממרכז נתונים מקומי או מענן ציבורי, משתמשים באפשרויות שלGoogle Cloudלקישוריות היברידית.