שירותי רשת לפריסות

במאמר הזה מתוארים שירותי הרשת שאתם מגדירים לפריסות של מכונות וירטואליות ושל אשכולות AI Hypercomputer. שירותי הרשת הספציפיים שאתם מגדירים עבור AI Hypercomputer תלויים באפשרות הפריסה שאתם בוחרים עבור מכונות ה-VM או האשכולות.

המסמך הזה מיועד לאדריכלים, למהנדסי רשת ולמפתחים שרוצים להבין את שירותי הרשת בפריסות של AI Hypercomputer. ההנחה במסמך הזה היא שיש לכם היכרות בסיסית עם מושגים שקשורים לרישות בענן ולמחשוב מבוזר. למידע נוסף על אפשרויות הפריסה, אפשר לעיין בסקירה הכללית על יצירת מכונות וירטואליות ואשכולות.

במסמך הזה מפורטים שירותי הרשת שאתם מגדירים לאפשרויות הפריסה הבאות:

הגדרת רשתות לפריסות ברירת מחדל של GKE

כשיוצרים אשכול GKE שעבר אופטימיזציה ל-AI עם הגדרות ברירת מחדל, מגדירים את הגדרות הרשת בתוכנית ה-Cluster Toolkit. התוכנית משתנה בהתאם לסוג המכונה שבוחרים. לדוגמה, התוכנית של Cluster Toolkit פורסת אשכול GKE עם מכונת A4.

התוכנית יוצרת את הרשת בדרכים הבאות:

  • שימוש ב-VPC שמוגדר כברירת מחדל: התוכנית משתמשת ברשת של הענן הווירטואלי הפרטי (VPC) שמוגדר כברירת מחדל עבור אשכול GKE הראשי.
  • יוצר שתי סביבות VPC נוספות: תוכנית ה-Blueprint מגדירה שתי רשתות נפרדות של ענן וירטואלי פרטי. אחד מיועד לכרטיס ממשק רשת (NIC) מארח שני, והשני מיועד לתעבורה של גישה ישירה לזיכרון (RDMA) מרחוק ממעבד גרפי (GPU) למעבד גרפי (GPU). באמצעות הגדרה של כמה רשתות VPC, אפשר לשפר את הבידוד של הרשת. מידע נוסף זמין במאמר בנושא סביבת Multi-VPC.
  • הגדרת טווחי כתובות IP: התוכנית מגדירה את מרחב כתובות ה-IP הפרטיות של צמתי GKE. הוא מגדיר טווחי כתובות IP משניים עבור Pods ושירותים. ‫GKE משתמש בכינוי של כתובת IP כדי למנוע התנגשויות בין כתובות IP.
  • החלת פרופיל רשת שעבר אופטימיזציה ל-RDMA: תוכנית ה-blueprint מחילה פרופיל רשת מוגדר מראש שמנוהל על ידי Google על ה-VPC שמשמש לתעבורת נתונים של GPU. הפרופיל הזה מגדיר באופן אוטומטי את הרשת לביצועים במהירות גבוהה ועם השהיה נמוכה, שנדרשים ל-RDMA. מידע נוסף זמין במאמר פרופילים של רשתות לתרחישי שימוש ספציפיים.
  • אוטומציה של יצירת רשתות משנה עבור RDMA: כדי להבטיח את הביצועים הטובים ביותר, התוכנית יוצרת באופן אוטומטי שמונה רשתות משנה ייעודיות ב-VPC של RDMA. המערכת יוצרת רשת משנה אחת לכל אחד משמונת כרטיסי ה-NIC של RDMA במכונה וירטואלית עם האצה.
  • הגדרת כללי חומת אש: התוכנית מגדירה כללי חומת אש שמאפשרים תעבורת נתונים של כל פרוטוקול Transmission Control Protocol‏ (TCP), פרוטוקול User Datagram‏ (UDP) ופרוטוקול Internet Control Message‏ (ICMP) בין הצמתים באשכול. כך הצמתים יכולים לתקשר בחופשיות. הוא גם מגדיר טווח Classless Inter-Domain Routing‏ (CIDR) מורשה כדי להגביל את הגישה למישור הבקרה של אשכול GKE מטעמי אבטחה.

רשתות לפריסות GKE עם הגדרה בהתאמה אישית

אם אתם צריכים שליטה מפורטת יותר מזו שמוגדרת כברירת מחדל בתוכניות של Cluster Toolkit, אתם יכולים להגדיר ידנית את אובייקטי הרשת עבור אשכול GKE שעבר אופטימיזציה ל-AI. הגישה הזו מאפשרת לכם להתאים את הגדרת הרשת לצרכים הספציפיים של עומס העבודה.

ההגדרה שבה תשתמשו תלויה בשאלה אם אתם מתכננים להריץ עומסי עבודה מבוססי-AI מבוזרים:

  • עבור עומסי עבודה לא מבוזרים: יוצרים אשכול GKE ללא GPUDirect RDMA. בשיטה הזו נעשה שימוש ברשת VPC אחת לכל התקשורת.
  • לעומסי עבודה מבוזרים: יוצרים אשכול GKE עם GPUDirect RDMA מופעל. הפעלת GPUDirect RDMA חיונית להשגת ביצועים אופטימליים בהיקף גדול. ההגדרה הזו כוללת סביבת VPC מרובה שמפרידה בין תעבורה לשימוש כללי לבין תקשורת בין יחידות GPU עם רוחב פס גבוה וזמן אחזור נמוך.

הוראות מפורטות ליצירת אשכול GKE מותאם אישית ל-AI בשני התרחישים זמינות במאמר יצירת אשכול GKE מותאם אישית ל-AI.

רשתות לפריסות של אשכולות Slurm

אתם יכולים להשתמש ב-Cluster Toolkit כדי לפרוס עומסי עבודה של מחשוב עתיר ביצועים (HPC),‏ AI ו-ML ב- Google Cloud באמצעות תוכניות מפורטות (blueprints) שניתנות להתאמה אישית ולהרחבה. לדוגמה, כשיוצרים אשכול Slurm שעבר אופטימיזציה ל-AI עם סוג מכונה A4. בקטע הזה מוסבר על שירותי הרשת שהוגדרו בתוכנית A4, כדי לעזור לכם להבין את הגדרות הרשת שאפשר לשנות כשיוצרים אשכולות Slurm.

במהלך הפריסה, תוכנית ה-blueprint של Cluster Toolkit משתמשת ב-Packer כדי ליצור באופן אוטומטי קובץ אימג' של מערכת הפעלה (OS) בהתאמה אישית. ‫Packer יוצר את התמונה על ידי הפעלת מכונה וירטואלית זמנית והרצת סקריפטים להתאמה אישית של דיסק האתחול. אפשר להתאים אישית את התמונה באמצעות סקריפטים להפעלה, סקריפטים של מעטפת או ספרי הפעלה של Ansible. לאחר מכן, תוכנית ה-blueprint משתמשת בתמונה המותאמת אישית הזו כדי להתקין את תוכנת המערכת הנדרשת לניהול אשכולות ועומסי עבודה בצמתי Slurm.

רכיבי הרשת שהתוכנית מגדירה הם:

  • יוצר שלוש רשתות VPC נפרדות: התוכנית יוצרת רשת VPC ראשית למישור הבקרה של Slurm, רשת VPC משנית לתעבורה כללית ברמת המארח ורשת VPC ייעודית עם ביצועים גבוהים לתקשורת בין יחידות GPU. ההפרדה הזו מונעת מתנועת הניהול להפריע למישור הנתונים של עומס העבודה. מידע נוסף זמין במאמר בנושא סביבת Multi-VPC.
  • החלת פרופיל רשת שעבר אופטימיזציה ל-RDMA: במישור הנתונים של ה-GPU, תוכנית ה-blueprint מחילה פרופיל רשת מנוהל מראש על ידי Google שעבר אופטימיזציה ל-RoCE. המערכת יוצרת באופן אוטומטי שמונה רשתות משנה, אחת לכל כרטיס רשת RDMA במכונות הווירטואליות של המאיץ. מידע נוסף זמין במאמר פרופילי רשת לתרחישי שימוש ספציפיים.
  • שמירת טווח כתובות IP לאחסון משותף: התוכנית מגדירה טווח כתובות IP ייעודי שנדרש לשירות Filestore. ‫Filestore מספק את ספריית /home המשותפת לאשכול.
  • מספק תשתית מבודדת לבניית אימג': התוכנית יוצרת VPC זמני שמשמש רק במהלך תהליך בניית האימג' של מכונה וירטואלית בהתאמה אישית לצמתי האשכול. כך נוצרת סביבת רשת מבודדת לפעולות של Packer.

אפשרויות פריסה נוספות זמינות במאמרי העזרה בנושא Cluster Toolkit.

רשתות למכונות Compute Engine

באמצעות Compute Engine, אתם יכולים ליצור מכונות וירטואליות עצמאיות, מכונות וירטואליות בכמות גדולה וקבוצות של מופעי מכונה מנוהלים (MIG) לסוגים שונים של מכונות שעברו אופטימיזציה להאצה.

סוגי המכונות האלה דורשים הגדרה של רשת מרובת VPC כדי לטפל בסוגים שונים של תעבורת נתונים. ההגדרה הזו מפרידה בין תעבורה כללית ממארח למארח לבין תקשורת בין מעבדים גרפיים שדורשת רוחב פס גבוה. הדרישות הספציפיות של הרשת משתנות בהתאם לסוג המכונה.

מידע מפורט על כרטיסי ה-NIC והגדרת הרשת של סוג המכונה זמין במאמר בדיקת רוחב הפס של הרשת והסידור של כרטיסי ה-NIC.

הוראות מפורטות ליצירת רשתות VPC זמינות במאמר יצירת רשתות VPC.

המאמרים הבאים