כדי לפרוס את האשכול הראשון באשכולות האימון של Vertex AI, צריך להגדיר את הפרויקט והסביבה שלGoogle Cloud . במדריך הזה מפורטים כל התנאים המוקדמים הנדרשים, שמחולקים לשלוש קטגוריות עיקריות:
גישה לפרויקט: קבלת גישה לשירות, שמתבצעת בהזמנה בלבד.
הגדרת משאבים: הפעלת ממשקי API והגדרת שירותי האחסון ורשת ה-VPC הנדרשים.
הרשאות משתמש: הקצאת תפקידי IAM הנדרשים לניהול אשכולות ולגישה למשאבים.
השלמת השלבים האלה תכין את הפרויקט לפריסה מוצלחת.
דרישות מוקדמות
כדי להשתמש באשכולות אימון, צריך:
- כדי לקבל גישה, צריך להוסיף את הפרויקט לרשימת ההיתרים. לשם כך, פנו לנציג המכירות שלכם.
- קבלת קיבולת לאשכולות GPU באזורים נתמכים.
- מפעילים את ממשקי ה-API הנדרשים, כולל Compute Engine, Filestore, Cloud Storage, Managed Lustre (אופציונלי), Hypercomputer Configuration Service ו-Vertex AI.
- הגדרת רשת: מוודאים שרשת קיימת עומדת בתנאים ספציפיים (למשל, גישה פרטית של Google, כללי חומת אש) או יוצרים רשת VPC ורשת משנה חדשות.
- מגדירים אחסון על ידי יצירת מופע Filestore אזורי או של תחום מוגדר שישמש כספריית
/home, ואפשר גם להגדיר Google Cloud מופע מנוהל של Lustre. - מקצים הרשאות IAM למשתמשים לניהול אשכולות, לגישה לאחסון ולגישת SSH לצמתי אשכולות, כמו שמתואר בקטע הרשאות IAM.
אזורים נתמכים
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
הרשאות IAM
- מעניקים את התפקיד
roles/aiplatform.adminלמשתמשים שינהלו את אשכולות האימון. - צריך להקצות את התפקיד
roles/aiplatform.viewerלמשתמשים שצריכים רק לצפות באשכולות ובהגדרות שלהם. מקצים למשתמש או לחשבון השירות שינהלו את אשכולות האימון המנוהלים (יצירה, מחיקה ועדכון) את תפקידי ה-IAM הבאים:
שם התפקיד מזהה התפקיד מנהל מכונות של Compute (גרסה 1) roles/compute.instanceAdmin.v1בעל הרשאת כתיבה של יומנים roles/logging.logWriterבעל הרשאת כתיבה של מדדי מעקב roles/monitoring.metricWriterמשתמש בחשבון שירות roles/iam.serviceAccountUserאדמין של Service Networking roles/servicenetworking.networksAdminכדי לאפשר לצמתים של האשכול לקרוא מקטגוריות של Cloud Storage ולכתוב בהן באמצעות Cloud Storage FUSE, צריך להעניק את התפקיד Storage Object User (
roles/storage.objectUser) לחשבון השירות שבו נעשה שימוש במכונות הווירטואליות.כדי לקבל גישת SSH לצמתי הכניסה של Slurm, צריך להעניק את ההרשאות הבאות:
הרשאות תיאורים מטרה OS Login ב-Compute נכנסים למכונה וירטואלית כמשתמשים רגילים (לא אדמינים). אם נדרש sudo, צריך להשתמש במקום זאת ב-Compute OS Admin Login.חיבור SSH לצומת הכניסה שנפרס משתמש מנהרה באבטחת IAP משאבי Access Tunnel שמשתמשים בשרת proxy לאימות זהויות (IAP). חיבור SSH לצומת הכניסה שנפרס
הפעלת ממשקי ה-API
מפעילים את Google Compute Engine API:
gcloud services enable compute.googleapis.comמפעילים את שירות הרשת, כי צריך לפרוס את Filestore לפני שיוצרים את האשכול.
gcloud services enable servicenetworking.googleapis.comמפעילים את Cloud Storage API:
gcloud services enable storage.googleapis.comמפעילים את Lustre API (אם משתמשים ב-Lustre):
gcloud services enable lustre.googleapis.comמפעילים את HCS API:
gcloud services enable hypercomputecluster.googleapis.comמפעילים את Vertex AI API:
gcloud services enable aiplatform.googleapis.comמפעילים את Cloud Resource Manager API:
gcloud services enable cloudresourcemanager.googleapis.com
המאמרים הבאים
לקבלת מדריך מפורט ליצירת אשכול אימון ולהרצת עומסי עבודה של AI/ML, אפשר לפנות לנציג המכירות.