איך מתחילים לעבוד עם אשכולות אימון

אם אתם רוצים לקבל גישה לאשכולות אימון ב-Vertex AI, אתם יכולים לפנות לנציג המכירות שלכם.

כדי לפרוס את האשכול הראשון באשכולות האימון של Vertex AI, צריך להגדיר את הפרויקט והסביבה שלGoogle Cloud . במדריך הזה מפורטים כל התנאים המוקדמים הנדרשים, שמחולקים לשלוש קטגוריות עיקריות:

  • גישה לפרויקט: קבלת גישה לשירות, שמתבצעת בהזמנה בלבד.

  • הגדרת משאבים: הפעלת ממשקי API והגדרת שירותי האחסון ורשת ה-VPC הנדרשים.

  • הרשאות משתמש: הקצאת תפקידי IAM הנדרשים לניהול אשכולות ולגישה למשאבים.

השלמת השלבים האלה תכין את הפרויקט לפריסה מוצלחת.

דרישות מוקדמות

כדי להשתמש באשכולות אימון, צריך:

  1. כדי לקבל גישה, צריך להוסיף את הפרויקט לרשימת ההיתרים. לשם כך, פנו לנציג המכירות שלכם.
  2. קבלת קיבולת לאשכולות GPU באזורים נתמכים.
  3. מפעילים את ממשקי ה-API הנדרשים, כולל Compute Engine,‏ Filestore,‏ Cloud Storage,‏ Managed Lustre (אופציונלי),‏ Hypercomputer Configuration Service ו-Vertex AI.
  4. הגדרת רשת: מוודאים שרשת קיימת עומדת בתנאים ספציפיים (למשל, גישה פרטית של Google, כללי חומת אש) או יוצרים רשת VPC ורשת משנה חדשות.
  5. מגדירים אחסון על ידי יצירת מופע Filestore אזורי או של תחום מוגדר שישמש כספריית /home, ואפשר גם להגדיר Google Cloud מופע מנוהל של Lustre.
  6. מקצים הרשאות IAM למשתמשים לניהול אשכולות, לגישה לאחסון ולגישת SSH לצמתי אשכולות, כמו שמתואר בקטע הרשאות IAM.

אזורים נתמכים

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

הרשאות IAM

  1. מעניקים את התפקיד roles/aiplatform.admin למשתמשים שינהלו את אשכולות האימון.
  2. צריך להקצות את התפקיד roles/aiplatform.viewer למשתמשים שצריכים רק לצפות באשכולות ובהגדרות שלהם.
  3. מקצים למשתמש או לחשבון השירות שינהלו את אשכולות האימון המנוהלים (יצירה, מחיקה ועדכון) את תפקידי ה-IAM הבאים:

    שם התפקיד מזהה התפקיד
    מנהל מכונות של Compute (גרסה 1) roles/compute.instanceAdmin.v1
    בעל הרשאת כתיבה של יומנים roles/logging.logWriter
    בעל הרשאת כתיבה של מדדי מעקב roles/monitoring.metricWriter
    משתמש בחשבון שירות roles/iam.serviceAccountUser
    אדמין של Service Networking roles/servicenetworking.networksAdmin
  4. כדי לאפשר לצמתים של האשכול לקרוא מקטגוריות של Cloud Storage ולכתוב בהן באמצעות Cloud Storage FUSE, צריך להעניק את התפקיד Storage Object User ‏ (roles/storage.objectUser) לחשבון השירות שבו נעשה שימוש במכונות הווירטואליות.

  5. כדי לקבל גישת SSH לצמתי הכניסה של Slurm, צריך להעניק את ההרשאות הבאות:

    הרשאות תיאורים מטרה
    OS Login ב-Compute נכנסים למכונה וירטואלית כמשתמשים רגילים (לא אדמינים). אם נדרש sudo, צריך להשתמש במקום זאת ב-Compute OS Admin Login. חיבור SSH לצומת הכניסה שנפרס
    משתמש מנהרה באבטחת IAP משאבי Access Tunnel שמשתמשים בשרת proxy לאימות זהויות (IAP). חיבור SSH לצומת הכניסה שנפרס

הפעלת ממשקי ה-API

  1. מפעילים את Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. מפעילים את שירות הרשת, כי צריך לפרוס את Filestore לפני שיוצרים את האשכול.

       gcloud services enable servicenetworking.googleapis.com
    
  3. מפעילים את Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. מפעילים את Lustre API (אם משתמשים ב-Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. מפעילים את HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. מפעילים את Vertex AI API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. מפעילים את Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

המאמרים הבאים

לקבלת מדריך מפורט ליצירת אשכול אימון ולהרצת עומסי עבודה של AI/ML, אפשר לפנות לנציג המכירות.