יצירת מופע של מכונה וירטואלית ללמידה עמוקה משורת הפקודה

במסמך הזה מוסבר איך ליצור מופע חדש של Deep Learning VM Images משורת הפקודה. אפשר להשתמש בכלי gcloud של שורת הפקודה עם אפליקציית ה-SSH המועדפת או ב-Cloud Shell.

לפני שמתחילים

כדי להשתמש ב-Google Cloud CLI כדי ליצור מכונת Deep Learning VM חדשה, קודם צריך להתקין ולהפעיל את Google Cloud CLI:

  1. מורידים ומתקינים את Google Cloud CLI לפי ההוראות במאמר התקנת Google Cloud CLI.
  2. מאתחלים את ה-SDK לפי ההוראות במאמר אתחול ה-CLI של gcloud.

כדי להשתמש ב-gcloud ב-Cloud Shell, קודם צריך להפעיל את Cloud Shell לפי ההוראות במאמר הפעלת Cloud Shell.

לאחר מכן, בוחרים את תמונת ה-VM הספציפית של Deep Learning שרוצים להשתמש בה. הבחירה שלכם תלויה במסגרת המועדפת ובסוג המעבד. מידע נוסף על התמונות הזמינות מופיע במאמר בנושא בחירת תמונה.

יצירת מכונה ללא מעבדי GPU

כדי להקצות מכונת Deep Learning VM עם CPU אבל בלי GPU:

export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release

אפשרויות:

  • --image-family חייב להיות אחד מסוגי התמונות הספציפיים למעבד. מידע נוסף זמין במאמר בנושא בחירת תמונה.

  • הערך של --image-project חייב להיות deeplearning-platform-release.

יצירת מכונה עם מעבד GPU אחד או יותר

ב-Compute Engine יש אפשרות להוסיף מעבדי GPU למכונות הווירטואליות. מעבדי GPU מציעים עיבוד מהיר יותר של הרבה נתונים מורכבים ומשימות של למידת מכונה. מידע נוסף על יחידות GPU זמין במאמר יחידות GPU ב-Compute Engine.

כדי להקצות מכונת VM ללמידה עמוקה עם יחידת GPU אחת או יותר:

export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --accelerator="type=nvidia-tesla-v100,count=1" \
  --metadata="install-nvidia-driver=True"

אפשרויות:

  • --image-family חייב להיות אחד מסוגי התמונות הספציפיים ל-GPU. מידע נוסף זמין במאמר בנושא בחירת תמונה.

  • הערך של --image-project חייב להיות deeplearning-platform-release.

  • הערך של --maintenance-policy חייב להיות TERMINATE. מידע נוסף זמין במאמר בנושא הגבלות על GPU.

  • --accelerator מציין את סוג ה-GPU שבו יש להשתמש. חובה לציין את התאריך בפורמט --accelerator="type=TYPE,count=COUNT". הערכים הנתמכים של TYPE הם:

    • nvidia-tesla-v100 (count=1 או 8)
    • nvidia-tesla-p100 (count=1,‏ 2 או 4)
    • nvidia-tesla-p4 (count=1,‏ 2 או 4)

    לא כל סוגי ה-GPU נתמכים בכל האזורים. פרטים נוספים מופיעים במאמר בנושא מעבדי GPU ב-Compute Engine.

  • הפרמטר --metadata משמש כדי לציין שמנהל ההתקן של NVIDIA צריך להיות מותקן בשמכם. הערך הוא install-nvidia-driver=True. אם מציינים זאת,‏ Compute Engine טוען את מנהל ההתקן היציב העדכני בהפעלה הראשונה ומבצע את השלבים הנדרשים (כולל הפעלה מחדש סופית כדי להפעיל את מנהל ההתקן).

אם בחרתם להתקין דרייברים של NVIDIA, תנו לתהליך ההתקנה להימשך 3-5 דקות.

יכול להיות שיחלפו עד 5 דקות עד שהמכונה הווירטואלית תוקצה באופן מלא. במהלך הזמן הזה, לא תוכלו להתחבר למכונה באמצעות SSH. כשההתקנה מסתיימת, כדי לוודא שהתקנת מנהל ההתקן בוצעה בהצלחה, אפשר להתחבר למכונה באמצעות SSH ולהריץ את הפקודה nvidia-smi.

אחרי שמגדירים את האימג', אפשר לשמור תמונת מצב שלו כדי להפעיל מופעים נגזרים בלי לחכות להתקנת מנהל ההתקן.

יצירת מופע זמני של מכונה וירטואלית

אתם יכולים ליצור מופע של מכונה וירטואלית (VM) זמנית ללמידה עמוקה. מכונה מסוג Preemptible VM היא מכונה שאפשר ליצור ולהפעיל במחיר נמוך בהרבה ממכונות רגילות. עם זאת, יכול להיות ש-Compute Engine יפסיק (יבצע הקצאה מראש) את המכונות האלה אם הוא יזדקק לגישה למשאבים האלה למשימות אחרות. מופעים שניתן לקטוע את הפעולה שלהם תמיד מפסיקים לפעול אחרי 24 שעות. מידע נוסף על מופעים זמניים שניתנים להפסקה זמין במאמר מופעים זמניים שניתנים להפסקה של מכונות וירטואליות.

כדי ליצור מופע של מכונה וירטואלית (VM) זמנית ללמידה עמוקה:

  • פועלים לפי ההוראות שבקטע יצירת מכונה ללא GPU כדי ליצור מכונה חדשה. מוסיפים את המחרוזת הבאה לפקודה gcloud compute instances create:

      --preemptible

המאמרים הבאים

הוראות להתחברות למכונת ה-VM החדשה של Deep Learning דרך Google Cloud המסוף או שורת הפקודה מופיעות במאמר התחברות למופעים. שם המכונה הוא שם הפריסה שציינתם עם התוספת -vm.