בדף הזה מוסבר איך ליצור מופע של מכונת VM ללמידה עמוקה (Deep Learning) של PyTorch עם PyTorch וכלים אחרים שמותקנים מראש. אפשר ליצור מכונת PyTorch מ-Cloud Marketplace במסוף Google Cloud או באמצעות שורת הפקודה.
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
- אם אתם משתמשים ב-GPU עם מכונת Deep Learning VM, כדאי לבדוק את דף המכסות כדי לוודא שיש לכם מספיק יחידות GPU בפרויקט. אם יחידות ה-GPU לא מופיעות בדף המכסות או שאתם צריכים מכסת GPU נוספת, אתם יכולים לשלוח בקשה להגדלת המכסה.
יצירת מופע של מכונה וירטואלית ללמידה עמוקה (Deep Learning) של PyTorch מ-Cloud Marketplace
כדי ליצור מכונה וירטואלית של PyTorch Deep Learning מ-Cloud Marketplace, מבצעים את השלבים הבאים:
נכנסים לדף Deep Learning VM Cloud Marketplace ב Google Cloud מסוף.
לוחצים על שנתחיל?
מזינים שם פריסה, שיהיה הבסיס לשם המכונה הווירטואלית. כשמגדירים את שם המכונה, Compute Engine מוסיף לשם את המחרוזת
-vm.בוחרים אזור.
בקטע סוג המכונה, בוחרים את המפרטים הרצויים למכונה הווירטואלית. מידע נוסף על סוגי מכונות
בקטע GPUs (מעבדי GPU), בוחרים את GPU type (סוג ה-GPU) ואת Number of GPUs (מספר מעבדי ה-GPU). אם לא רוצים להשתמש ב-GPU, לוחצים על הלחצן מחיקת GPU ומדלגים לשלב 7. מידע נוסף על יחידות GPU
- בוחרים סוג GPU. לא כל סוגי ה-GPU זמינים בכל האזורים. מוצאים שילוב נתמך.
- בוחרים את מספר ה-GPU. כל GPU תומך במספרים שונים של GPU. מוצאים שילוב נתמך.
בקטע Framework, בוחרים באפשרות PyTorch 1.8 + fast.ai 2.1 (CUDA 11.0).
אם אתם משתמשים ב-GPU, נדרש דרייבר של NVIDIA. אפשר להתקין את הדרייבר בעצמכם, או לבחור באפשרות Install NVIDIA GPU driver automatically on first startup (התקנה אוטומטית של דרייבר ל-GPU של NVIDIA בהפעלה הראשונה).
יש לכם אפשרות לבחור באפשרות הפעלת גישה ל-JupyterLab באמצעות כתובת URL במקום SSH (בטא). הפעלת תכונת הבטא הזו מאפשרת לכם לגשת למופע של JupyterLab באמצעות כתובת URL. כל מי שיש לו הרשאת עריכה או בעלות בפרויקטGoogle Cloud יכול לגשת לכתובת ה-URL הזו. נכון לעכשיו, התכונה הזו פועלת רק בארצות הברית, באיחוד האירופי ובאסיה.
בוחרים את סוג דיסק האתחול ואת גודל דיסק האתחול.
בוחרים את הגדרות הרשת הרצויות.
לוחצים על פריסה.
אם בוחרים להתקין דרייברים של NVIDIA, צריך להמתין 3-5 דקות עד שההתקנה תושלם.
אחרי שהמכונה הווירטואלית נפרסת, הדף מתעדכן עם הוראות לגישה למופע.
יצירת מופע של מכונה וירטואלית ללמידה עמוקה (Deep Learning) של PyTorch משורת הפקודה
כדי להשתמש ב-Google Cloud CLI כדי ליצור מכונת Deep Learning VM חדשה, קודם צריך להתקין ולהפעיל את Google Cloud CLI:
- מורידים ומתקינים את Google Cloud CLI לפי ההוראות במאמר התקנת Google Cloud CLI.
- מאתחלים את ה-SDK לפי ההוראות במאמר אתחול ה-CLI של gcloud.
כדי להשתמש ב-gcloud ב-Cloud Shell, קודם צריך להפעיל את Cloud Shell לפי ההוראות במאמר הפעלת Cloud Shell.
ללא יחידות GPU
כדי ליצור מכונה וירטואלית ללמידה עמוקה עם משפחת האימג'ים העדכנית של PyTorch ומעבד, מזינים את הפקודה הבאה בשורת הפקודה:
export IMAGE_FAMILY="pytorch-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release
אפשרויות:
הערך של
--image-familyצריך להיותpytorch-latest-cpuאוpytorch-VERSION-cpu(לדוגמה,pytorch-1-13-cpu).הערך של
--image-projectחייב להיותdeeplearning-platform-release.
עם GPU אחד או יותר
ב-Compute Engine יש אפשרות להוסיף מעבד GPU אחד או יותר למכונות הווירטואליות. מעבדי GPU מציעים עיבוד מהיר יותר של הרבה נתונים מורכבים ומשימות של למידת מכונה. מידע נוסף על יחידות GPU זמין במאמר יחידות GPU ב-Compute Engine.
כדי ליצור מופע של מכונה וירטואלית ללמידה עמוקה עם משפחת תמונות PyTorch העדכנית ומעבד גרפי אחד או יותר שמצורפים, מזינים את הפקודה הבאה בשורת הפקודה:
export IMAGE_FAMILY="pytorch-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release \
--maintenance-policy=TERMINATE \
--accelerator="type=nvidia-tesla-v100,count=1" \
--metadata="install-nvidia-driver=True"
אפשרויות:
הערך של
--image-familyצריך להיותpytorch-latest-gpuאוpytorch-VERSION-CUDA-VERSION(לדוגמה,pytorch-1-10-cu110).הערך של
--image-projectחייב להיותdeeplearning-platform-release.הערך של
--maintenance-policyחייב להיותTERMINATE. מידע נוסף זמין במאמר בנושא הגבלות על GPU.
--acceleratorמציין את סוג ה-GPU שבו יש להשתמש. חובה לציין את הערך בפורמט--accelerator="type=TYPE,count=COUNT". לדוגמה,--accelerator="type=nvidia-tesla-v100,count=2". בטבלת דגמי ה-GPU מפורטים סוגי ה-GPU הזמינים ומספרם.לא כל סוגי ה-GPU נתמכים בכל האזורים. פרטים נוספים זמינים במאמר זמינות של אזורים ותחומים של GPU.
הפרמטר
--metadataמשמש כדי לציין שמנהל ההתקן של NVIDIA צריך להיות מותקן בשמכם. הערך הואinstall-nvidia-driver=True. אם מציינים זאת, Compute Engine טוען את מנהל ההתקן היציב העדכני בהפעלה הראשונה ומבצע את השלבים הנדרשים (כולל הפעלה מחדש סופית כדי להפעיל את מנהל ההתקן).
אם בחרתם להתקין דרייברים של NVIDIA, תנו לתהליך ההתקנה להימשך 3-5 דקות.
יכול להיות שיחלפו עד 5 דקות עד שהמכונה הווירטואלית תוקצה באופן מלא. במהלך הזמן הזה, לא תוכלו להתחבר למכונה באמצעות SSH. כשההתקנה מסתיימת, כדי לוודא שהתקנת הדרייבר בוצעה בהצלחה, אפשר להתחבר באמצעות SSH ולהריץ את הפקודה nvidia-smi.
אחרי שמגדירים את התמונה, אפשר לשמור תמונת מצב שלה כדי להפעיל מופעים נגזרים בלי לחכות להתקנת מנהל ההתקן.
יצירת מופע זמני של מכונה וירטואלית
אתם יכולים ליצור מופע של מכונה וירטואלית (VM) זמנית ללמידה עמוקה. מכונה מסוג Preemptible VM היא מכונה שאפשר ליצור ולהפעיל במחיר נמוך בהרבה ממכונות רגילות. עם זאת, יכול להיות ש-Compute Engine יפסיק (יבצע הקצאה מראש) את המכונות האלה אם הוא יזדקק לגישה למשאבים האלה למשימות אחרות. מופעים שניתן לקטוע תמיד מפסיקים לפעול אחרי 24 שעות. מידע נוסף על מופעים זמניים שניתנים להפסקה זמין במאמר מופעים זמניים שניתנים להפסקה של מכונות וירטואליות.
כדי ליצור מופע של מכונה וירטואלית (VM) זמנית ללמידה עמוקה:
פועלים לפי ההוראות שלמעלה כדי ליצור מופע חדש באמצעות שורת הפקודה. מוסיפים את הטקסט הבא לפקודה
gcloud compute instances create:--preemptible
המאמרים הבאים
הוראות להתחברות למכונת ה-VM החדשה של Deep Learning דרך Google Cloud המסוף או שורת הפקודה מופיעות במאמר התחברות למופעים. שם המכונה הוא שם הפריסה שציינתם עם התוספת -vm.