במדריך הזה יש הסבר מפורט על Cloud Shell שבו נעשה שימוש בספריות הלקוח של Google Cloud ל-Python כדי לבצע קריאות באופן פרוגרמטי לממשקי gRPC של Managed Service for Apache Spark, ליצור אשכול ולהגיש עבודה לאשכול.
בקטעים הבאים מוסבר על הפעולה של קוד ההדרכה שמופיע במאגר GoogleCloudPlatform/python-dataproc ב-GitHub.
הרצת ההדרכה של Cloud Shell
כדי להריץ את ההדרכה, לוחצים על Open in Cloud Shell (פתיחה ב-Cloud Shell).
הסבר על הקוד
בקטע הזה מוסבר איך קוד המדריך משתמש בספריות לקוח של Cloud ל-Python כדי לבצע אימות ב- Google Cloud, ליצור אשכול, לשלוח עבודת Spark ולנקות את הסביבה על ידי מחיקת האשכול.
Application Default Credentials
ההדרכה המפורטת לשימוש ב-Cloud Shell במדריך הזה מספקת אימות באמצעות פרטי הכניסה של הפרויקט Google Cloud . כשמריצים קוד באופן מקומי, מומלץ להשתמש בפרטי כניסה של חשבון שירות כדי לאמת את הקוד.
יצירת אשכול Managed Service for Apache Spark
הערכים הבאים מוגדרים כדי ליצור את האשכול:
- הפרויקט שבו האשכול ייווצר
- האזור שבו ייווצר האשכול
- השם של האשכול
- הגדרת האשכול, שבה מצוין מאסטר אחד ושני עובדים ראשיים
ההגדרות שנותרו באשכול יוגדרו כברירת מחדל. אפשר לשנות את הגדרות ברירת המחדל של האשכול. לדוגמה, אפשר להוסיף מכונות וירטואליות משניות (ברירת מחדל = 0) או לציין רשת VPC לא סטנדרטית לאשכול. מידע נוסף זמין במאמר בנושא CreateCluster.
שליחת משרה
הערכים הבאים מוגדרים לשליחת העבודה:
- הפרויקט שבו האשכול ייווצר
- האזור שבו ייווצר האשכול
- הגדרת העבודה, שבה מצוין שם האשכול ונתיב הקובץ (URI) של עבודת PySpark ב-Cloud Storage
מידע נוסף זמין במאמר בנושא SubmitJob.
מחיקת האשכול
הערכים הבאים מוגדרים למחיקת האשכול:
- הפרויקט שבו האשכול ייווצר
- האזור שבו ייווצר האשכול
- השם של האשכול
מידע נוסף זמין במאמר DeleteCluster.