רכיב Jupyter אופציונלי ב-Dataproc

אפשר להתקין רכיבים נוספים כמו Jupyter כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מתואר הרכיב Jupyter.

רכיב Jupyter הוא מחברת למשתמש יחיד מבוססת-אינטרנט לניתוח אינטראקטיבי של נתונים, והוא תומך בממשק המשתמש האינטרנטי של JupyterLab. ממשק המשתמש של Jupyter זמין ביציאה 8123 בצומת הראשי הראשון של האשכול.

הפעלת מחברות לכמה משתמשים אפשר ליצור מופע של Vertex AI Workbench עם Dataproc או להתקין את התוסף Dataproc JupyterLab במכונת VM כדי להציג מחברות לכמה משתמשים.

הגדרת Jupyter אפשר להגדיר את Jupyter על ידי ציון dataproc:jupyter מאפייני אשכול. כדי להפחית את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל של מאפיין האשכול dataproc:jupyter.listen.all.interfaces היא false, שמגבילה את החיבורים ל-localhost (127.0.0.1) כש-Component Gateway מופעל (נדרשת הפעלה של Component Gateway כשמתקינים את רכיב Jupyter).

מחברת Jupyter מספקת ליבת Python להרצת קוד Spark וליבת PySpark. כברירת מחדל, מחברות נשמרות ב-Cloud Storage בקטגוריית האחסון הזמני של Dataproc, שמוגדרת על ידי המשתמש או נוצרת אוטומטית כשיוצרים את האשכול. אפשר לשנות את המיקום בזמן יצירת האשכול באמצעות מאפיין האשכול dataproc:jupyter.notebook.gcs.dir.

עבודה עם קובצי נתונים אתם יכולים להשתמש במחברת Jupyter כדי לעבוד עם קובצי נתונים שהועלו ל-Cloud Storage. מכיוון שמחבר Cloud Storage מותקן מראש באשכול Dataproc, אפשר להפנות לקבצים ישירות במחברת. דוגמה לגישה לקובצי CSV ב-Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

דוגמאות ל-PySpark זמינות במאמר פונקציות כלליות לטעינה ולשמירה.

התקנה של Jupyter

מתקינים את הרכיב כשיוצרים אשכול Dataproc. כדי להשתמש ברכיב Jupyter, צריך להפעיל את Component Gateway של Dataproc.

המסוף

מפעילים את הרכיב.
- במסוף Google Cloud , פותחים את הדף Dataproc Create a cluster. החלונית הגדרת אשכול נבחרת.
- בקטע Components (רכיבים):
  - בקטע רכיבים אופציונליים, בוחרים ברכיב Jupyter.
  - בקטע Component Gateway (שער רכיבים), בוחרים באפשרות Enable component gateway (הפעלת שער רכיבים) (ראו צפייה בכתובות URL של שער רכיבים וגישה אליהן).

‫CLI של gcloud

כדי ליצור אשכול Dataproc שכולל את רכיב Jupyter, משתמשים בפקודה gcloud dataproc clusters create cluster-name עם הדגל --optional-components.

דוגמה לגרסה האחרונה של תמונת ברירת המחדל

בדוגמה הבאה מותקן רכיב Jupyter באשכול שמשתמש בגרסת התמונה העדכנית ביותר שמוגדרת כברירת מחדל.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API ל-REST

אפשר להתקין את רכיב Jupyter דרך Dataproc API באמצעות הפקודה SoftwareConfig.Component כחלק מבקשת clusters.create.

מגדירים את המאפיין EndpointConfig.enableHttpPortAccess לערך true כחלק מהבקשה clusters.create כדי לאפשר חיבור לממשק המשתמש באינטרנט של מחברת Jupyter באמצעות Component Gateway.

פתיחת ממשקי המשתמש של Jupyter ו-JupyterLab

לוחצים על Google Cloud הקישורים של Component Gateway במסוף כדי לפתוח בדפדפן המקומי את ממשק המשתמש של Jupyter Notebook או JupyterLab שפועל בצומת הראשי של מאסטר האשכולות.

בוחרים באפשרות GCS או Local Disk כדי ליצור Jupyter Notebook חדש באחד מהמיקומים.

צירוף מעבדי GPU לצמתים ראשיים ולצמתים של עובדים

אתם יכולים להוסיף יחידות GPU לצמתי ה-master וה-worker של האשכול כשמשתמשים במחברת Jupyter כדי:

לעבד מראש נתונים ב-Spark, ואז לאסוף DataFrame אל המאסטר ולהריץ TensorFlow
שימוש ב-Spark כדי לתזמן הפעלות של TensorFlow במקביל
הפעלת Tensorflow-on-YARN
שימוש בתרחישים אחרים של למידת מכונה שמשתמשים במעבדי GPU