שימוש ב-Dataproc Hub

מטרות

  1. אפשר להשתמש ב-Dataproc Hub כדי ליצור סביבת מחברת JupyterLab למשתמש יחיד שפועלת באשכול Managed Service for Apache Spark.

  2. יצירת מחברת והרצת משימת Spark באשכול Managed Service for Apache Spark.

  3. מוחקים את האשכול ושומרים את המחברת ב-Cloud Storage.

לפני שמתחילים

  1. האדמין צריך להעניק לכם את ההרשאה notebooks.instances.use (ראו הגדרת תפקידים בניהול זהויות והרשאות גישה (IAM)).

יצירת אשכול Dataproc JupyterLab מ-Dataproc Hub

  1. בדף Dataproc→Workbench במסוף Google Cloud , לוחצים על הכרטיסייה User-Managed Notebooks.

  2. לוחצים על Open JupyterLab בשורה שבה מופיע מופע Dataproc Hub שנוצר על ידי האדמין.

    1. אם אין לכם גישה למסוף Google Cloud , צריך להזין בדפדפן האינטרנט את כתובת ה-URL של מופע Dataproc Hub שאדמין שיתף איתכם.
  3. בדף Jupyterhub→Dataproc Options, בוחרים הגדרת אשכול ואזור. אם האפשרות מופעלת, מציינים את ההתאמות האישיות הרצויות ולוחצים על יצירה.

    אחרי שיוצרים את אשכול Managed Service for Apache Spark, מועברים לממשק JupyterLab שפועל באשכול.

יצירת מחברת והרצת משימת Spark

  1. בחלונית הימנית של ממשק JupyterLab, לוחצים על GCS (Cloud Storage).

  2. יוצרים מחברת PySpark ממרכז ההפעלה של JupyterLab.

  3. ליבת PySpark מאתחלת SparkContext (באמצעות המשתנה sc). אפשר לבדוק את SparkContext ולהריץ משימת Spark מתוך המחברת.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. נותנים שם ל-notebook ושומרים אותו. המחברת נשמרת ונשארת ב-Cloud Storage אחרי שמחיקתם את אשכול Managed Service for Apache Spark.

כיבוי של אשכול Dataproc

  1. בממשק של JupyterLab, בוחרים באפשרות File→Hub Control Panel כדי לפתוח את הדף Jupyterhub.

  2. לוחצים על Stop My Cluster (הפסקת האשכול שלי) כדי לכבות (למחוק) את שרת JupyterLab, וכך למחוק את האשכול של Managed Service for Apache Spark.

המאמרים הבאים