"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שימוש ב-Dataproc Hub

מטרות

אפשר להשתמש ב-Dataproc Hub כדי ליצור סביבת מחברת JupyterLab למשתמש יחיד שפועלת באשכול Managed Service for Apache Spark.
יצירת מחברת והרצת משימת Spark באשכול Managed Service for Apache Spark.
מוחקים את האשכול ושומרים את המחברת ב-Cloud Storage.

לפני שמתחילים

האדמין צריך להעניק לכם את ההרשאה notebooks.instances.use (ראו הגדרת תפקידים בניהול זהויות והרשאות גישה (IAM)).

יצירת אשכול Dataproc JupyterLab מ-Dataproc Hub

בדף Dataproc→Workbench במסוף Google Cloud , לוחצים על הכרטיסייה User-Managed Notebooks.
לוחצים על Open JupyterLab בשורה שבה מופיע מופע Dataproc Hub שנוצר על ידי האדמין.
1. אם אין לכם גישה למסוף Google Cloud , צריך להזין בדפדפן האינטרנט את כתובת ה-URL של מופע Dataproc Hub שאדמין שיתף איתכם.
בדף Jupyterhub→Dataproc Options, בוחרים הגדרת אשכול ואזור. אם האפשרות מופעלת, מציינים את ההתאמות האישיות הרצויות ולוחצים על יצירה.

אחרי שיוצרים את אשכול Managed Service for Apache Spark, מועברים לממשק JupyterLab שפועל באשכול.

יצירת מחברת והרצת משימת Spark

בחלונית הימנית של ממשק JupyterLab, לוחצים על GCS (Cloud Storage).
יוצרים מחברת PySpark ממרכז ההפעלה של JupyterLab.

ליבת PySpark מאתחלת SparkContext (באמצעות המשתנה sc). אפשר לבדוק את SparkContext ולהריץ משימת Spark מתוך המחברת.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

נותנים שם ל-notebook ושומרים אותו. המחברת נשמרת ונשארת ב-Cloud Storage אחרי שמחיקתם את אשכול Managed Service for Apache Spark.

כיבוי של אשכול Dataproc

בממשק של JupyterLab, בוחרים באפשרות File→Hub Control Panel כדי לפתוח את הדף Jupyterhub.

כשמשתמשים בגרסאות תמונה של Managed Service for Apache Spark 1.4 או גרסאות קודמות, צריך לעבור אל /hub/home כדי לגשת לדף Jupyterhub.
לוחצים על Stop My Cluster (הפסקת האשכול שלי) כדי לכבות (למחוק) את שרת JupyterLab, וכך למחוק את האשכול של Managed Service for Apache Spark.

הפסקת השרת ומחיקת האשכול לא מוחקות את מופע Dataproc Hub. כדי לפתוח, להגדיר וליצור עוד אשכול של Managed Service for Apache Spark JupyterLab, אפשר ללחוץ על Start my server בדף Jupyterhub (לוח הבקרה של Hub) או לבחור בקישור Open JupyterLab של מופע Dataproc Hub בדף Dataproc→Workbench→User-Managed Notebooks במסוף Google Cloud .

המאמרים הבאים

אפשר לעיין ב-Spark וב-Jupyter Notebooks ב-Dataproc ב-GitHub.