סקירה כללית על Dataproc Hub

ב-Dataproc Hub אפשר להשתמש ב-Vertex AI Workbench וב-Managed Service for Apache Spark כדי להריץ משימות אינטראקטיביות של למידת מכונה ועיבוד נתונים בהיקף גדול באמצעות מחברות Jupyter והמערכת האקולוגית של Hadoop ו-Spark.

מחברות Dataproc Hub הן מחברות של משתמש יחיד, שאדמינים אוצרים אותן. הן פועלות באשכול של Managed Service for Apache Spark JupyterLab שנוצר ופועל בפרויקט של המשתמש.

  • ‫Dataproc Hub משתמש ב-JupyterHub כדי:

    • כדי לשמור על עקביות בכל הארגון, האדמינים יכולים ליצור רשימה מותאמת אישית של תבניות מחברות למשתמשים שונים שעובדים עם נתונים ולמשתמשים שונים שעובדים עם ML.
    • להאיץ את יצירת המחברות על ידי אספקת סביבות שהוגדרו מראש למשתמשים בנתונים ולמידת מכונה, בהתאם לדרישות התוכנה והחומרה שלהם.
  • ב-Dataproc Hub יש ממשקים נפרדים לאדמינים ולמשתמשים:

    • אדמינים משתמשים בדף Dataproc→Workbench→User-Managed Notebooks במסוף Google Cloud כדי ליצור מופעים של Dataproc Hub. כל מופע של Hub מכיל קבוצה מוגדרת מראש של סביבות מחברת שמוגדרות על ידי קובצי הגדרת אשכולות ב-YAML.
    • משתמשים בנתונים וב-ML משתמשים בממשק המשתמש של Notebooks→Instances במסוףGoogle Cloud כדי לבחור סביבת מחברת מוגדרת מראש ליצירת שרת מחברת באשכול Managed Service for Apache Spark שלהם.
      • משתמשים שאין להם גישה למסוף יכולים לגשת למופע Dataproc Hub כדי ליצור אשכול של Managed Service for Apache Spark מדפדפן האינטרנט שלהם באמצעות כתובת URL של מופע Dataproc Hub שסופקה על ידי האדמין.
  • תרחישים לדוגמה לשימוש ב-Dataproc Hub:

    • משתמשים בנתונים וב-ML מאורגנים בקבוצות עם דרישות משותפות של תוכנה וחומרה (אפשר להוסיף משתמשים לכמה קבוצות)
    • גישה מוגבלת למסוף Managed Service for Apache Spark: למשתמשים אין גישה ל-Managed Service for Apache Spark במסוף Google Cloud
  • תכונות Dataproc Hub:

    • סביבות משתמש מוגדרות מראש
    • בידוד של אשכולות ומחברות: לחברי קבוצה אין גישה קלה לאשכולות ולמחברות של חברים בקבוצות אחרות

למידע נוסף