הסבר על מושגי מפתח ב-Dataproc

במסמך הזה מוסברים המושגים המרכזיים, אבני הבניין הבסיסיות, התכונות העיקריות והיתרונות של Dataproc. הבנת העקרונות האלה תעזור לכם להשתמש ב-Dataproc בצורה יעילה למשימות עיבוד הנתונים שלכם.

המודל מבוסס-האשכולות

זוהי הדרך הרגילה לשימוש ב-Dataproc, שמתמקדת בתשתית. הוא נותן לכם שליטה מלאה במערך ייעודי של מכונות וירטואליות למשימות עיבוד הנתונים.

  • אשכולות: אשכול הוא מנוע לעיבוד מידע אישי, שמורכב ממכונות וירטואליות. Google Cloud אתם יוצרים אשכול כדי להפעיל מסגרות קוד פתוח כמו Apache Spark ו-Apache Hadoop. יש לכם שליטה מלאה על גודל האשכול, סוגי המכונות וההגדרה.
  • משימות: משימה היא פעולה ספציפית, כמו סקריפט PySpark או שאילתת Hadoop. במקום להריץ משימה ישירות באשכול, שולחים את המשימה לשירות Dataproc, שמנהל את ביצוע המשימה בשבילכם. אפשר לשלוח כמה משימות לאשכול.
  • תבניות של תהליכי עבודה: תבנית של תהליך עבודה היא הגדרה לשימוש חוזר שמתזמרת סדרה של משימות (תהליך עבודה). הוא יכול להגדיר תלות בין משימות, למשל להפעיל משימת למידת מכונה רק אחרי שמשימת ניקוי נתונים מסתיימת בהצלחה. אפשר להפעיל את תהליך העבודה מבוסס התבנית באשכול קיים או באשכול זמני (חולף) שנוצר להפעלת תהליך העבודה, ואז נמחק אחרי שתהליך העבודה מסתיים. אפשר להשתמש בתבנית כדי להפעיל את תהליך העבודה המוגדר בכל פעם שצריך.
  • מדיניות של התאמה אוטומטית לעומס: מדיניות של התאמה אוטומטית לעומס מכילה כללים שאתם מגדירים כדי להוסיף או להסיר מכונות עובד מאשכול על סמך עומס העבודה של האשכול, במטרה לבצע אופטימיזציה דינמית של העלות והביצועים של האשכול.

המודל ללא שרת

Serverless (בלי שרת) ל-Apache Spark הוא מודל Dataproc מודרני עם הפעלה אוטומטית. הוא מאפשר לכם להריץ משימות בלי לספק, לנהל או לשנות את גודל התשתית הבסיסית: Serverless for Apache Spark מטפל בפרטים בשבילכם.

  • אצוות: אצווה (נקראת גם עומס עבודה באצווה) היא המקבילה בלי שרת (serverless) של משימת Dataproc. שולחים את הקוד, כמו משימת Spark, לשירות. ‫Serverless (בלי שרת) ל-Apache Spark מספק את המשאבים הדרושים לפי דרישה, מריץ את העבודה ואז מפרק אותם. אתם לא יוצרים או מנהלים משאבים של אשכולות או משימות, השירות עושה את העבודה בשבילכם.
  • סשנים אינטראקטיביים: סשנים אינטראקטיביים מספקים סביבה פעילה לפי דרישה לניתוח נתונים ראשוני, בדרך כלל בתוך notebook של Jupyter. סשנים אינטראקטיביים מספקים נוחות של סביבת עבודה זמנית ללא שרת (serverless), שבה אפשר להריץ שאילתות ולפתח קוד בלי להקצות ולנהל משאבים של אשכולות ומחברות.
  • תבניות של סשנים: תבנית של סשן היא הגדרה לשימוש חוזר שאפשר להשתמש בה כדי להגדיר סשנים אינטראקטיביים. התבנית מכילה הגדרות של סשן, כמו מאפייני Spark ופריטים בקשרי תלות של ספריות. אתם משתמשים בתבנית כדי ליצור סביבות אינטראקטיביות לסשנים של פיתוח, בדרך כלל בתוך מחברת Jupyter.

שירותי Metastore

‫Dataproc מספק שירותים מנוהלים לטיפול במטא-נתונים, שהם הנתונים על הנתונים שלכם.

  • Metastore: מאגר מטא-נתונים הוא קטלוג מרכזי של סכימת נתונים, כמו שמות של טבלאות ועמודות וסוגי נתונים. מאגר מטא-נתונים מאפשר לשירותים, לאשכולות ולמשימות שונים להבין את מבנה הנתונים. בדרך כלל הקטלוג מאוחסן ב-Cloud Storage.
  • פדרציה: פדרציית מטא-נתונים היא תכונה מתקדמת שמאפשרת לכם לגשת לנתונים מכמה מאגרי מטא-נתונים ולשאול שאילתות לגביהם, כאילו אתם ניגשים למאגר מטא-נתונים מאוחד אחד.

סביבות פיתוח ו-Notebook

מחברות Dataproc וסביבות פיתוח משולבות (IDE) מקושרות לסביבות פיתוח משולבות שבהן אפשר לכתוב ולהריץ קוד.

  • BigQuery Studio ו-Workbench: אלה סביבות מאוחדות לניתוח נתונים ולמחברות. הם מאפשרים לכם לכתוב קוד (למשל ב-notebook של Jupyter) ולהשתמש באשכול Dataproc או בסשן Serverless כמנוע קצה עורפי (backend) חזק להרצת הקוד במערכי נתונים גדולים.
  • Dataproc JupyterLab Plugin: התוסף הרשמי הזה של JupyterLab משמש כלוח בקרה ל-Dataproc בסביבת ה-notebook. הוא מפשט את תהליך העבודה בכך שהוא מאפשר לכם לעיין באשכולות, ליצור ולנהל אותם ולהגיש עבודות בלי לצאת מהממשק של Jupyter. מידע נוסף
  • Dataproc Spark Connect Python Connector: ספריית Python הזו מייעלת את תהליך השימוש ב-Spark Connect עם Dataproc. הוא מטפל באימות ובהגדרת נקודות קצה, ולכן קל הרבה יותר לחבר את סביבת Python המקומית, כמו מחברת או סביבת פיתוח משולבת (IDE), לאשכול Dataproc מרוחק לצורך פיתוח אינטראקטיבי. מידע נוסף

התאמה אישית של הסביבה

‫Dataproc מציע כלים ורכיבים להתאמה אישית של הסביבה בהתאם לצרכים ספציפיים. בקטע Utilities (כלי עזר) ב Google Cloud מסוף יש כלים שימושיים להתאמה אישית של סביבת Dataproc.