במסמך הזה מפורטת סקירה כללית על הסוגים השונים של רכיבים שזמינים באשכולות Dataproc. הבנת הרכיבים האלה חיונית להגדרת האשכולות כך שיכללו את הכלים והשירותים הדרושים לעומסי העבודה של ה-Big Data. רכיבי Dataproc מסווגים כרכיבים מותקנים, אופציונליים או כרכיבי פעולת אתחול.
סוגי הרכיבים
אשכולות Dataproc כוללים את סוגי הרכיבים הבאים:
רכיבים מותקנים: רכיבים שמותקנים בתמונה ומופעלים כשהאשכול נוצר.
רכיבים אופציונליים: רכיבים שבוחרים להתקין ולהשתמש בהם באשכול כשיוצרים את האשכול. מערכת Dataproc מתקינה ומפעילה רכיבים אופציונליים בהתאם לגרסת תמונת האשכול, באופן הבא:
2.2וגרסאות קודמות של תמונות: רכיבים אופציונליים מותקנים באופן אוטומטי. הרכיבים האופציונליים שנבחרו מופעלים, והרכיבים האופציונליים שלא נבחרו מוסרים במהלך יצירת האשכול.גרסאות אימג'
2.3ואילך: כל הרכיבים האופציונליים מותקנים במהלך יצירת האשכול, למעט הרכיבים האופציונליים Jupyter, Iceberg ו-Delta Lake, שמותקנים מראש בגרסאות אימג' 2.3ואילך. רכיבים אופציונליים שהותקנו מראש מוסרים מאשכול של גרסת תמונה2.3ומגרסאות מאוחרות יותר אם הם לא מופעלים כשהאשכול נוצר. מידע נוסף זמין במאמר בנושא גרסאות של Dataproc 2.3.x.
רכיבי פעולת אתחול: רכיבים שמותקנים באשכול כחלק מפעולת אתחול שאתם מציינים כשאתם יוצרים אשכול.
רכיבים אופציונליים מותקנים באשכול לפני שמופעלים באשכול פעולות אתחול.
בדפים של גרסאות תמונות Dataproc מפורטים הרכיבים וסוגי הרכיבים שזמינים בגרסאות האחרונות של תמונות Dataproc.
לרכיבים אופציונליים יש את היתרונות הבאים בהשוואה לפעולות אתחול שמשמשות להתקנת רכיבים:
- רכיבים אופציונליים נבדקים כדי לוודא שהם תואמים לגרסאות ספציפיות של Dataproc.
- רכיבים אופציונליים מופעלים באמצעות פרמטר ליצירת אשכולות. פעולות ההפעלה דורשות סקריפט.
רכיבים אופציונליים זמינים
| רכיב אופציונלי | שם הרכיב בפקודות של Google Cloud CLI ובבקשות API |
גרסת התמונה | שלב הפרסום |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 ואילך | GA |
| Docker | DOCKER | 1.5 ואילך | GA |
| Flink | FLINK | 1.5 ואילך | GA |
| HBase | HBASE | 1.5 ואילך (לא זמין ב-2.1 ואילך) |
הוצא משימוש |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 ואילך | GA |
| Hudi | HUDI | 1.5 ואילך | GA |
| Iceberg | ICEBERG | 2.2 ואילך | GA |
| Jupyter Notebook | JUPYTER | 1.3 ואילך | GA |
| Pig | PIG | 1.5* ואילך | GA |
| Presto | PRESTO | 1.3 ואילך (לא זמין ב-2.1 ואילך) |
GA |
| Ranger | RANGER | 1.3 ואילך | GA |
| Solr | SOLR | 1.3 ואילך | GA |
| Trino | TRINO | 2.1 ואילך | GA |
| Zeppelin Notebook | ZEPPELIN | 1.3 ואילך | GA |
| Zookeeper | ZOOKEEPER | 1.0 ואילך | GA |
הערות:
- Apache Pig הוא רכיב אופציונלי בגרסאות אימג' 2.3 ואילך. היא הותקנה מראש ב-
2.2ובגרסאות קודמות של תמונות.
הוספת רכיבים אופציונליים
המסוף
- נכנסים לדף Create a cluster ב-Dataproc במסוף Google Cloud .
החלונית הגדרת אשכול נבחרת.
- בקטע Components, מתחת ל-Optional components, בוחרים רכיב אחד או יותר להתקנה באשכול.
Google Cloud CLI
כדי ליצור אשכול Dataproc ולהתקין בו רכיב אופציונלי אחד או יותר, משתמשים בפקודה gcloud beta dataproc clusters create cluster-name עם הדגל --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API ל-REST
אפשר לציין רכיבים אופציונליים באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.