במסמך הזה מפורטת סקירה כללית על הסוגים השונים של רכיבים שזמינים באשכולות של Managed Service for Apache Spark. הבנת הרכיבים האלה חיונית להגדרת האשכולות כך שיכללו את הכלים והשירותים הדרושים לעומסי העבודה של ה-Big Data. הרכיבים של Managed Service for Apache Spark מסווגים כרכיבים מותקנים, אופציונליים או כרכיבי פעולת אתחול.
סוגי הרכיבים
אשכולות של Managed Service for Apache Spark כוללים את סוגי הרכיבים הבאים:
רכיבים מותקנים: רכיבים שמותקנים בתמונה ומופעלים כשהאשכול נוצר.
רכיבים אופציונליים: רכיבים שבוחרים להתקין ולהשתמש בהם באשכול כשיוצרים את האשכול. Managed Service for Apache Spark מתקין ומפעיל רכיבים אופציונליים בהתאם לגרסת תמונת האשכול, באופן הבא:
2.2וגרסאות קודמות של תמונות: רכיבים אופציונליים מותקנים באופן אוטומטי. הרכיבים האופציונליים שנבחרו מופעלים, והרכיבים האופציונליים שלא נבחרו מוסרים במהלך יצירת האשכול.גרסאות של קובצי אימג' מ-
2.3ואילך: כל הרכיבים האופציונליים מותקנים במהלך יצירת האשכול, למעט הרכיבים האופציונליים Jupyter, Iceberg ו-Delta Lake, שמותקנים מראש בגרסאות של קובצי אימג' מ-2.3ואילך. רכיבים אופציונליים שמותקנים מראש מוסרים מאשכול של גרסת תמונה2.3ומגרסאות מאוחרות יותר אם הם לא מופעלים כשהאשכול נוצר. מידע נוסף זמין במאמר גרסאות של Managed Service for Apache Spark 2.3.x.
רכיבי פעולת אתחול: רכיבים שמותקנים באשכול כחלק מפעולת אתחול שאתם מציינים כשאתם יוצרים אשכול.
רכיבים אופציונליים מותקנים באשכול לפני שמופעלות פעולות אתחול באשכול.
בדפים של גרסאות התמונות של Managed Service for Apache Spark מופיעים רשימה של הרכיבים וסוגי הרכיבים שזמינים בגרסאות האחרונות של תמונות Managed Service for Apache Spark.
לרכיבים אופציונליים יש את היתרונות הבאים בהשוואה לפעולות אתחול שמשמשות להתקנת רכיבים:
- רכיבים אופציונליים נבדקים כדי לוודא שהם תואמים לגרסאות ספציפיות של Managed Service for Apache Spark.
- רכיבים אופציונליים מופעלים באמצעות פרמטר ליצירת אשכולות. פעולות ההפעלה דורשות סקריפט.
רכיבים אופציונליים זמינים
| רכיב אופציונלי | שם הרכיב בפקודות של Google Cloud CLI ובבקשות API |
גרסת תמונה | שלב ההשקה |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 ואילך | GA |
| Docker | DOCKER | 1.5 ואילך | GA |
| Flink | FLINK | 1.5 ואילך | GA |
| HBase | HBASE | 1.5 ואילך (לא זמין ב-2.1 ואילך) |
הוצא משימוש |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 ואילך | GA |
| Hudi | HUDI | 1.5 ואילך | GA |
| Iceberg | ICEBERG | 2.2 ואילך | GA |
| Jupyter Notebook | JUPYTER | 1.3 ואילך | GA |
| Pig | PIG | 1.5* ואילך | GA |
| Presto | PRESTO | 1.3 ואילך (לא זמין ב-2.1 ואילך) |
GA |
| Ranger | RANGER | 1.3 ואילך | GA |
| Solr | SOLR | 1.3 ואילך | GA |
| Trino | TRINO | 2.1 ואילך | GA |
| Zeppelin Notebook | ZEPPELIN | 1.3 ואילך | GA |
| ZooKeeper | ZOOKEEPER | 1.0 ואילך | GA |
הערות:
- Apache Pig הוא רכיב אופציונלי בגרסאות אימג' 2.3 ואילך. היא הותקנה מראש ב-
2.2ובגרסאות קודמות של תמונות.
הוספת רכיבים אופציונליים
מסוףGoogle Cloud
- במסוף Google Cloud , פותחים את הדף Create cluster.
- לוחצים על הגדרה נוספת כדי להרחיב את הקטע.
- עורכים את הרכיבים האופציונליים.
- בחלונית שנפתחת, מסמנים את תיבות הסימון של הרכיבים האופציונליים שרוצים להתקין באשכול ולוחצים על שמירה.
CLI של gcloud
כדי ליצור אשכול של Managed Service for Apache Spark ולהתקין בו רכיב אופציונלי אחד או יותר, משתמשים בפקודה gcloud beta dataproc clusters create cluster-name עם הדגל --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API בארכיטקטורת REST
אפשר לציין רכיבים אופציונליים באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.