רכיבים של Managed Service for Apache Spark

במסמך הזה מפורטת סקירה כללית על הסוגים השונים של רכיבים שזמינים באשכולות של Managed Service for Apache Spark. הבנת הרכיבים האלה חיונית להגדרת האשכולות כך שיכללו את הכלים והשירותים הדרושים לעומסי העבודה של ה-Big Data. הרכיבים של Managed Service for Apache Spark מסווגים כרכיבים מותקנים, אופציונליים או כרכיבי פעולת אתחול.

סוגי הרכיבים

אשכולות של Managed Service for Apache Spark כוללים את סוגי הרכיבים הבאים:

  • רכיבים מותקנים: רכיבים שמותקנים בתמונה ומופעלים כשהאשכול נוצר.

  • רכיבים אופציונליים: רכיבים שבוחרים להתקין ולהשתמש בהם באשכול כשיוצרים את האשכול. ‫Managed Service for Apache Spark מתקין ומפעיל רכיבים אופציונליים בהתאם לגרסת תמונת האשכול, באופן הבא:

    • 2.2 וגרסאות קודמות של תמונות: רכיבים אופציונליים מותקנים באופן אוטומטי. הרכיבים האופציונליים שנבחרו מופעלים, והרכיבים האופציונליים שלא נבחרו מוסרים במהלך יצירת האשכול.

    • גרסאות של קובצי אימג' מ-2.3 ואילך: כל הרכיבים האופציונליים מותקנים במהלך יצירת האשכול, למעט הרכיבים האופציונליים Jupyter, ‏ Iceberg ו-Delta Lake, שמותקנים מראש בגרסאות של קובצי אימג' מ-2.3 ואילך. רכיבים אופציונליים שמותקנים מראש מוסרים מאשכול של גרסת תמונה 2.3 ומגרסאות מאוחרות יותר אם הם לא מופעלים כשהאשכול נוצר. מידע נוסף זמין במאמר גרסאות של Managed Service for Apache Spark 2.3.x.

  • רכיבי פעולת אתחול: רכיבים שמותקנים באשכול כחלק מפעולת אתחול שאתם מציינים כשאתם יוצרים אשכול.

רכיבים אופציונליים מותקנים באשכול לפני שמופעלות פעולות אתחול באשכול.

בדפים של גרסאות התמונות של Managed Service for Apache Spark מופיעים רשימה של הרכיבים וסוגי הרכיבים שזמינים בגרסאות האחרונות של תמונות Managed Service for Apache Spark.

לרכיבים אופציונליים יש את היתרונות הבאים בהשוואה לפעולות אתחול שמשמשות להתקנת רכיבים:

  • רכיבים אופציונליים נבדקים כדי לוודא שהם תואמים לגרסאות ספציפיות של Managed Service for Apache Spark.
  • רכיבים אופציונליים מופעלים באמצעות פרמטר ליצירת אשכולות. פעולות ההפעלה דורשות סקריפט.

רכיבים אופציונליים זמינים

רכיב אופציונלי שם הרכיב
בפקודות של Google Cloud CLI ובבקשות API
גרסת תמונה שלב ההשקה
Delta Lake DELTA 2.2.46 ואילך GA
Docker DOCKER 1.5 ואילך GA
Flink FLINK 1.5 ואילך GA
HBase HBASE 1.5 ואילך
(לא זמין ב-2.1 ואילך)
הוצא משימוש
Hive WebHCat HIVE_WEBHCAT 1.3 ואילך GA
Hudi HUDI 1.5 ואילך GA
Iceberg ICEBERG 2.2 ואילך GA
Jupyter Notebook JUPYTER 1.3 ואילך GA
Pig PIG 1.5* ואילך GA
Presto PRESTO 1.3 ואילך
(לא זמין ב-2.1 ואילך)
GA
Ranger RANGER 1.3 ואילך GA
Solr SOLR 1.3 ואילך GA
Trino TRINO 2.1 ואילך GA
Zeppelin Notebook ZEPPELIN 1.3 ואילך GA
ZooKeeper ZOOKEEPER 1.0 ואילך GA

הערות:

  • ‫Apache Pig הוא רכיב אופציונלי בגרסאות אימג' 2.3 ואילך. היא הותקנה מראש ב-2.2 ובגרסאות קודמות של תמונות.

הוספת רכיבים אופציונליים

מסוףGoogle Cloud

  1. במסוף Google Cloud , פותחים את הדף Create cluster.
  2. לוחצים על הגדרה נוספת כדי להרחיב את הקטע.
  3. עורכים את הרכיבים האופציונליים.
  4. בחלונית שנפתחת, מסמנים את תיבות הסימון של הרכיבים האופציונליים שרוצים להתקין באשכול ולוחצים על שמירה.

‫CLI של gcloud

כדי ליצור אשכול של Managed Service for Apache Spark ולהתקין בו רכיב אופציונלי אחד או יותר, משתמשים בפקודה gcloud beta dataproc clusters create cluster-name עם הדגל --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

‫API בארכיטקטורת REST

אפשר לציין רכיבים אופציונליים באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.