רכיבי Dataproc

במסמך הזה מפורטת סקירה כללית על הסוגים השונים של רכיבים שזמינים באשכולות Dataproc. הבנת הרכיבים האלה חיונית להגדרת האשכולות כך שיכללו את הכלים והשירותים הדרושים לעומסי העבודה של ה-Big Data. רכיבי Dataproc מסווגים כרכיבים מותקנים, אופציונליים או כרכיבי פעולת אתחול.

סוגי הרכיבים

אשכולות Dataproc כוללים את סוגי הרכיבים הבאים:

  • רכיבים מותקנים: רכיבים שמותקנים בתמונה ומופעלים כשהאשכול נוצר.

  • רכיבים אופציונליים: רכיבים שבוחרים להתקין ולהשתמש בהם באשכול כשיוצרים את האשכול. מערכת Dataproc מתקינה ומפעילה רכיבים אופציונליים בהתאם לגרסת תמונת האשכול, באופן הבא:

    • 2.2 וגרסאות קודמות של תמונות: רכיבים אופציונליים מותקנים באופן אוטומטי. הרכיבים האופציונליים שנבחרו מופעלים, והרכיבים האופציונליים שלא נבחרו מוסרים במהלך יצירת האשכול.

    • גרסאות אימג' 2.3 ואילך: כל הרכיבים האופציונליים מותקנים במהלך יצירת האשכול, למעט הרכיבים האופציונליים Jupyter, ‏ Iceberg ו-Delta Lake, שמותקנים מראש בגרסאות אימג' 2.3 ואילך. רכיבים אופציונליים שהותקנו מראש מוסרים מאשכול של גרסת תמונה 2.3 ומגרסאות מאוחרות יותר אם הם לא מופעלים כשהאשכול נוצר. מידע נוסף זמין במאמר בנושא גרסאות של Dataproc 2.3.x.

  • רכיבי פעולת אתחול: רכיבים שמותקנים באשכול כחלק מפעולת אתחול שאתם מציינים כשאתם יוצרים אשכול.

רכיבים אופציונליים מותקנים באשכול לפני שמופעלים באשכול פעולות אתחול.

בדפים של גרסאות תמונות Dataproc מפורטים הרכיבים וסוגי הרכיבים שזמינים בגרסאות האחרונות של תמונות Dataproc.

לרכיבים אופציונליים יש את היתרונות הבאים בהשוואה לפעולות אתחול שמשמשות להתקנת רכיבים:

  • רכיבים אופציונליים נבדקים כדי לוודא שהם תואמים לגרסאות ספציפיות של Dataproc.
  • רכיבים אופציונליים מופעלים באמצעות פרמטר ליצירת אשכולות. פעולות ההפעלה דורשות סקריפט.

רכיבים אופציונליים זמינים

רכיב אופציונלי שם הרכיב
בפקודות של Google Cloud CLI ובבקשות API
גרסת התמונה שלב הפרסום
Delta Lake DELTA 2.2.46 ואילך GA
Docker DOCKER 1.5 ואילך GA
Flink FLINK 1.5 ואילך GA
HBase HBASE 1.5 ואילך
(לא זמין ב-2.1 ואילך)
הוצא משימוש
Hive WebHCat HIVE_WEBHCAT 1.3 ואילך GA
Hudi HUDI 1.5 ואילך GA
Iceberg ICEBERG 2.2 ואילך GA
Jupyter Notebook JUPYTER 1.3 ואילך GA
Pig PIG 1.5* ואילך GA
Presto PRESTO 1.3 ואילך
(לא זמין ב-2.1 ואילך)
GA
Ranger RANGER 1.3 ואילך GA
Solr SOLR 1.3 ואילך GA
Trino TRINO 2.1 ואילך GA
Zeppelin Notebook ZEPPELIN 1.3 ואילך GA
Zookeeper ZOOKEEPER 1.0 ואילך GA

הערות:

  • ‫Apache Pig הוא רכיב אופציונלי בגרסאות אימג' 2.3 ואילך. היא הותקנה מראש ב-2.2 ובגרסאות קודמות של תמונות.

הוספת רכיבים אופציונליים

המסוף

  1. נכנסים לדף Create a cluster ב-Dataproc במסוף Google Cloud .

    כניסה לדף Create a cluster

    החלונית הגדרת אשכול נבחרת.

  2. בקטע Components, מתחת ל-Optional components, בוחרים רכיב אחד או יותר להתקנה באשכול.

Google Cloud CLI

כדי ליצור אשכול Dataproc ולהתקין בו רכיב אופציונלי אחד או יותר, משתמשים בפקודה gcloud beta dataproc clusters create cluster-name עם הדגל --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API ל-REST

אפשר לציין רכיבים אופציונליים באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.