רכיב Pig אופציונלי ב-Dataproc

אפשר להתקין רכיבים נוספים כמו Apache Pig כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מתואר רכיב Pig, פלטפורמה בקוד פתוח לניתוח של מערכי נתונים גדולים.

התקנת הרכיב

מתקינים את הרכיב כשיוצרים אשכול Dataproc.

‫Apache Pig הוא רכיב אופציונלי ב-Dataproc 2.3 ובגרסאות תמונה מתקדמות יותר.

במאמר גרסאות Dataproc נתמכות מפורטות גרסאות הרכיבים שנכללות במהדורות האחרונות של תמונות Dataproc.

gcloud

כדי ליצור אשכול Dataproc שכולל את רכיב Pig, משתמשים בפקודה gcloud dataproc clusters create CLUSTER_NAME עם הדגל --optional-components (באמצעות גרסת תמונה 2.3 ואילך).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API ל-REST

אפשר לציין את רכיב Pig דרך Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.

המסוף

מפעילים את הרכיב:

  1. במסוף Google Cloud , פותחים את הדף Dataproc Create a cluster. החלונית 'הגדרת אשכול' נבחרה.
  2. בקטע Components (רכיבים), בקטע Optional components (רכיבים אופציונליים), בוחרים ב-Pig וברכיבים אופציונליים אחרים להתקנה באשכול.