רכיב Presto אופציונלי ב-Dataproc

אפשר להתקין רכיבים נוספים כמו Presto כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מוסבר איך להתקין רכיב Presto באשכול Dataproc.

‫Presto‏ (Trino) הוא מנוע שאילתות SQL מבוזר בקוד פתוח. שרת Presto וממשק המשתמש באינטרנט זמינים כברירת מחדל ביציאה 8060 (או ביציאה 7778 אם Kerberos מופעל) בצומת הראשי הראשון של האשכול.

כברירת מחדל, Presto ב-Dataproc מוגדר לעבוד עם Hive, ‏ BigQuery,‏ Memory, ‏ TPCH ו-TPCDS מחברים.

אחרי שיוצרים אשכול עם רכיב Presto, אפשר להריץ שאילתות:

התקנת הרכיב

מתקינים את הרכיב כשיוצרים אשכול Dataproc. אפשר להוסיף רכיבים לאשכולות שנוצרו באמצעות Dataproc גרסה 1.3 ואילך.

בקטע גרסאות Dataproc נתמכות מפורטת גרסת הרכיב שנכללת בכל מהדורת תמונת Dataproc.

פקודה של Google Cloud CLI

כדי ליצור אשכול Dataproc שכולל את רכיב Presto, משתמשים בפקודה gcloud dataproc clusters create cluster-name עם הדגל --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

הגדרת מאפיינים

מוסיפים את הדגל --properties לפקודה gcloud dataproc clusters create כדי להגדיר את מאפייני התצורה של presto, ‏ presto-jvm ו-presto-catalog.

  • מאפייני אפליקציה: משתמשים במאפייני אשכול עם הקידומת presto: כדי להגדיר מאפייני אפליקציית Presto – לדוגמה, --properties="presto:join-distribution-type=AUTOMATIC".
  • מאפייני ההגדרה של JVM: משתמשים במאפייני אשכול עם הקידומת presto-jvm: כדי להגדיר מאפייני JVM לתהליכי Java של Presto coordinator ו-worker – לדוגמה, --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • יצירת קטלוגים חדשים והוספת נכסי קטלוג: משתמשים ב- presto-catalog:catalog-name.property-name כדי להגדיר קטלוגים של Presto.

    דוגמה: אפשר להשתמש בדגל `properties` הבא עם הפקודה `gcloud dataproc clusters create` כדי ליצור אשכול Presto עם קטלוג Hive בשם prodhive. קובץ prodhive.properties ייווצר בתיקייה /usr/lib/presto/etc/catalog/ כדי לאפשר את הקטלוג של prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API ל-REST

אפשר לציין את רכיב Presto באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.

המסוף

    1. מפעילים את הרכיב ואת שער הרכיבים.
      • במסוף Google Cloud , פותחים את הדף Dataproc Create a cluster. החלונית 'הגדרת אשכול' נבחרה.
      • בקטע Components (רכיבים):
        • בקטע Optional components (רכיבים אופציונליים), בוחרים את Presto ורכיבים אופציונליים אחרים להתקנה באשכול.
        • בקטע Component Gateway (שער רכיבים), בוחרים באפשרות Enable component gateway (הפעלת שער רכיבים) (ראו צפייה בכתובות URL של שער רכיבים וגישה אליהן).