רכיב Trino אופציונלי ב-Dataproc

אפשר להתקין רכיבים נוספים כמו Trino כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מוסבר איך אפשר להתקין את רכיב Trino באשכול Dataproc.

Trino הוא מנוע שאילתות SQL מבוזר בקוד פתוח. שרת Trino וממשק המשתמש באינטרנט זמינים כברירת מחדל ביציאה 8060 (או ביציאה 7778 אם Kerberos מופעל) בצומת הראשי הראשון של האשכול.

כברירת מחדל, Trino ב-Dataproc מוגדר לעבוד עם מחברים של Hive, ‏ BigQuery,‏ Memory, ‏ TPCH ו-TPCDS.

אחרי שיוצרים אשכול עם רכיב Trino, אפשר להריץ שאילתות:

התקנת הרכיב

מתקינים את הרכיב כשיוצרים אשכול Dataproc.

בקטע גרסאות Dataproc נתמכות מפורטת גרסת הרכיב שנכללת בכל מהדורת תמונת Dataproc.

המסוף

  1. נכנסים לדף Create a cluster ב-Dataproc במסוף Google Cloud .

    כניסה לדף Create a cluster

    החלונית הגדרת אשכול נבחרת.

  2. בקטע 'רכיבים':
    • בקטע Optional components (רכיבים אופציונליים), בוחרים את Trino ורכיבים אופציונליים אחרים להתקנה באשכול.
    • בקטע Component Gateway (שער רכיבים), בוחרים באפשרות Enable component gateway (הפעלת שער רכיבים) (ראו צפייה בכתובות URL של שער רכיבים וגישה אליהן).

‫CLI של gcloud

כדי ליצור אשכול Dataproc שכולל את רכיב Trino, משתמשים בפקודה gcloud dataproc clusters create עם הדגל --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
הערות:

הגדרת מאפיינים

מוסיפים את הדגל --properties לפקודה gcloud dataproc clusters create כדי להגדיר את מאפייני התצורה trino, trino-jvm ו-trino-catalog.

  • מאפייני אפליקציה: משתמשים במאפייני אשכול עם הקידומת trino: כדי להגדיר מאפייני אפליקציה של Trino – לדוגמה, --properties="trino:join-distribution-type=AUTOMATIC".
  • מאפייני ההגדרה של JVM: משתמשים במאפייני אשכול עם הקידומת trino-jvm: כדי להגדיר מאפייני JVM לתהליכי Java של Trino coordinator ו-worker – לדוגמה, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • יצירת קטלוגים חדשים והוספת מאפייני קטלוג: משתמשים ב-trino-catalog:catalog-name.property-name כדי להגדיר קטלוגים של Trino.

    דוגמה: אפשר להשתמש בדגל `properties` הבא עם הפקודה `gcloud dataproc clusters create` כדי ליצור אשכול Trino עם קטלוג Hive בשם prodhive. קובץ prodhive.properties ייווצר בתיקייה /usr/lib/trino/etc/catalog/ כדי לאפשר את הקטלוג של prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

API ל-REST

אפשר לציין את רכיב Trino דרך Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.