אפשר להתקין רכיבים נוספים כמו Trino כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מוסבר איך אפשר להתקין את רכיב Trino באשכול Dataproc.
Trino הוא מנוע שאילתות SQL מבוזר בקוד פתוח. שרת Trino וממשק המשתמש באינטרנט זמינים כברירת מחדל ביציאה 8060 (או ביציאה 7778 אם Kerberos מופעל) בצומת הראשי הראשון של האשכול.
כברירת מחדל, Trino ב-Dataproc מוגדר לעבוד עם מחברים של Hive, BigQuery, Memory, TPCH ו-TPCDS.
אחרי שיוצרים אשכול עם רכיב Trino, אפשר להריץ שאילתות:
- ממסוף מקומי באמצעות הפקודה
gcloud dataproc jobs submit trino - מחלון מסוף בצומת הראשי הראשון של האשכול באמצעות
trinoCLI (ממשק שורת הפקודה) – ראו שימוש ב-Trino עם Dataproc.
התקנת הרכיב
מתקינים את הרכיב כשיוצרים אשכול Dataproc.
בקטע גרסאות Dataproc נתמכות מפורטת גרסת הרכיב שנכללת בכל מהדורת תמונת Dataproc.
המסוף
- נכנסים לדף Create a cluster ב-Dataproc במסוף Google Cloud .
החלונית הגדרת אשכול נבחרת.
- בקטע 'רכיבים':
- בקטע Optional components (רכיבים אופציונליים), בוחרים את Trino ורכיבים אופציונליים אחרים להתקנה באשכול.
- בקטע Component Gateway (שער רכיבים), בוחרים באפשרות Enable component gateway (הפעלת שער רכיבים) (ראו צפייה בכתובות URL של שער רכיבים וגישה אליהן).
CLI של gcloud
כדי ליצור אשכול Dataproc שכולל את רכיב Trino, משתמשים בפקודה gcloud dataproc clusters create עם הדגל --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME: השם של האשכול.
- REGION: אזור Compute Engine שבו ימוקם האשכול.
הגדרת מאפיינים
מוסיפים את הדגל --properties לפקודה gcloud dataproc clusters create כדי להגדיר את מאפייני התצורה trino, trino-jvm ו-trino-catalog.
-
מאפייני אפליקציה: משתמשים במאפייני אשכול עם הקידומת
trino:כדי להגדיר מאפייני אפליקציה של Trino – לדוגמה,--properties="trino:join-distribution-type=AUTOMATIC". - מאפייני ההגדרה של JVM: משתמשים במאפייני אשכול עם הקידומת
trino-jvm:כדי להגדיר מאפייני JVM לתהליכי Java של Trino coordinator ו-worker – לדוגמה,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError". - יצירת קטלוגים חדשים והוספת מאפייני קטלוג: משתמשים ב-
trino-catalog:catalog-name.property-nameכדי להגדיר קטלוגים של Trino.דוגמה: אפשר להשתמש בדגל `properties` הבא עם הפקודה `gcloud dataproc clusters create` כדי ליצור אשכול Trino עם קטלוג Hive בשם prodhive. קובץ
prodhive.propertiesייווצר בתיקייה/usr/lib/trino/etc/catalog/כדי לאפשר את הקטלוג של prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API ל-REST
אפשר לציין את רכיב Trino דרך Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.