אפשר להתקין רכיבים נוספים כמו Presto כשיוצרים אשכול Dataproc באמצעות התכונה רכיבים אופציונליים. בדף הזה מוסבר איך להתקין רכיב Presto באשכול Dataproc.
Presto (Trino) הוא מנוע שאילתות SQL מבוזר בקוד פתוח. שרת Presto וממשק המשתמש באינטרנט זמינים כברירת מחדל ביציאה 8060 (או ביציאה 7778 אם Kerberos מופעל) בצומת הראשי הראשון של האשכול.
כברירת מחדל, Presto ב-Dataproc מוגדר לעבוד עם Hive, BigQuery, Memory, TPCH ו-TPCDS מחברים.
אחרי שיוצרים אשכול עם רכיב Presto, אפשר להריץ שאילתות:
- ממסוף מקומי באמצעות הפקודה
gcloud dataproc jobs submit presto - מחלון טרמינל בצומת הראשי הראשון של האשכול באמצעות
prestoCLI (ממשק שורת הפקודה) – ראו שימוש ב-Trino עם Dataproc
התקנת הרכיב
מתקינים את הרכיב כשיוצרים אשכול Dataproc. אפשר להוסיף רכיבים לאשכולות שנוצרו באמצעות Dataproc גרסה 1.3 ואילך.
בקטע גרסאות Dataproc נתמכות מפורטת גרסת הרכיב שנכללת בכל מהדורת תמונת Dataproc.
פקודה של Google Cloud CLI
כדי ליצור אשכול Dataproc שכולל את רכיב Presto, משתמשים בפקודה gcloud dataproc clusters create cluster-name עם הדגל --optional-components.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
הגדרת מאפיינים
מוסיפים את הדגל --properties לפקודה gcloud dataproc clusters create כדי להגדיר את מאפייני התצורה של presto, presto-jvm ו-presto-catalog.
-
מאפייני אפליקציה: משתמשים במאפייני אשכול עם הקידומת
presto:כדי להגדיר מאפייני אפליקציית Presto – לדוגמה,--properties="presto:join-distribution-type=AUTOMATIC". - מאפייני ההגדרה של JVM: משתמשים במאפייני אשכול עם הקידומת
presto-jvm:כדי להגדיר מאפייני JVM לתהליכי Java של Presto coordinator ו-worker – לדוגמה,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError". - יצירת קטלוגים חדשים והוספת נכסי קטלוג: משתמשים ב-
presto-catalog:catalog-name.property-nameכדי להגדיר קטלוגים של Presto.דוגמה: אפשר להשתמש בדגל `properties` הבא עם הפקודה `gcloud dataproc clusters create` כדי ליצור אשכול Presto עם קטלוג Hive בשם prodhive. קובץ
prodhive.propertiesייווצר בתיקייה/usr/lib/presto/etc/catalog/כדי לאפשר את הקטלוג של prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API ל-REST
אפשר לציין את רכיב Presto באמצעות Dataproc API באמצעות SoftwareConfig.Component כחלק מבקשת clusters.create.
המסוף
- מפעילים את הרכיב ואת שער הרכיבים.
- במסוף Google Cloud , פותחים את הדף Dataproc Create a cluster. החלונית 'הגדרת אשכול' נבחרה.
- בקטע Components (רכיבים):
- בקטע Optional components (רכיבים אופציונליים), בוחרים את Presto ורכיבים אופציונליים אחרים להתקנה באשכול.
- בקטע Component Gateway (שער רכיבים), בוחרים באפשרות Enable component gateway (הפעלת שער רכיבים) (ראו צפייה בכתובות URL של שער רכיבים וגישה אליהן).