Anda dapat menginstal komponen tambahan seperti Presto saat membuat cluster Managed Service for Apache Spark menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Presto secara opsional di cluster Managed Service for Apache Spark.
Presto (Trino) adalah mesin kueri SQL terdistribusi open source. Server Presto dan UI Web secara default tersedia di port 8060 (atau port 7778 jika Kerberos diaktifkan) pada node master pertama di cluster.
Secara default, Presto di Managed Service for Apache Spark dikonfigurasi untuk bekerja dengan Hive, BigQuery,
Memory, TPCH, dan TPCDS konektor.
Setelah membuat cluster dengan komponen Presto, Anda dapat menjalankan kueri:
- dari terminal lokal dengan perintah
gcloud dataproc jobs submit presto - dari jendela terminal di node master pertama cluster menggunakan
CLI (Antarmuka Command Line)
presto—lihat Menggunakan Trino dengan Managed Service for Apache Spark
Menginstal komponen
Instal komponen saat Anda membuat cluster Managed Service for Apache Spark. Komponen dapat ditambahkan ke cluster yang dibuat dengan Managed Service for Apache Spark versi 1.3 dan yang lebih baru.
Lihat Versi Layanan Terkelola untuk Apache Spark yang didukung untuk versi komponen yang disertakan dalam setiap rilis image Layanan Terkelola untuk Apache Spark.
Perintah Google Cloud CLI
Untuk membuat cluster Managed Service for Apache Spark yang menyertakan komponen Presto,
gunakan perintah
gcloud dataproc clusters create cluster-name
dengan tanda --optional-components.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Mengonfigurasi properti
Tambahkan flag --properties ke
perintah gcloud dataproc clusters create untuk menetapkan
properti konfigurasi presto, presto-jvm, dan presto-catalog.
-
Properti aplikasi: Gunakan properti cluster dengan awalan
presto:untuk mengonfigurasi properti aplikasi Presto—misalnya,--properties="presto:join-distribution-type=AUTOMATIC". - Properti konfigurasi JVM: Gunakan properti cluster dengan
awalan
presto-jvm:untuk mengonfigurasi properti JVM bagi proses Java koordinator dan pekerja Presto—misalnya,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError". - Membuat katalog baru dan menambahkan properti katalog: Gunakan
presto-catalog:catalog-name.property-nameuntuk mengonfigurasi katalog Presto.Contoh: Flag `properties` berikut dapat digunakan dengan perintah `gcloud dataproc clusters create` untuk membuat cluster Presto dengan katalog Hive "prodhive". File
prodhive.propertiesakan dibuat di bawah/usr/lib/presto/etc/catalog/untuk mengaktifkan katalog prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
Komponen Presto dapat ditentukan melalui Managed Service untuk Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.
Konsol
- Aktifkan komponen dan gateway komponen.
- Di konsol Google Cloud , buka halaman Managed Service for Apache Spark Create a cluster. Panel Set up cluster dipilih.
- Di bagian Komponen:
- Di bagian Komponen opsional, pilih Presto dan komponen opsional lainnya untuk diinstal di cluster Anda.
- Di bagian Component Gateway, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Component Gateway).