Anda dapat menginstal komponen tambahan seperti Trino saat membuat cluster Managed Service for Apache Spark menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Trino secara opsional di cluster Managed Service for Apache Spark.
Trino adalah mesin kueri SQL terdistribusi open source. Server Trino dan UI Web secara default tersedia di port 8060 (atau port 7778 jika Kerberos diaktifkan) pada node master pertama di cluster.
Secara default, Trino di Managed Service for Apache Spark dikonfigurasi untuk bekerja dengan Hive, BigQuery,
Memory, TPCH, dan TPCDS konektor.
Setelah membuat cluster dengan komponen Trino, Anda dapat menjalankan kueri:
- dari terminal lokal dengan perintah
gcloud dataproc jobs submit trino - dari jendela terminal di node master pertama cluster menggunakan
CLI (Command Line Interface)
trino—lihat Menggunakan Trino dengan Managed Service for Apache Spark.
Menginstal komponen
Instal komponen saat Anda membuat cluster Managed Service for Apache Spark.
Lihat Versi Layanan Terkelola untuk Apache Spark yang didukung untuk versi komponen yang disertakan dalam setiap rilis image Layanan Terkelola untuk Apache Spark.
Konsol
- Di konsol Google Cloud , buka halaman Managed Service for Apache Spark
Create a cluster.
Panel Set up cluster dipilih.
- Di bagian Komponen:
- Di Optional components, pilih Trino dan komponen opsional lainnya untuk diinstal di cluster Anda.
- Di bagian Component Gateway, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Component Gateway).
gcloud CLI
Untuk membuat cluster Managed Service for Apache Spark yang menyertakan komponen Trino,
gunakan perintah
gcloud dataproc clusters create
dengan tanda --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME: Nama cluster.
- REGION: Region Compute Engine tempat cluster akan berada.
Mengonfigurasi properti
Tambahkan flag --properties ke perintah
gcloud dataproc clusters create untuk menetapkan
properti konfigurasi trino, trino-jvm, dan trino-catalog.
-
Properti aplikasi: Gunakan properti cluster dengan awalan
trino:untuk mengonfigurasi properti aplikasi Trino—misalnya,--properties="trino:join-distribution-type=AUTOMATIC". - Properti konfigurasi JVM: Gunakan properti cluster dengan awalan
trino-jvm:untuk mengonfigurasi properti JVM bagi proses Java koordinator dan pekerja Trino—misalnya,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError". - Membuat katalog baru dan menambahkan properti katalog: Gunakan
trino-catalog:catalog-name.property-nameuntuk mengonfigurasi katalog Trino.Contoh: Flag `properties` berikut dapat digunakan dengan perintah `gcloud dataproc clusters create` untuk membuat cluster Trino dengan katalog Hive "prodhive". File
prodhive.propertiesakan dibuat di bawah/usr/lib/trino/etc/catalog/untuk mengaktifkan katalog prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
Komponen Trino dapat ditentukan melalui Managed Service for Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.