Komponen Trino opsional Managed Service untuk Apache Spark

Anda dapat menginstal komponen tambahan seperti Trino saat membuat cluster Managed Service untuk Apache Spark menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Trino secara opsional di cluster Managed Service untuk Apache Spark.

Trino adalah mesin kueri SQL terdistribusi dan open source. Server Trino dan UI Web secara default tersedia di port 8060 (atau port 7778 jika Kerberos diaktifkan) pada node master pertama di cluster.

Secara default, Trino di Managed Service untuk Apache Spark dikonfigurasi untuk bekerja dengan Hive, BigQuery, Memory, TPCH dan TPCDS konektor.

Setelah membuat cluster dengan komponen Trino, Anda dapat menjalankan kueri:

Menginstal komponen

Instal komponen saat Anda membuat cluster Managed Service untuk Apache Spark.

Lihat Versi Managed Service untuk Apache Spark yang didukung untuk mengetahui versi komponen yang disertakan dalam setiap rilis image Managed Service untuk Apache Spark.

Konsol

  1. Di Google Cloud konsol, buka halaman Managed Service untuk Apache Spark Create a cluster.

    Buka Create a cluster

    Panel Set up cluster dipilih.

  2. Di bagian Components:

gcloud CLI

Untuk membuat cluster Managed Service untuk Apache Spark yang menyertakan komponen Trino, gunakan perintah gcloud dataproc clusters create dengan tanda --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
Catatan:
  • CLUSTER_NAME: Nama cluster.
  • REGION: Region Compute Engine tempat cluster akan berada.

Mengonfigurasi properti

Tambahkan tanda --properties ke perintah gcloud dataproc clusters create untuk menetapkan trino, trino-jvm dan trino-catalog properti konfigurasi.

  • Properti aplikasi: Gunakan properti cluster dengan awalan trino: untuk mengonfigurasi properti aplikasi Trino—misalnya, --properties="trino:join-distribution-type=AUTOMATIC".
  • Properti konfigurasi JVM: Gunakan properti cluster dengan awalan trino-jvm: untuk mengonfigurasi properti JVM untuk proses Java koordinator dan pekerja Trino—misalnya, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Membuat katalog baru dan menambahkan properti katalog: Gunakan trino-catalog:catalog-name.property-name untuk mengonfigurasi katalog Trino.

    Contoh: Tanda `properties` berikut dapat digunakan dengan perintah `gcloud dataproc clusters create` untuk membuat cluster Trino dengan katalog Hive "prodhive". File prodhive.properties akan dibuat di bagian/usr/lib/trino/etc/catalog/ untuk mengaktifkan katalog prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

REST API

Komponen Trino dapat ditentukan melalui Managed Service untuk Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.