Managed Service for Apache Spark のオプションの Trino コンポーネント

Managed Service for Apache Spark クラスタを作成する際には、オプション コンポーネント機能を使用して、Trino などの追加コンポーネントをインストールできます。このページでは、必要に応じて、Managed Service for Apache Spark クラスタに Trino コンポーネントをインストールする方法について説明します。

Trino は、オープンソースの分散 SQL クエリエンジンです。Trino サーバーとウェブ UI は、デフォルトでは、クラスタの最初のマスターノードのポート 8060(Kerberos が有効になっている場合はポート 7778)で使用できます。

デフォルトで、Managed Service for Apache Spark 上の Trino は、HiveBigQueryMemoryTPCHTPCDSコネクタとそれぞれ連携するように構成されています。

Trino コンポーネントを使用してクラスタを作成した後は、次の方法でクエリを実行できます。

コンポーネントをインストールする

Managed Service for Apache Spark クラスタの作成時にコンポーネントをインストールします。

Managed Service for Apache Spark イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされている Managed Service for Apache Spark バージョンをご覧ください。

コンソール

  1. Google Cloud コンソールで、Managed Service for Apache Spark の [クラスタの作成] ページに移動します。

    [クラスタの作成] に移動

    [クラスタの設定] パネルが選択されています。

  2. [コンポーネント] セクションで次の設定を行います。

gcloud CLI

Trino コンポーネントを含む Managed Service for Apache Spark クラスタを作成するには、--optional-components フラグを指定して gcloud dataproc clusters create コマンドを使用します。

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
注:

プロパティの構成

gcloud dataproc clusters create コマンドに --properties フラグを追加して、trinotrino-jvmtrino-catalog の構成プロパティを設定します。

  • アプリケーション プロパティ: trino: 接頭辞が付いたクラスタ プロパティを使用して、Trino アプリケーション プロパティを構成します(例: --properties="trino:join-distribution-type=AUTOMATIC")。
  • JVM 構成プロパティ: trino-jvm: 接頭辞が付いたクラスタ プロパティを使用して、Trino コーディネーターとワーカー Java プロセスの JVM プロパティを構成します(例: --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError")。
  • 新しいカタログの作成とカタログ プロパティの追加: trino-catalog:catalog-name.property-name を使用して Trino カタログを構成します。

    例: 次の properties フラグを gcloud dataproc clusters create コマンドで使用すると、prodhive Hive カタログを含む Trino クラスタを作成できます。/usr/lib/trino/etc/catalog/ の下に prodhive.properties ファイルが作成され、prodhive カタログが有効になります。

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

REST API

Managed Service for Apache Spark API を使用して Trino コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。