Managed Service for Apache Spark クラスタを作成する際には、オプション コンポーネント機能を使用して、Trino などの追加コンポーネントをインストールできます。このページでは、必要に応じて、Managed Service for Apache Spark クラスタに Trino コンポーネントをインストールする方法について説明します。
Trino は、オープンソースの分散 SQL クエリエンジンです。Trino サーバーとウェブ UI は、デフォルトでは、クラスタの最初のマスターノードのポート 8060(Kerberos が有効になっている場合はポート 7778)で使用できます。
デフォルトで、Managed Service for Apache Spark 上の Trino は、Hive、BigQuery、Memory、TPCH、TPCDS のコネクタとそれぞれ連携するように構成されています。
Trino コンポーネントを使用してクラスタを作成した後は、次の方法でクエリを実行できます。
gcloud dataproc jobs submit trinoコマンドを使用してローカルのターミナルから実行するtrinoCLI(コマンドライン インターフェース)を使用して、クラスタの最初のマスターノードのターミナル ウィンドウから実行する(Managed Service for Apache Spark で Trino を使用するをご覧ください)。
コンポーネントをインストールする
Managed Service for Apache Spark クラスタの作成時にコンポーネントをインストールします。
Managed Service for Apache Spark イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされている Managed Service for Apache Spark バージョンをご覧ください。
コンソール
- Google Cloud コンソールで、Managed Service for Apache Spark の [クラスタの作成] ページに移動します。
[クラスタの設定] パネルが選択されています。
- [コンポーネント] セクションで次の設定を行います。
- [オプション コンポーネント] で、クラスタにインストールする Trino やその他のオプション コンポーネントを選択します。
- [コンポーネント ゲートウェイ] で [コンポーネント ゲートウェイを有効にする] を選択します(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。
gcloud CLI
Trino コンポーネントを含む Managed Service for Apache Spark クラスタを作成するには、--optional-components フラグを指定して gcloud dataproc clusters create コマンドを使用します。
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME: クラスタの名前。
- REGION: クラスタが配置される Compute Engine リージョン。
プロパティの構成
gcloud dataproc clusters create コマンドに --properties フラグを追加して、trino、trino-jvm、trino-catalog の構成プロパティを設定します。
- アプリケーション プロパティ:
trino:接頭辞が付いたクラスタ プロパティを使用して、Trino アプリケーション プロパティを構成します(例:--properties="trino:join-distribution-type=AUTOMATIC")。 - JVM 構成プロパティ:
trino-jvm:接頭辞が付いたクラスタ プロパティを使用して、Trino コーディネーターとワーカー Java プロセスの JVM プロパティを構成します(例:--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError")。 - 新しいカタログの作成とカタログ プロパティの追加:
trino-catalog:catalog-name.property-nameを使用して Trino カタログを構成します。例: 次の properties フラグを gcloud dataproc clusters create コマンドで使用すると、prodhive Hive カタログを含む Trino クラスタを作成できます。
/usr/lib/trino/etc/catalog/の下にprodhive.propertiesファイルが作成され、prodhive カタログが有効になります。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
Managed Service for Apache Spark API を使用して Trino コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。