Managed Service for Apache Spark クラスタを作成する際には、オプション コンポーネント機能を使用して、Presto などの追加コンポーネントをインストールできます。このページでは、必要に応じて、Managed Service for Apache Spark クラスタに Presto コンポーネントをインストールする方法について説明します。
Presto(Trino)は、オープンソースの分散 SQL クエリエンジンです。Presto サーバーとウェブ UI は、デフォルトでは、クラスタの最初のマスターノードのポート 8060(Kerberos が有効になっている場合はポート 7778)で使用できます。
デフォルトで、Managed Service for Apache Spark 上の Presto は、Hive、BigQuery、Memory、TPCH、TPCDS のコネクタとそれぞれ連携するように構成されています。
Presto コンポーネントを使用してクラスタを作成した後は、次の方法でクエリを実行できます。
gcloud dataproc jobs submit prestoコマンドを使用してローカルのターミナルから実行するprestoCLI(コマンドライン インターフェース)を使用して、クラスタの最初のマスターノードのターミナル ウィンドウから実行する(Managed Service for Apache Spark で Trino を使用するをご覧ください)
コンポーネントをインストールする
Managed Service for Apache Spark クラスタの作成時にコンポーネントをインストールします。コンポーネントは、Managed Service for Apache Spark バージョン 1.3 以降で作成されたクラスタに追加できます。
Managed Service for Apache Spark イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされている Managed Service for Apache Spark バージョンをご覧ください。
Google Cloud CLI コマンド
Presto コンポーネントを含む Managed Service for Apache Spark クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create cluster-name コマンドを使用します。
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
プロパティの構成
gcloud dataproc clusters create コマンドに --properties フラグを追加して、presto、presto-jvm、presto-catalog config のプロパティを設定します。
- アプリケーション プロパティ:
presto:接頭辞が付いたクラスタ プロパティを使用して、Presto アプリケーション プロパティを構成します(例:--properties="presto:join-distribution-type=AUTOMATIC")。 - JVM 構成プロパティ:
presto-jvm:接頭辞が付いたクラスタ プロパティを使用して、Presto コーディネーターとワーカー Java プロセスの JVM プロパティを構成します(例:--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError")。 - 新しいカタログの作成とカタログ プロパティの追加:
presto-catalog:catalog-name.property-nameを使用して Presto カタログを構成します。例: 次の properties フラグを gcloud dataproc clusters create コマンドで使用すると、prodhive Hive カタログを含む Presto クラスタを作成できます。
/usr/lib/presto/etc/catalog/の下にprodhive.propertiesファイルが作成され、prodhive カタログが有効になります。--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
Managed Service for Apache Spark API を使用して Presto コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。
コンソール
- コンポーネントとコンポーネント ゲートウェイを有効にします。
- Google Cloud コンソールで、Managed Service for Apache Spark の [クラスタの作成] ページを開きます。[クラスタの設定] パネルが選択されています。
- [コンポーネント] セクションで次の設定を行います。
- [オプション コンポーネント] で、クラスタにインストールする Presto や、他のオプション コンポーネントを選択します。
- [コンポーネント ゲートウェイ] で [コンポーネント ゲートウェイを有効にする] を選択します(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。