Componente Presto facoltativo di Managed Service per Apache Spark

Puoi installare componenti aggiuntivi come Presto quando crei un cluster Managed Service for Apache Spark utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Managed Service for Apache Spark.

Presto (Trino) è un motore di query SQL distribuito in open source. Il server Presto e la UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos) sul primo nodo master del cluster.

Per impostazione predefinita, Presto su Managed Service per Apache Spark è configurato per funzionare con i connettori Hive, BigQuery, Memory, TPCH e TPCDS.

Dopo aver creato un cluster con il componente Presto, puoi eseguire query:

Installa il componente

Installa il componente quando crei un cluster Managed Service per Apache Spark. I componenti possono essere aggiunti ai cluster creati con Managed Service per Apache Spark versione 1.3 e successive.

Consulta Versioni supportate di Managed Service per Apache Spark per la versione del componente inclusa in ogni release dell'immagine di Managed Service per Apache Spark.

Comando Google Cloud CLI

Per creare un cluster Managed Service for Apache Spark che includa il componente Presto, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurazione delle proprietà

Aggiungi il flag --properties al comando gcloud dataproc clusters create per impostare le proprietà di configurazione di presto, presto-jvm e presto-catalog.

  • Proprietà dell'applicazione:utilizza le proprietà del cluster con il prefisso presto: per configurare le proprietà dell'applicazione Presto, ad esempio --properties="presto:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione JVM:utilizza le proprietà del cluster con il prefisso presto-jvm: per configurare le proprietà JVM per i processi Java del coordinatore e del worker Presto, ad esempio --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Creazione di nuovi cataloghi e aggiunta di proprietà catalogo:utilizza presto-catalog:catalog-name.property-name per configurare i cataloghi Presto.

    Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Presto con un catalogo Hive "prodhive". Un file prodhive.properties verrà creato in /usr/lib/presto/etc/catalog/ per attivare il catalogo prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

Il componente Presto può essere specificato tramite l'API Managed Service for Apache Spark utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.

Console

    1. Attiva il componente e il gateway dei componenti.
      • Nella console Google Cloud , apri la pagina Managed Service for Apache Spark Crea un cluster. Il riquadro Configura cluster è selezionato.
      • Nella sezione Componenti: