Componente Presto facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Presto quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Dataproc.

Presto (Trino) è un motore di query SQL distribuito in open source. Per impostazione predefinita, il server Presto e la UI web sono disponibili sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos ) sul primo nodo master del cluster.

Per impostazione predefinita, Presto su Dataproc è configurato per funzionare con Hive, BigQuery, Memory, TPCH e TPCDS connettori.

Dopo aver creato un cluster con il componente Presto, puoi eseguire query:

Installare il componente

Installa il componente quando crei un cluster Dataproc. I componenti possono essere aggiunti ai cluster creati con Dataproc versione 1.3 e successive.

Consulta Versioni di Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.

Comando Google Cloud CLI

Per creare un cluster Dataproc che includa il componente Presto, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurare le proprietà

Aggiungi il --properties flag al gcloud dataproc clusters create comando per impostare le proprietà di configurazione di presto, presto-jvm e presto-catalog.

  • Proprietà dell'applicazione: utilizza le proprietà del cluster con il presto: prefisso per configurare le proprietà dell'applicazione Presto, ad esempio --properties="presto:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione della JVM: utilizza le proprietà del cluster con il presto-jvm: prefisso per configurare le proprietà della JVM per i processi Java del coordinatore e del worker di Presto, ad esempio --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza presto-catalog:catalog-name.property-name per configurare i cataloghi Presto.

    Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file prodhive.properties in /usr/lib/presto/etc/catalog/ per abilitare il catalogo prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

Il componente Presto può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.

Console

    1. Attiva il componente e il gateway dei componenti.
      • Nella Google Cloud console, apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato.
      • Nella sezione Componenti: