Componente Trino facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Trino quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Trino su un cluster Dataproc.

Trino è un motore di query SQL distribuito in open source. Il server Trino e la UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos ) sul primo nodo master del cluster.

Per impostazione predefinita, Trino su Dataproc è configurato per funzionare con Hive, BigQuery, Memory, TPCH e TPCDS connettori.

Dopo aver creato un cluster con il componente Trino, puoi eseguire query:

Installare il componente

Installa il componente quando crei un cluster Dataproc.

Per la versione del componente inclusa in ogni release dell'immagine Dataproc, consulta Versioni di Dataproc supportate.

Console

  1. Nella Google Cloud console, vai alla pagina Dataproc Crea un cluster.

    Vai a Crea un cluster

    Viene selezionato il riquadro Configura cluster.

  2. Nella sezione Componenti:

Interfaccia a riga di comando gcloud

Per creare un cluster Dataproc che includa il componente Trino, utilizza il comando gcloud dataproc clusters create con il flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
Note:

Configurare le proprietà

Aggiungi il --properties flag al gcloud dataproc clusters create comando per impostare trino, trino-jvm e trino-catalog proprietà di configurazione.

  • Proprietà dell'applicazione: utilizza le proprietà del cluster con il trino: prefisso per configurare le proprietà dell'applicazione Trino, ad esempio --properties="trino:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione della JVM: utilizza le proprietà del cluster con il trino-jvm: prefisso per configurare le proprietà della JVM per i processi Java del coordinatore e dei worker Trino, ad esempio --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Creare nuovi cataloghi e aggiungere proprietà del catalogo: Utilizza trino-catalog:catalog-name.property-name per configurare i cataloghi Trino.

    Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Trino con un catalogo Hive "prodhive". Verrà creato un file prodhive.properties in per abilitare il catalogo prodhive./usr/lib/trino/etc/catalog/

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

API REST

Il componente Trino può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una clusters.create.