Puoi installare componenti aggiuntivi come Presto quando crei un cluster Managed Service for Apache Spark utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Managed Service for Apache Spark.
Presto (Trino) è un motore di query SQL distribuito in open
source. Per impostazione predefinita, il server Presto e la UI web sono disponibili sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos) sul primo nodo master del cluster.
Per impostazione predefinita, Presto su Managed Service for Apache Spark è configurato per funzionare con Hive, BigQuery,
Memory, TPCH e TPCDS connettori.
Dopo aver creato un cluster con il componente Presto, puoi eseguire query:
- Da un terminale locale con il
gcloud dataproc jobs submit prestocomando - Da una finestra del terminale sul primo nodo master del cluster utilizzando la
prestoCLI (interfaccia a riga di comando). Per maggiori dettagli, consulta Utilizzare Trino con Managed Service for Apache Spark.
Installare il componente
Installa il componente quando crei un cluster Managed Service for Apache Spark. I componenti possono essere aggiunti ai cluster creati con Managed Service for Apache Spark versione 1.3 e successive.
Per la versione del componente inclusa in ogni release dell'immagine Managed Service for Apache Spark, consulta Versioni di Managed Service for Apache Spark supportate.
Comando Google Cloud CLI
Per creare un cluster Managed Service for Apache Spark che includa il componente Presto,
utilizza il
comando gcloud dataproc clusters create cluster-name
con il flag --optional-components.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Configurare le proprietà
Aggiungi il --properties flag al
gcloud dataproc clusters create comando per impostare
le proprietà di configurazione di presto, presto-jvm e presto-catalog.
-
Proprietà dell'applicazione: utilizza le proprietà del cluster con il
presto:prefisso per configurare le proprietà dell'applicazione Presto, ad esempio--properties="presto:join-distribution-type=AUTOMATIC". - Proprietà di configurazione della JVM: utilizza le proprietà del cluster con il
presto-jvm:prefisso per configurare le proprietà della JVM per i processi Java del coordinatore e del worker di Presto, ad esempio--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError". - Creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza
presto-catalog:catalog-name.property-nameper configurare i cataloghi Presto.Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file
prodhive.propertiesin/usr/lib/presto/etc/catalog/per abilitare il catalogo prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
Il componente Presto può essere specificato tramite l'API Managed Service for Apache Spark utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.
Console
- Abilita il componente e il gateway dei componenti.
- Nellaconsole, apri la pagina Crea un cluster di Managed Service for Apache Spark. Google Cloud Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Presto e altri componenti facoltativi da installare sul cluster.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzare e accedere agli URL del gateway dei componenti).