"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Componente Trino facoltativo di Managed Service per Apache Spark

Puoi installare componenti aggiuntivi come Trino quando crei un cluster Managed Service for Apache Spark utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Trino su un cluster Managed Service for Apache Spark.

Trino è un motore di query SQL distribuito open source. Il server Trino e la UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos) sul primo nodo master del cluster.

Per impostazione predefinita, Trino su Managed Service for Apache Spark è configurato per funzionare con i connettori Hive, BigQuery, Memory, TPCH e TPCDS.

Dopo aver creato un cluster con il componente Trino, puoi eseguire query:

da un terminale locale con il comando gcloud dataproc jobs submit trino
da una finestra del terminale sul primo nodo master del cluster utilizzando la CLI trino (interfaccia a riga di comando). Consulta Utilizzare Trino con Managed Service for Apache Spark.

Installare il componente

Installa il componente quando crei un cluster Managed Service for Apache Spark.

Consulta la sezione Versioni di Managed Service for Apache Spark supportate per la versione del componente inclusa in ogni release dell'immagine Managed Service for Apache Spark.

Console

Nella console Google Cloud , vai alla pagina Managed Service for Apache Spark Crea un cluster.
Vai a Crea un cluster

Il riquadro Configura cluster è selezionato.
Nella sezione Componenti:
- In Componenti facoltativi, seleziona Trino e altri componenti facoltativi da installare sul cluster.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).

Interfaccia a riga di comando gcloud

Per creare un cluster Managed Service for Apache Spark che includa il componente Trino, utilizza il comando gcloud dataproc clusters create con il flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Note:

CLUSTER_NAME: il nome del cluster.
REGION: una regione di Compute Engine in cui si troverà il cluster.

Configurazione delle proprietà

Aggiungi il flag --properties al comando gcloud dataproc clusters create per impostare le proprietà di configurazione trino, trino-jvm e trino-catalog.

Proprietà dell'applicazione:utilizza le proprietà del cluster con il prefisso trino: per configurare le proprietà dell'applicazione Trino, ad esempio --properties="trino:join-distribution-type=AUTOMATIC".
Proprietà di configurazione JVM:utilizza le proprietà del cluster con il prefisso trino-jvm: per configurare le proprietà JVM per i processi Java del coordinatore e del worker Trino, ad esempio --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
Creazione di nuovi cataloghi e aggiunta di proprietà catalogo:utilizza trino-catalog:catalog-name.property-name per configurare i cataloghi Trino.
Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Trino con un catalogo Hive "prodhive". Un file prodhive.properties verrà creato in /usr/lib/trino/etc/catalog/ per attivare il catalogo prodhive.
```
--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
```

API REST

Il componente Trino può essere specificato tramite l'API Managed Service for Apache Spark utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.

Utilizzando l'API Managed Service for Apache Spark v1, imposta la proprietà EndpointConfig.enableHttpPortAccess su true nell'ambito della richiesta clusters.create per abilitare la connessione alla UI web di Trino utilizzando il gateway dei componenti.

Componente Trino facoltativo di Managed Service per Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Installare il componente

Console

Interfaccia a riga di comando gcloud

Configurazione delle proprietà

API REST

Componente Trino facoltativo di Managed Service per Apache Spark