Puedes instalar componentes adicionales como Trino cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe cómo instalar opcionalmente el componente Trino en un clúster de Dataproc.
Trino es un motor de consultas en SQL distribuido de código
abierto. El servidor de Trino y
la IU web están disponibles de forma predeterminada en el puerto 8060 (o en el 7778 si Kerberos está
habilitado), en el primer nodo principal del clúster.
De forma predeterminada, Trino en Dataproc está configurado para funcionar con Hive, BigQuery,
Memory, TPCH y TPCDS conectores.
Después de crear un clúster con el componente Trino, puedes ejecutar consultas:
- desde una terminal local con el
gcloud dataproc jobs submit trinocomando - desde una ventana la de terminal en el primer nodo principal del clúster con la
trinoCLI (interfaz de línea de comandos); consulta Usa Trino con Dataproc.
Instala el componente
Instala el componente cuando crees un clúster de Dataproc.
Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.
Console
- En la Google Cloud consola, ve a la página de Dataproc
Crear un clúster.
Se selecciona el panel Configurar clúster.
- En la sección Componentes:
- En Componentes opcionales, selecciona Trino y otros componentes opcionales para instalar en tu clúster.
- En Puerta de enlace de componentes, selecciona Habilitar puerta de enlace de componentes (consulta Visualiza y accede a las URL de la puerta de enlace de componentes).
gcloud CLI
Para crear un clúster de Dataproc que incluya el componente Trino,
usa el
comando gcloud dataproc clusters create
con la marca --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME: el nombre del clúster.
- REGION: Es una región de Compute Engine en la que se ubicará el clúster.
Configura propiedades
Agrega la --properties marca al
gcloud dataproc clusters create comando para establecer
trino, trino-jvm y trino-catalog
propiedades de configuración.
-
Propiedades de la aplicación: Usa las propiedades del clúster con el
trino:prefijo para configurar las propiedades de la aplicación Trino; por ejemplo,--properties="trino:join-distribution-type=AUTOMATIC". - Propiedades de configuración de JVM: Usa las propiedades del clúster con el
trino-jvm:prefijo para configurar las propiedades de JVM del coordinador de Trino y los procesos de Java de los trabajadores. Por ejemplo,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError". - Crea nuevos catálogos y agrega propiedades de catálogo: Usa
trino-catalog:catalog-name.property-namepara configurar los catálogos de Trino.Ejemplo: La siguiente marca "propiedades" se puede usar con el comando "gcloud dataproc clusters create" para crear un clúster de Trino con un catálogo de Hive "prodhive". Se creará un archivo
prodhive.propertiesen para habilitar el catálogo de prodhive./usr/lib/trino/etc/catalog/--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API de REST
El componente de Trino se puede especificar con la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.