É possível instalar outros componentes, como o Presto, ao criar um cluster do Serviço Gerenciado para Apache Spark usando o recurso Componentes opcionais. Nesta página, você verá como instalar o componente Presto em um cluster do Serviço Gerenciado para Apache Spark.
O Presto (Trino) é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Presto estão disponíveis na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.
Por padrão, o Presto no Serviço Gerenciado para Apache Spark é configurado para funcionar com Hive, BigQuery,
Memory, TPCH e TPCDS conectores.
Depois de criar um cluster com o componente Presto, execute consultas:
- de um terminal local com o
gcloud dataproc jobs submit prestocomando - em uma janela de terminal no primeiro nó mestre do cluster usando a
prestoCLI (interface de linha de comando). Consulte Usar o Trino com o Serviço Gerenciado para Apache Spark
Instalar o componente
Instale o componente ao criar um cluster do Serviço Gerenciado para Apache Spark. Os componentes podem ser adicionados a clusters criados com a versão 1.3 e mais recentes do Serviço Gerenciado para Apache Spark.
Consulte Versões compatíveis do Serviço Gerenciado para Apache Spark para a versão do componente incluída em cada versão de imagem do Serviço Gerenciado para Apache Spark.
Comando da Google Cloud CLI
Para criar um cluster do Serviço Gerenciado para Apache Spark que inclua o componente Presto,
use o
comando gcloud dataproc clusters create cluster-name
com a sinalização --optional-components.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Como configurar propriedades
Adicione a sinalização --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração presto, presto-jvm e presto-Catalog.
-
Propriedades do aplicativo: use as propriedades do cluster com o prefixo
presto:para configurar as propriedades do aplicativo Presto, por exemplo,--properties="presto:join-distribution-type=AUTOMATIC". - Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo
presto-jvm:para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Presto, por exemplo,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError". - Criar novos catálogos e adicionar propriedades de catálogo: use
presto-catalog:catalog-name.property-namepara configurar catálogos do Presto.Exemplo: a seguinte sinalização "properties" pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Presto com um catálogo do Hive "prodhive". Um arquivo
prodhive.propertiesserá criado em/usr/lib/presto/etc/catalog/para ativar o catálogo do prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
O componente Presto pode ser especificado por meio da API do Serviço Gerenciado para Apache Spark usando SoftwareConfig.Component como parte de uma solicitação clusters.create.
Console
- Ative o componente e o gateway de componentes.
- No Google Cloud console, abra a página Criar um cluster do Serviço Gerenciado para Apache Spark. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes:"
- Em "Componentes opcionais", selecione Presto e outros componentes opcionais para instalar no cluster.
- Em "Gateway de componentes", selecione "Ativar gateway do componente" (consulte Visualizar e acessar URLs do gateway de componentes).