Componente opcional do Presto no Managed Service for Apache Spark

É possível instalar outros componentes, como o Presto, ao criar um cluster do Serviço Gerenciado para Apache Spark usando o recurso Componentes opcionais. Nesta página, você verá como instalar o componente Presto em um cluster do Serviço Gerenciado para Apache Spark.

O Presto (Trino) é um mecanismo de consulta SQL distribuído de código aberto. Por padrão, o servidor e a IU da Web do Presto estão disponíveis na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Presto no Serviço Gerenciado para Apache Spark é configurado para funcionar com Hive, BigQuery, Memory, TPCH e TPCDS conectores.

Depois de criar um cluster com o componente Presto, execute consultas:

Instalar o componente

Instale o componente ao criar um cluster do Serviço Gerenciado para Apache Spark. Os componentes podem ser adicionados a clusters criados com a versão 1.3 e mais recentes do Serviço Gerenciado para Apache Spark.

Consulte Versões compatíveis do Serviço Gerenciado para Apache Spark para a versão do componente incluída em cada versão de imagem do Serviço Gerenciado para Apache Spark.

Comando da Google Cloud CLI

Para criar um cluster do Serviço Gerenciado para Apache Spark que inclua o componente Presto, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a sinalização --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração presto, presto-jvm e presto-Catalog.

  • Propriedades do aplicativo: use as propriedades do cluster com o prefixo presto: para configurar as propriedades do aplicativo Presto, por exemplo, --properties="presto:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM: use as propriedades do cluster com o prefixo presto-jvm: para configurar as propriedades da JVM para os processos Java do coordenador e do worker do Presto, por exemplo, --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Criar novos catálogos e adicionar propriedades de catálogo: use presto-catalog:catalog-name.property-name para configurar catálogos do Presto.

    Exemplo: a seguinte sinalização "properties" pode ser usada com o comando "gcloud dataproc clusters create" para criar um cluster Presto com um catálogo do Hive "prodhive". Um arquivo prodhive.properties será criado em /usr/lib/presto/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

O componente Presto pode ser especificado por meio da API do Serviço Gerenciado para Apache Spark usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

    1. Ative o componente e o gateway de componentes.
      • No Google Cloud console, abra a página Criar um cluster do Serviço Gerenciado para Apache Spark. O painel "Configurar cluster" está selecionado.
      • Na seção "Componentes:"