Apache Hive

Esta página contém informações sobre como conectar o Looker ao Apache Hive 2.3 e versões mais recentes e ao Apache Hive 3.1.2 e versões mais recentes.

Confira a seguir o suporte do Looker para as diferentes versões do Apache Hive:

  • O Looker oferece suporte a conexões com o Apache Hive 2.3 e versões mais recentes e o Apache Hive 3.1.2 e versões mais recentes:
    • Para o Apache Hive 2.3 e versões mais recentes, o Looker oferece suporte no nível de integração.
    • Para o Apache Hive 3.1.2 e versões mais recentes, o Looker pode ser totalmente integrado aos bancos de dados do Apache Hive 3 apenas em versões mais recentes que a 3.1.2. Isso ocorre devido a um problema de análise de consultas das versões 2.4.0 a 3.1.2 do Hive, que resultou em tempos de análise extremamente longos para o SQL gerado pelo Looker.
  • O Looker não oferece suporte a conexões com o Apache Hive 2. As consultas em conexões com o Apache Hive 2 vão retornar um erro.

Como criptografar o tráfego de rede

Uma prática recomendada é criptografar o tráfego de rede entre o aplicativo Looker e o banco de dados. Considere uma das opções descritas na página de documentação Ativar o acesso seguro ao banco de dados.

Introdução

O Looker foi projetado para se conectar a um servidor de banco de dados usando o JDBC. No caso do Hive, esse é o servidor thrift (HiveServer2). Consulte a documentação do Apache para mais informações.

Por padrão, esse servidor vai detectar a porta 10000.

O Looker é uma ferramenta de consulta interativa. Portanto, ele espera trabalhar com um mecanismo de SQL interativo. Se o Hive estiver em execução no MapReduce (hive.execution.engine estiver definido como mr), ele vai retornar resultados de consultas muito lentamente para ser prático.

O Looker foi testado com o Hive no Tez (hive.execution.engine=tez), embora também seja possível executar o Looker no Hive no Spark. O suporte ao Spark foi adicionado na versão 1.1 do Hive. O Looker oferece suporte ao Hive 1.2.1 e versões mais recentes.

Tabelas derivadas persistentes (TDPs)

Para ativar tabelas derivadas persistentes (TDPs) no Looker usando uma conexão do Hive, crie um esquema de rascunho para o Looker usar. Confira a seguir um exemplo de comando que pode ser usado para criar um esquema looker_scratch:

 CREATE SCHEMA looker_scratch;

A conta de usuário que o Looker usa para se conectar ao Hive (que pode ser anônima se nenhuma autenticação for usada) precisa ter as seguintes habilidades no esquema de rascunho:

  • Criar tabelas
  • Alterar tabelas
  • Remover tabelas

Teste isso com um cliente JDBC antes de tentar criar TDPs com o Hive.

Filas

Se você quiser que as consultas do Looker entrem em uma fila específica, insira o parâmetro de nome da fila no campo Parâmetros JDBC adicionais na página Configurações de conexão:

?tez.queue.name=the_bi_queue

Outros parâmetros do Hive podem ser definidos dessa forma no campo Parâmetros JDBC adicionais na página Configurações de conexão.

Usando atributos do usuário, é possível que consultas de diferentes usuários ou grupos de usuários entrem em filas diferentes. Para fazer isso, crie um atributo de usuário com um nome como queue_name e, no campo Parâmetros JDBC adicionais, adicione o seguinte:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Você também pode usar isso para personalizar outros parâmetros hive-site.xml por usuário ou grupo.

Como criar a conexão do Looker com o banco de dados

Siga estas etapas para criar a conexão do Looker com o banco de dados:

  1. Na seção Admin do Looker, selecione Conexões e clique em Adicionar conexão.
  2. Selecione Apache Hive 2.3+ ou Apache Hive 3.1.2+ no menu suspenso Dialeto.

  3. Preencher os detalhes de conexão. A maioria das configurações é comum para a maioria dos dialetos de banco de dados. Consulte a página de documentação Como conectar o Looker ao banco de dados para mais informações. Algumas das configurações são descritas a seguir:

    • Nome: especifique o nome da conexão. É assim que você vai se referir à conexão em projetos do LookML.
    • Host: especifique o nome do host.
    • Porta: especifique a porta do banco de dados.
    • Banco de dados: especifique o nome do banco de dados.
    • Nome de usuário: especifique o nome de usuário do banco de dados.
    • Senha: especifique a senha do usuário do banco de dados.
    • Ativar TDPs: use essa opção para ativar tabelas derivadas persistentes. Quando as TDPs estão ativadas, a janela Conexão revela outras configurações de TDP e a seção Substituições de TDP.
    • Banco de dados temporário: especifique o nome do esquema de rascunho criado na seção Tabelas derivadas persistentes (TDPs) desta página de documentação.
    • Número máximo de conexões do builder da TDP: especifique o número de builds simultâneos possíveis de TDP nessa conexão. Definir um valor muito alto pode afetar negativamente os tempos de consulta. Para mais informações, consulte a página de documentação Como conectar o Looker ao banco de dados.
    • Parâmetros JDBC adicionais: adicione outros parâmetros JDBC. Consulte a seção Parâmetros JDBC compatíveis nesta página para conferir uma lista de parâmetros compatíveis.
    • Programação de manutenção: especifique uma expressão cron que indica quando o Looker precisa verificar grupos de dados e tabelas derivadas persistentes. Saiba mais sobre essa configuração na documentação Programação de manutenção.
    • SSL: marque para usar conexões SSL.
    • Verificar SSL: marque para verificar o nome do host.
    • Número máximo de conexões por nó: essa configuração pode ser deixada com o valor padrão inicialmente. Consulte a página de documentação Como conectar o Looker ao banco de dados para mais informações.
    • Tempo limite do pool de conexões: essa configuração pode ser deixada com o valor padrão inicialmente. Saiba mais sobre essa configuração na seção Tempo limite do pool de conexões da página de documentação Como conectar o Looker ao banco de dados.
    • Pré-cache do SQL Runner: para que o SQL Runner não pré-carregue informações da tabela e carregue informações da tabela apenas quando uma tabela for selecionada, desmarque essa opção. Saiba mais sobre essa configuração na seção Pré-cache do SQL Runner da página de documentação Como conectar o Looker ao banco de dados.
    • Fuso horário do banco de dados: especifique o fuso horário usado no banco de dados. Deixe esse campo em branco se não quiser a conversão de fuso horário. Consulte a página de documentação Como usar as configurações de fuso horário para mais informações.
  4. Para verificar se a conexão foi estabelecida, clique em Testar. Consulte a página de documentação Testar a conectividade do banco de dados para informações sobre solução de problemas.

  5. Para salvar essas configurações, clique em Conectar.

Parâmetros JDBC compatíveis

Para o Apache Hive, o Looker oferece suporte aos seguintes parâmetros JDBC no campo Parâmetros JDBC adicionais da conexão. Consulte a documentação do seu banco de dados para informações sobre esses parâmetros.

  • fetchSize
  • httpPath
  • keyStorePassword
  • password
  • principal
  • serviceDiscoveryMode
  • ssl
  • tez.queue.name
  • transportMode
  • twoWay
  • user
  • zooKeeperNamespace

Suporte a recursos

Para que o Looker ofereça suporte a alguns recursos, o dialeto do banco de dados também precisa oferecer suporte a eles.

Apache Hive 2.3 e versões mais recentes

O Apache Hive 2.3 e versões mais recentes oferecem suporte aos seguintes recursos do Looker 26.6:

Recurso Compatível?
Looker (Google Cloud Core)
Conjuntos simétricos
Tabelas derivadas
Tabelas derivadas persistentes com base em SQL
Tabelas derivadas nativas persistentes
Visualizações estáveis
Eliminação de consultas
Tabelas dinâmicas baseadas em SQL
Fusos horários
SSL
Subtotais
Parâmetros adicionais da JDBC
Diferenciação entre maiúsculas e minúsculas
Tipo de local
Tipo de lista
Percentil
Percentil distinto
Mostrar processos do SQL Runner
Descrever tabela do SQL Runner
Mostrar índices do SQL Runner
Selecionar 10 do SQL Runner
Contagem do SQL Runner
Explicar SQL
Credenciais do OAuth 2.0
Comentários de contexto
Pooling de conexão
Esboços HLL
Reconhecimento agregado
TDPs incrementais
Milissegundos
Microssegundos
Visualizações materializadas
Medidas de comparação de períodos
Contagem aproximada aproximada
Agendas personalizadas

Apache Hive 3.1.2 e versões mais recentes

O Apache Hive 3.1.2 e versões mais recentes oferecem suporte aos seguintes recursos do Looker 26.6:

Recurso Compatível?
Looker (Google Cloud Core)
Conjuntos simétricos
Tabelas derivadas
Tabelas derivadas persistentes com base em SQL
Tabelas derivadas nativas persistentes
Visualizações estáveis
Eliminação de consultas
Tabelas dinâmicas baseadas em SQL
Fusos horários
SSL
Subtotais
Parâmetros adicionais da JDBC
Diferenciação entre maiúsculas e minúsculas
Tipo de local
Tipo de lista
Percentil
Percentil distinto
Mostrar processos do SQL Runner
Descrever tabela do SQL Runner
Mostrar índices do SQL Runner
Selecionar 10 do SQL Runner
Contagem do SQL Runner
Explicar SQL
Credenciais do OAuth 2.0
Comentários de contexto
Pooling de conexão
Esboços HLL
Reconhecimento agregado
TDPs incrementais
Milissegundos
Microssegundos
Visualizações materializadas
Medidas de comparação de períodos
Contagem aproximada aproximada
Agendas personalizadas

Próximas etapas

Depois de conectar o banco de dados ao Looker, configure as opções de login para seus usuários.