Apache Hive

Questa pagina contiene informazioni sulla connessione di Looker ad Apache Hive 2.3+ e Apache Hive 3.1.2+.

Tieni presente quanto segue in merito al supporto di Looker per le diverse versioni di Apache Hive:

  • Looker supporta le connessioni ad Apache Hive 2.3+ e Apache Hive 3.1.2+:
    • Per Apache Hive 2.3+, Looker offre il supporto a livello di integrazione.
    • Per Apache Hive 3.1.2+, Looker può integrarsi completamente con i database Apache Hive 3 solo nelle versioni successive alla 3.1.2. Questo è dovuto a un problema di analisi delle query nelle versioni di Hive 2.4.0 - 3.1.2 che ha comportato tempi di analisi estremamente lunghi per l'SQL generato da Looker.
  • Looker non supporta le connessioni ad Apache Hive 2. Le query sulle connessioni ad Apache Hive 2 restituiranno un errore.

Criptare il traffico di rete

È una best practice criptare il traffico di rete tra l'applicazione Looker e il tuo database. Valuta una delle opzioni descritte nella pagina della documentazione Abilita l'accesso sicuro ai database.

Introduzione

Looker è progettato per connettersi a un server di database utilizzando JDBC. Nel caso di Hive, si tratta del server Thrift (HiveServer2). Per ulteriori informazioni, consulta la documentazione di Apache.

Per impostazione predefinita, questo server è in ascolto sulla porta 10000.

Looker è uno strumento di query interattivo, quindi si aspetta di funzionare con un motore SQL interattivo. Se Hive è in esecuzione su MapReduce (hive.execution.engine è impostato su mr), Hive restituirà i risultati delle query troppo lentamente per essere pratico.

Looker è stato testato con Hive su Tez (hive.execution.engine=tez), anche se è possibile eseguire Looker anche su Hive su Spark. Il supporto di Spark è stato aggiunto nella versione 1.1 di Hive. (Looker supporta Hive 1.2.1+.)

Tabelle derivate permanenti (PDT)

Per abilitare le tabelle derivate permanenti (PDT) in Looker utilizzando una connessione Hive, crea uno schema temporaneo da utilizzare per Looker. Di seguito è riportato un esempio di comando che puoi utilizzare per creare uno schema looker_scratch:

 CREATE SCHEMA looker_scratch;

L'account utente che Looker utilizza per connettersi a Hive (che può essere anonimo se non viene utilizzata l'autenticazione) deve disporre delle seguenti funzionalità nello schema temporaneo:

  • Crea tabelle
  • Modifica tabelle
  • Elimina tabelle

Testa questa operazione con un client JDBC prima di tentare di creare PDT con Hive.

Code

Se vuoi che le query di Looker vengano inserite in una coda specifica, inserisci il parametro del nome della coda nel campo Parametri JDBC aggiuntivi nella pagina Impostazioni di connessione:

?tez.queue.name=the_bi_queue

In questo modo è possibile impostare altri parametri di Hive nel campo Parametri JDBC aggiuntivi nella pagina Impostazioni di connessione.

Utilizzando gli attributi utente, è possibile che le query di utenti o gruppi di utenti diversi vengano inserite in code diverse. Per farlo, crea un attributo utente con un nome simile a queue_name, quindi aggiungi quanto segue nel campo Parametri JDBC aggiuntivi:

?tez.queue.name={{ _user_attributes['queue_name'] }}

Puoi utilizzare questa opzione anche per personalizzare altri parametri hive-site.xml in base all'utente o al gruppo.

Creare la connessione Looker al database

Segui questi passaggi per creare la connessione da Looker al tuo database:

  1. Nella sezione Amministrazione di Looker, seleziona Connessioni e poi fai clic su Aggiungi connessione.
  2. Seleziona Apache Hive 2.3+ o Apache Hive 3.1.2+ dal menu a discesa Dialetto.

  3. Compila i dettagli della connessione. La maggior parte delle impostazioni è comune alla maggioranza dei dialetti di database. Per informazioni, consulta la pagina della documentazione Connettere Looker al database. Alcune delle impostazioni sono descritte di seguito:

    • Nome: specifica il nome della connessione. Questo è il modo in cui farai riferimento alla connessione nei progetti LookML.
    • Host: specifica il nome host.
    • Porta: specifica la porta del database.
    • Database: specifica il nome del database.
    • Nome utente: specifica il nome utente del database.
    • Password: specifica la password dell'utente del database.
    • Abilita PDT: utilizza questo pulsante di attivazione/disattivazione per abilitare le tabelle derivate permanenti. Quando le PDT sono abilitate, la finestra Connessione mostra impostazioni PDT aggiuntive e la sezione Override PDT.
    • Database temporaneo: specifica il nome dello schema temporaneo creato nella sezione Tabelle derivate permanenti (PDT) di questa pagina della documentazione.
    • Numero massimo di connessioni del builder di PDT: specifica il numero di build di PDT simultanee possibili su questa connessione. L'impostazione di un valore troppo alto potrebbe influire negativamente sui tempi di query. Per ulteriori informazioni, consulta la pagina della documentazione Connettere Looker al database.
    • Parametri JDBC aggiuntivi: specifica eventuali parametri aggiuntivi della stringa JDBC.
    • Pianificazione della manutenzione: specifica un'espressione cron che indica quando Looker deve controllare i gruppi di dati e le tabelle derivate permanenti. Scopri di più su questa impostazione nella documentazione relativa alla pianificazione della manutenzione.
    • SSL: seleziona questa opzione per utilizzare le connessioni SSL.
    • Verifica SSL: seleziona questa opzione per la verifica del nome host.
    • Numero massimo di connessioni per nodo: inizialmente puoi lasciare questa impostazione al valore predefinito. Per ulteriori informazioni, consulta la pagina della documentazione Connettere Looker al database.
    • Timeout del pool di connessioni: inizialmente puoi lasciare questa impostazione al valore predefinito. Scopri di più su questa impostazione nella sezione Timeout del pool di connessioni della pagina della documentazione Connettere Looker al database.
    • Pre-cache SQL Runner: per impedire a SQL Runner di precaricare le informazioni sulle tabelle e di caricare le informazioni sulle tabelle solo quando viene selezionata una tabella, deseleziona questa opzione. Scopri di più su questa impostazione nella sezione Pre-cache SQL Runner della pagina della documentazione Connettere Looker al database.
    • Fuso orario database: specifica il fuso orario utilizzato nel database. Lascia questo campo vuoto se non vuoi la conversione del fuso orario. Per ulteriori informazioni, consulta la pagina della documentazione dedicata all'uso delle impostazioni relative al fuso orario.
  4. Per verificare che la connessione sia riuscita, fai clic su Test. Per informazioni sulla risoluzione dei problemi, consulta la pagina della documentazione Testare la connettività del database.

  5. Per salvare queste impostazioni, fai clic su Connetti.

Funzionalità supportate

Affinché Looker supporti alcune funzionalità, anche il dialetto del database deve supportarle.

Apache Hive 2.3+

A partire da Looker 26.2, Apache Hive 2.3+ supporta le seguenti funzionalità:

Funzionalità Supportata?
Looker (Google Cloud core)
Aggregati simmetrici
Tabelle derivate
Tabelle derivate SQL permanenti
Tabelle derivate permanenti native
Visualizzazioni stabili
Interruzione delle query
Tabelle pivot basate su SQL
Fusi orari
SSL
Subtotali
Parametri JDBC aggiuntivi
Maiuscole/minuscole
Tipo di località
Tipo di elenco
Percentile
Percentile valori distinti
SQL Runner Mostra processi
SQL Runner Descrivi tabella
SQL Runner Mostra indici
SQL Runner Seleziona 10
SQL Runner Conteggio
Spiega SQL
Credenziali OAuth 2.0
Commenti di contesto
Pool di connessioni
Schizzi HLL
Riconoscimento degli aggregati
PDT incrementali
Millisecondi
Microsecondi
Viste materializzate
Misure in base al periodo
Conteggio approssimato valori distinti

Apache Hive 3.1.2+

A partire da Looker 26.2, Apache Hive 3.1.2+ supporta le seguenti funzionalità:

Funzionalità Supportata?
Looker (Google Cloud core)
Aggregati simmetrici
Tabelle derivate
Tabelle derivate SQL permanenti
Tabelle derivate permanenti native
Visualizzazioni stabili
Interruzione delle query
Tabelle pivot basate su SQL
Fusi orari
SSL
Subtotali
Parametri JDBC aggiuntivi
Maiuscole/minuscole
Tipo di località
Tipo di elenco
Percentile
Percentile valori distinti
SQL Runner Mostra processi
SQL Runner Descrivi tabella
SQL Runner Mostra indici
SQL Runner Seleziona 10
SQL Runner Conteggio
Spiega SQL
Credenziali OAuth 2.0
Commenti di contesto
Pool di connessioni
Schizzi HLL
Riconoscimento degli aggregati
PDT incrementali
Millisecondi
Microsecondi
Viste materializzate
Misure in base al periodo
Conteggio approssimato valori distinti

Passaggi successivi

Dopo aver connesso il database a Looker, configura le opzioni di accesso per i tuoi utenti.