Apache Spark

Auf dieser Seite erfahren Sie, wie Sie Looker mit Apache Spark 3 verbinden.

Looker stellt über eine JDBC-Verbindung zum Spark Thrift Server eine Verbindung zu Apache Spark 3 und höher her.

Netzwerk-Datenverkehr verschlüsseln

Es empfiehlt sich, den Netzwerkverkehr zwischen Looker-Anwendung und Datenbank zu verschlüsseln. Prüfen Sie eine der Optionen, die auf der Dokumentationsseite Sicheren Datenbankzugriff ermöglichen beschrieben werden.

Looker-Verbindung zu Ihrer Datenbank erstellen

Wählen Sie in Looker im Bereich Admin die Option Verbindungen aus und klicken Sie dann auf Verbindung hinzufügen.

Geben Sie die Verbindungsdetails ein. Der Großteil der Einstellungen ist für die meisten Datenbankdialekte gleich. Weitere Informationen finden Sie auf der Dokumentationsseite Looker mit Ihrer Datenbank verbinden. Einige der Einstellungen werden im Folgenden beschrieben:

  • Name: Der Name der Verbindung. So wird in LookML-Modellen auf die Verbindung verwiesen.
  • Dialekt: Wählen Sie Apache Spark 3+ aus.
  • Host: Der Host des Thrift-Servers.
  • Port : Der Port des Thrift-Servers (standardmäßig 10000).
  • Datenbank: Das Standardschema bzw. die Standarddatenbank, die modelliert werden. Wenn für eine Tabelle keine Datenbank angegeben ist, wird diese verwendet.
  • Nutzername: Der Nutzer, als der sich Looker authentifiziert.
  • Passwort: Das optionale Passwort für den Looker-Nutzer.
  • PDTs aktivieren: Mit dieser Option können Sie persistente abgeleitete Tabellen aktivieren. Wenn PDTs aktiviert sind, werden im Fenster Verbindung zusätzliche PDT-Einstellungen und der Bereich PDT-Überschreibungen angezeigt.
  • Temporäre Datenbank: Ein temporäres Schema bzw. eine temporäre Datenbank zum Speichern von PDTs. Sie muss im Voraus mit einer Anweisung wie CREATE SCHEMA looker_scratch; erstellt werden.
  • Zusätzliche JDBC-Parameter: Fügen Sie hier alle zusätzlichen Hive-JDBC-Parameter hinzu, z. B.:
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: Lassen Sie das Kästchen deaktiviert.
  • Datenbankzeitzone: Die Zeitzone der in Spark gespeicherten Daten. Normalerweise kann sie leer gelassen oder auf UTC festgelegt werden.
  • Abfragezeitzone: Die Zeitzone, in der in Looker abgefragte Daten angezeigt werden.

Klicken Sie auf Test , um zu prüfen, ob die Verbindung erfolgreich hergestellt wurde. Informationen zur Fehlerbehebung finden Sie auf der Dokumentationsseite Datenbankverbindung für vom Kunden gehostete Instanzen testen.

Klicken Sie auf Verbinden, um diese Einstellungen zu speichern.

Unterstützung von Funktionen

Damit Looker einige Funktionen unterstützen kann, müssen diese auch von Ihrem Datenbankdialekt unterstützt werden.

Apache Spark 3+

Apache Spark 3 und höher unterstützen ab Looker 26.2 die folgenden Funktionen:

Funktion Unterstützt?
Looker (Google Cloud Core)
Symmetrische Aggregate
Abgeleitete Tabellen
Persistente abgeleitete SQL-Tabellen
Nichtflüchtige native abgeleitete Tabellen
Stabile Ansichten
Abfrageeabruch
SQL-basierte Pivottabellen
Zeitzonen
SSL
Zwischensummen
Zusätzliche JDBC-Parameter
Groß- und Kleinschreibung
Standorttyp
Listentyp
Perzentil
Perzentil der unterschiedlichen Werte
SQL Runner-Befehl – Prozesse anzeigen
SQL-Runner-Funktion – Tabelle beschreiben
SQL Runner-Befehl – Indexe anzeigen
SQL Runner-Befehl – 10 auswählen
SQL-Runner – Anzahl
SQL – Erklären
OAuth 2.0-Anmeldedaten
Kontextkommentare
Verbindungs-Pooling
HLL-Skizzen
Aggregate Awareness
Inkrementelle PDTs
Millisekunden
Mikrosekunden
Materialisierte Ansichten
Vergleich zum vorherigen Zeitraum
Ungefähre Anzahl einzelner Aufrufe

Nächste Schritte

Nachdem Sie die Verbindung erstellt haben, legen Sie die Authentifizierungsoptionen fest.