本頁說明如何將 Looker 連線至 Apache Spark 3。
Looker 會透過 JDBC 連線至 Spark Thrift 伺服器,連線至 Apache Spark 3 以上版本。
加密網路流量
最佳做法是加密 Looker 應用程式與資料庫之間的網路流量。請考慮「啟用安全資料庫存取權」說明文件頁面所述的其中一個選項。
建立 Looker 資料庫連線
在 Looker 的「管理」部分中,選取「連線」,然後按一下「新增連線」。
填寫連線詳細資料。在這些設定中,有絕大部分都是多數資料庫方言的常用設定。詳情請參閱「將 Looker 連線至資料庫」說明文件頁面。以下說明部分設定:
- 名稱:連線名稱。這是 LookML 模型中參照連線的方式。
- 方言:選取「Apache Spark 3 以上版本」。
- 主機:Thrift 伺服器主機。
- 通訊埠:Thrift 伺服器通訊埠 (預設為 10000)。
- 資料庫:要模擬的預設結構定義/資料庫。如果未指定資料表所屬的資料庫,系統會假設資料表屬於這個資料庫。
- 使用者名稱:Looker 將驗證的使用者。
- 「Password」(密碼):Looker 使用者的選填密碼。
- 啟用 PDT:使用這個切換按鈕啟用永久衍生資料表。啟用 PDT 後,「連線」視窗會顯示其他 PDT 設定和「PDT 覆寫」部分。
- 暫存資料庫:用於儲存 PDT 的暫時結構定義/資料庫。必須事先建立,並使用
CREATE SCHEMA looker_scratch;等陳述式。 - 其他 JDBC 參數:在此新增任何其他 Hive JDBC 參數,例如:
;spark.sql.inMemoryColumnarStorage.compressed=true;auth=noSasl
- SSL:請勿勾選這個選項。
- 資料庫時區:儲存在 Spark 中的資料時區。通常可以留空或設為世界標準時間。
- 查詢時區:在 Looker 中顯示查詢資料的時區。
如要確認連線是否成功,請按一下「測試」。如需疑難排解資訊,請參閱「測試資料庫連線」說明文件頁面。
如要儲存這些設定,請按一下「連線」。
功能支援
如要讓 Looker 支援某些功能,資料庫方言也必須支援這些功能。
Apache Spark 3 以上版本
自 Looker 25.18 起,Apache Spark 3 以上版本支援下列功能:
| 功能 | 是否支援? |
|---|---|
| 支援級別 | 支援 |
| Looker (Google Cloud Core) | 是 |
| 對稱式匯總函式 | 是 |
| 衍生資料表 | 是 |
| 永久 SQL 衍生資料表 | 是 |
| 永久原生衍生資料表 | 是 |
| 穩定檢視畫面 | 是 |
| 終止查詢 | 是 |
| 以 SQL 為基礎的樞紐 | 是 |
| 時區 | 是 |
| SSL | 是 |
| 小計 | 是 |
| JDBC 其他參數 | 是 |
| 區分大小寫 | 是 |
| 位置類型 | 是 |
| 名單類型 | 是 |
| 百分位數 | 是 |
| 不重複值的百分位數 | 否 |
| SQL Runner 顯示程序 | 否 |
| SQL Runner 說明資料表 | 是 |
| SQL Runner 顯示索引 | 否 |
| SQL Runner 選取 10 | 是 |
| SQL Runner 計數 | 是 |
| SQL 說明 | 是 |
| OAuth 2.0 憑證 | 否 |
| 背景資訊註解 | 是 |
| 連線集區 | 否 |
| HLL 素描 | 否 |
| 匯總認知度 | 是 |
| 增量 PDT | 否 |
| 毫秒 | 是 |
| 微秒 | 是 |
| 具體化檢視表 | 否 |
| 與前一段時期相比的指標 | 否 |
| 不重複值的概略計數 | 否 |
後續步驟
建立連線後,請設定驗證選項。