BigQuery 簡介
BigQuery 是內建 AI 的全代管資料平台,內建機器學習、搜尋、地理空間分析和商業智慧等功能,有助於管理及分析資料。BigQuery 的無伺服器架構可讓您使用 SQL 和 Python 等語言,針對貴機構最重要的問題找出解答,而且完全不必管理基礎架構。
BigQuery 提供一致的方式來處理結構化和非結構化資料,並支援 Apache Iceberg、Delta 和 Apache Hudi 等開放式資料表格式。BigQuery 串流支援持續擷取和分析資料,而 BigQuery 可擴充的分散式分析引擎,則可在幾秒內查詢 TB 級資料,幾分鐘內查詢 PB 級資料。
BigQuery 提供內建管理功能,可讓您探索及管理資料,並管理中繼資料和資料品質。透過語意搜尋和資料沿襲等功能,您可以尋找並驗證相關資料,以供分析。您可以在機構內共用資料和 AI 資產,並享有存取權控管的優點。這些功能採用 Dataplex Universal Catalog 技術,可為 Google Cloud中的資料和 AI 資產提供統合式智慧治理解決方案。BigQuery 的架構包含兩個部分:擷取、儲存及最佳化資料的儲存層,以及提供分析功能的運算層。Google 的 Petabit 級網路可讓運算和儲存層相互通訊,因此這兩層能有效率地獨立運作。
舊版資料庫通常必須在讀取/寫入作業和分析作業之間共用資源。這可能會導致資源衝突,並在資料寫入或讀取儲存空間時,減緩查詢速度。如果資料庫管理工作 (例如指派或撤銷權限) 需要資源,共用資源集區的負擔可能會進一步加重。BigQuery 將運算和儲存層分開,讓每個層級都能動態分配資源,不會影響其他層級的效能或可用性。
這項分離原則可讓 BigQuery 加速創新,因為儲存空間和運算資源的改善項目可以獨立部署,不會造成系統停機,也不會對系統效能造成負面影響。此外,提供全代管無伺服器資料倉儲也相當重要,因為 BigQuery 工程團隊會負責更新和維護作業。因此您不必佈建或手動擴充資源,可以專心提供價值,不必再處理傳統資料庫管理工作。
BigQuery 介面包括 Google Cloud 主控台介面和 BigQuery 指令列工具。開發人員和資料科學家可以使用用戶端程式庫,透過熟悉的程式設計語言 (包括 Python、Java、JavaScript 和 Go),以及 BigQuery 的 REST API 和 RPC API,轉換及管理資料。ODBC 和 JDBC 驅動程式可與現有應用程式互動,包括第三方工具和公用程式。
無論是資料分析師、資料工程師、資料倉儲管理員或資料科學家,BigQuery 都能協助您載入、處理及分析資料,進而制定重要的業務決策。
開始使用 BigQuery
您可以在幾分鐘內開始探索 BigQuery。 善用 BigQuery 的免費使用層級或免付費沙箱,開始載入及查詢資料。
- BigQuery 沙箱:在 BigQuery 沙箱中開始使用,免付費且無風險。
- 公開資料集:透過探索公開資料集計畫提供的大型實際資料,體驗 BigQuery 的效能。
- Google Cloud 控制台快速入門:熟悉 BigQuery Studio 的強大功能。
探索 BigQuery
BigQuery 的無伺服器基礎架構可讓您專注於資料,不必費心管理資源。BigQuery 結合了雲端資料倉儲和強大的分析工具。
BigQuery 儲存空間
BigQuery 會以欄式儲存格式儲存資料,這種格式最適合用於分析查詢。BigQuery 會以資料表、資料列和資料欄的形式呈現資料,並完整支援資料庫交易語意 (ACID)。BigQuery 儲存空間會自動複製到多個位置,以提供高可用性。
- 瞭解如何運用常見模式,在資料倉儲和資料市集整理 BigQuery 資源。
- 瞭解資料集,這是 BigQuery 的頂層容器,內含資料表和檢視區塊。
- BigQuery 資料移轉服務可自動擷取資料。
- 使用下列方式將資料載入 BigQuery:
- 使用 Storage Write API串流資料。
- 從本機檔案或 Cloud Storage以批次方式載入資料,支援的格式包括:Avro、Parquet、ORC、CSV、JSON、Datastore和 Firestore格式。
詳情請參閱「BigQuery 儲存空間總覽」。
BigQuery 資料分析
描述性和指示性分析的用途包括商業智慧、臨時分析、地理空間分析和機器學習。 您可以查詢儲存在 BigQuery 中的資料,也可以使用外部資料表或聯合查詢,對資料所在位置執行查詢,包括儲存在 Cloud Storage、Bigtable、Spanner 或 Google 雲端硬碟中的 Google 試算表。
- ANSI 標準 SQL 查詢 (支援 ISO/IEC 9075),包括支援聯結、巢狀和重複欄位、分析和匯總函式、多重陳述式查詢,以及各種空間函式,可進行地理空間分析 - 地理資訊系統。
- 建立檢視畫面,分享您的分析結果。
- 支援商業智慧工具,包括搭配 Looker Studio、Looker、Google 試算表和 Tableau 與 Power BI 等第三方工具的 BI Engine。
- BigQuery ML 提供機器學習和預測分析功能。
- BigQuery Studio 提供 Python 筆記本等功能,並可控管筆記本和已儲存查詢的版本。這些功能可協助您在 BigQuery 中,更輕鬆地完成資料分析和機器學習 (ML) 工作流程。
- 查詢 BigQuery 外部的資料,方法是使用聯合查詢和外部資料表。
詳情請參閱「BigQuery 數據分析總覽」一文。
BigQuery 管理
BigQuery 可集中管理資料和運算資源,而身分與存取權管理 (IAM) 則可透過整個 Google Cloud使用的存取權模式,協助您保護這些資源。 Google Cloud 安全性最佳做法 提供穩固但彈性的方法,可納入周邊安全防護,或更複雜且精細的縱深防禦方法。
- 資料安全與管理簡介可協助您瞭解資料管理,以及保護 BigQuery 資源可能需要的控管機制。
- 「工作」是指 BigQuery 代表您執行的動作,包括載入、匯出、查詢或複製資料。
- 預訂可讓您在以量計價和以運算資源為基礎的計價模式之間切換。
詳情請參閱 BigQuery 管理簡介。
BigQuery 資源
探索 BigQuery 資源:
- 版本資訊提供功能、變更和淘汰項目的變更記錄。
- 分析和儲存的定價。另請參閱: BigQuery ML、 BI Engine 和 資料移轉服務 定價。
- 位置會定義您建立及儲存資料集的位置 (區域和多區域位置)。
- Stack Overflow 匯集了許多使用 BigQuery 的開發人員和分析師,形成一個活躍的社群。
- BigQuery 支援可協助您解決 BigQuery 相關問題。
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale 一書由 Valliappa Lakshmanan 和 Jordan Tigani 撰寫,說明 BigQuery 的運作方式,並提供服務使用方式的完整逐步操作指南。
API、工具和參考資料
BigQuery 開發人員和分析師適用的參考資料:
- BigQuery API 和用戶端程式庫會提供 BigQuery 功能及其用途的總覽。
- 如要瞭解如何使用 GoogleSQL,請參閱 SQL 查詢語法。
- BigQuery 程式碼範例提供數百個程式碼片段,適用於 C#、Go、Java、Node.js、Python 和 Ruby 的用戶端程式庫。或查看範例瀏覽器。
- DML、DDL 和使用者定義函式 (UDF)語法可讓您管理及轉換 BigQuery 資料。
- bq 指令列工具參考資料:說明
bqCLI 介面的語法、指令、標記和引數。 - ODBC / JDBC 整合:將 BigQuery 連線至現有工具和基礎架構。
Gemini in BigQuery 功能
Gemini in BigQuery 是 Gemini for Google Cloud 產品套件的一部分,提供 AI 輔助功能,協助您處理資料。
Gemini in BigQuery 提供 AI 輔助功能,協助您執行下列作業:
- 透過資料洞察探索及解讀資料。資料洞察功能會使用從資料表的中繼資料生成的深入分析查詢,以自動化且直覺的方式發掘模式並執行統計分析。這項功能特別有助於解決早期資料探索的冷啟動難題。詳情請參閱在 BigQuery 中產生資料洞察。
- 透過 BigQuery 資料畫布探索、轉換、查詢資料,並以圖表呈現。您可以在 Gemini in BigQuery 中使用自然語言,尋找、彙整及查詢資料表資產、以圖表呈現結果,並在整個過程中與他人順暢協作。詳情請參閱「使用資料畫布進行分析」。
- 取得 SQL 和 Python 資料分析輔助。您可以使用 Gemini in BigQuery,以 SQL 或 Python 生成或建議程式碼,並說明現有的 SQL 查詢。您也可以使用自然語言查詢開始分析資料。如要瞭解如何生成、完成及摘要程式碼,請參閱下列說明文件:
- 準備要分析的資料。BigQuery 的資料準備功能會根據情境提供 AI 生成的轉換建議,協助您清除資料以利分析。詳情請參閱「使用 Gemini 準備資料」。
- 使用翻譯規則自訂 SQL 翻譯。(預先發布版) 建立 Gemini 強化翻譯規則,在使用互動式 SQL 翻譯器時自訂 SQL 翻譯內容。 您可以使用自然語言提示說明 SQL 轉譯輸出內容的變更,或指定要尋找及取代的 SQL 模式。詳情請參閱「建立翻譯規則」。
如要瞭解如何設定 Gemini in BigQuery,請參閱「設定 Gemini in BigQuery」。
BigQuery 角色和資源
BigQuery 可滿足下列角色和職責的資料專業人員需求。
資料分析師
如需執行下列操作,請參閱相關工作指引:
- 使用 SQL 查詢語法,透過互動式或批次查詢查詢 BigQuery 資料
- 參考 SQL 函式、運算子和條件運算式,查詢資料
- 使用工具分析及視覺化呈現 BigQuery 資料,包括:Looker、Looker Studio 和 Google 試算表。
使用地理空間分析功能,透過 BigQuery 的地理資訊系統分析地理空間資料,並以圖表呈現。
盡可能提高查詢效能 使用:
資料管理員
如需執行下列操作,請參閱相關工作指引:
- 使用預留項目控管費用,平衡隨選和以運算量為準的計價模式。
- 瞭解資料安全與管理,透過資料集、資料表、資料欄、資料列或檢視畫面保護資料
- 使用資料表快照備份資料,保留特定時間的資料表內容。
- 查看 BigQuery INFORMATION_SCHEMA,瞭解資料集、工作、存取權控管、預留位置、資料表等的中繼資料。
- 使用工作,讓 BigQuery 代表您載入、匯出、查詢或複製資料。
- 監控記錄和資源,瞭解 BigQuery 和工作負載。
詳情請參閱「BigQuery 管理簡介」。
如要直接在 Google Cloud 控制台中導覽 BigQuery 資料管理功能,請按一下「Take the tour」(參加導覽)。
資料科學家
如果您需要使用 BigQuery ML 的機器學習功能執行下列作業,請參閱相關工作指南:
- 瞭解機器學習模型的端對端使用者歷程
- 管理 BigQuery ML 的存取權控管
- 建立及訓練 BigQuery ML 模型,包括:
- 線性迴歸 預測
- 二元邏輯和多重類別邏輯迴歸分類
- K-means 叢集,用於資料區隔
- 使用 Arima+ 模型進行時間序列預測
資料開發人員
工作指引,協助您完成下列事項:
- 將資料載入 BigQuery:
使用程式碼範例程式庫,包括:
Google Cloud 範例瀏覽器 (BigQuery 範圍)
後續步驟
- 如要瞭解 BigQuery 儲存空間的總覽,請參閱「BigQuery 儲存空間總覽」。
- 如需 BigQuery 查詢的總覽,請參閱「BigQuery 數據分析總覽」一文。
- 如需 BigQuery 管理的總覽,請參閱「BigQuery 管理簡介」。
- 如要瞭解 BigQuery 安全性總覽,請參閱「資料安全與管理總覽」。