安裝 BigQuery DataFrames

BigQuery DataFrames 提供由 BigQuery 引擎支援的 Python DataFrame 和機器學習 (ML) API。BigQuery DataFrames 是開放原始碼套件。

安裝 BigQuery DataFrames

如要安裝最新版 BigQuery DataFrames,請執行 pip install --upgrade bigframes

可用的程式庫

BigQuery DataFrames 提供三種程式庫:

  • bigframes.pandas 提供 pandas API,可用於分析及操控 BigQuery 中的資料。只要變更幾個匯入項目,即可將許多工作負載從 pandas 遷移至 bigframes。bigframes.pandas API 可擴充,支援處理 TB 級的 BigQuery 資料,且 API 會使用 BigQuery 查詢引擎執行計算。
  • bigframes.bigquery 提供許多 BigQuery SQL 函式,可能沒有對應的 pandas 函式。
  • bigframes.ml 提供類似於 scikit-learn API 的 ML API。 BigQuery DataFrames 的機器學習功能可讓您預先處理資料,然後根據該資料訓練模型。您也可以將這些動作串連在一起,建立資料管道。

必要的角色

如要取得完成本文件工作所需的權限,請要求管理員在專案中授予您下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

在筆記本、Python REPL 或命令列等互動式環境中執行使用者驗證時,BigQuery DataFrames 會視需要提示驗證。否則,請參閱如何為各種環境設定應用程式預設憑證

設定安裝選項

安裝 BigQuery DataFrames 後,您可以指定下列選項。

位置和專案

您需要指定要使用 BigQuery DataFrames 的位置專案

您可以在筆記本中定義位置和專案,方法如下:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

資料處理位置

BigQuery DataFrames 的設計宗旨是擴充性,因此會將資料和處理作業保留在 BigQuery 服務中,不過,您可以在 DataFrame 或 Series 物件上呼叫 .to_pandas(),將資料帶入用戶端機器的記憶體。如果選擇這麼做,用戶端機器的記憶體限制就會適用。

後續步驟