轉換資料

Visual Studio Code 適用的 Google Cloud Data Agent Kit 擴充功能可讓您使用筆記本進行資料清理、特徵工程和深入分析。您可選擇三種筆記本。

  • BigQuery DataFrames 筆記本。這些是 Python 筆記本,可讓您使用熟悉的 pandas 和 scikit-learn API,處理 BigQuery 中的大量資料集。除了 Python 之外,還支援為 BigQuery 撰寫 GoogleSQL 程式碼。
  • 使用本機核心的代管式 Apache Spark 筆記本。這些是 Python 筆記本,可讓您使用 Managed Service for Apache Spark 的 Spark Connect 程式庫,在該服務上建立及執行工作。

  • 透過遠端核心管理 Apache Spark 筆記本。這些筆記本可讓您在遠端核心上執行筆記本,而遠端核心完全在 Managed Service for Apache Spark 上執行。程式碼不會在本機電腦上執行。除了 PySpark 之外,您也可以在 %%sparksql 儲存格魔法的協助下,以 Spark SQL 編寫程式碼。

事前準備

如果是 BigQuery 筆記本,則必須在執行筆記本的相同 Python 虛擬環境中安裝 bigframes 程式庫。建立新筆記本時,初始化儲存格會包含下列註解行:

#%pip install --upgrade bigframes
  1. 選用:如果 Python 虛擬環境中未安裝 bigframes 程式庫,請移除註解。

  2. 選用:如果您打算在筆記本中撰寫 SQL 程式碼,請安裝 bigquery-magics

pip install --upgrade bigquery-magics

必要的角色

如要取得執行 BigQuery 筆記本所需的權限,請要求管理員在您於擴充功能中選取的專案上,授予您「BigQuery Studio 使用者」(roles/bigquery.studioUser) 權限。

如要取得 Managed Service for Apache Spark 筆記本所需的權限,請要求管理員授予您專案的下列角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

轉換資料

如果是 BigLake 或 BigQuery 資料表中的資料,擴充功能會提供筆記本範本,協助您開始使用。

前往 BigQuery 或 BigLake 資料表:

  1. 按下 Ctrl/Cmd-Shift-P 開啟指令區塊面板。
  2. 展開目錄探索器,找出 BigQuery 或 BigLake。
  3. 在表格 ID 上按一下滑鼠右鍵。
  4. 從浮動選單中,選擇「Load in Spark DataFrame」(載入 Spark DataFrame) 或「Load in BigQuery DataFrame」(載入 BigQuery DataFrame)。新的編輯器會顯示資料表的相關資訊。

    您也可以使用通用搜尋尋找表格。按一下資料表 ID 開啟新編輯器,然後按一下「資料」分頁標籤,並選擇「載入 Spark DataFrame」或「載入 BigQuery DataFrame」

初始化筆記本

載入表格後,編輯器分頁會開啟新的 Jupyter 筆記本,其中包含以所選資料架構類型載入表格的必要程式碼。

  1. 如果 Python 虛擬環境中未安裝必要程式庫,請取消註解 pip install 行。

  2. 按一下「Select Kernel」,然後選擇 Python 核心。

    如果是使用遠端核心的 Managed Spark 筆記本,則必須選擇遠端 Spark 核心。

  3. 按一下「▷ Run All」(執行所有項目),或按下儲存格底部的 Shift+Enter,即可執行儲存格。

  4. 如果系統提示您安裝缺少的軟體,請按一下「安裝」

這個儲存格會建立資料框架,內含所選資料表中的資料。

將資料轉換套用至 DataFrame

在筆記本中新增其他儲存格,並編寫程式碼來轉換資料。 對於 BigQuery DataFrames,您可以使用 BigQuery DataFrames 提供的 pandas 相容 API 轉換 DataFrame。

此外,BigQuery DataFrames 也提供 magics 指令,您可以在 Jupyter Notebook 中使用 SQL 轉換 DataFrame。如要使用 SQL 轉換資料,請完成下列步驟:

  1. 建立並執行儲存格,啟用 Jupyter magic。

    %load_ext bigframes

  2. 使用 %%bqsql magic 建立 SQL 儲存格。

儲存結果

使用 DataFrame 型別提供的其中一種輸出方法,將轉換後的資料儲存至 BigQuery 或 Cloud Storage。如果是 BigQuery DataFrames,輸出方法包括:

如果是小型資料,您可以匯出至 Arrow 或 Pandas,以便進一步在本機操作及視覺化。

清除所用資源

如要避免系統向您的 Google Cloud 帳戶收取費用,請刪除您建立但不再需要的資源。

後續步驟