BigQuery DataFrames を使用してデータを操作する
このドキュメントでは、BigQuery DataFrames で使用できるデータ操作機能について説明します。bigframes.bigquery ライブラリに記載されている関数を確認できます。
必要なロール
このドキュメントのタスクを実行するために必要な権限を取得するには、プロジェクトに対して次の IAM ロールを付与するように管理者へ依頼してください。
-
BigQuery ジョブユーザー(
roles/bigquery.jobUser) -
BigQuery 読み取りセッション ユーザー(
roles/bigquery.readSessionUser) -
BigQuery ノートブックで BigQuery DataFrames を使用する:
-
BigQuery ユーザー(
roles/bigquery.user) -
ノートブック ランタイム ユーザー()
roles/aiplatform.notebookRuntimeUser - コード作成者()
roles/dataform.codeCreator
-
BigQuery ユーザー(
ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
ノートブック、Python REPL、コマンドラインなどのインタラクティブ環境でエンドユーザー認証を実行する場合は、必要に応じて BigQuery DataFrames が認証を要求します。実行しない場合は、さまざまな環境でアプリケーションのデフォルト認証情報を設定する方法をご覧ください。
pandas API
BigQuery DataFrames の注目すべき特徴は、bigframes.pandas API が pandas ライブラリの API と同様に設計されていることです。この設計により、データ操作タスクに使い慣れた構文パターンを使用できます。BigQuery DataFrames API を介して定義されたオペレーションはサーバーサイドで実行され、BigQuery 内に保存されたデータを直接操作するため、データセットを BigQuery から転送する必要がなくなります。
BigQuery DataFrames でサポートされている pandas API を確認するには、サポートされている pandas API をご覧ください。
データの検査と操作
bigframes.pandas API を使用して、データの検査と計算のオペレーションを実行できます。次のコードサンプルでは、bigframes.pandas ライブラリを使用して body_mass_g 列を検査し、平均 body_mass を計算して、species ごとの平均 body_mass を計算します。
BigQuery ライブラリ
BigQuery ライブラリには、pandas に相当するものが存在しない BigQuery SQL 関数が用意されています。以降のセクションでは、いくつかの例を紹介します。
配列値を処理する
bigframes.bigquery ライブラリの bigframes.bigquery.array_agg() 関数を使用すると、groupby オペレーションの後に値を集計できます。
array_length() と array_to_string() の配列関数も使用できます。
構造体 Series オブジェクトを作成する
bigframes.bigquery ライブラリの bigframes.bigquery.struct() 関数を使用して、DataFrame 内の各列のサブフィールドを含む新しい構造体 Series オブジェクトを作成できます。
タイムスタンプを Unix エポックに変換する
bigframes.bigquery ライブラリの bigframes.bigquery.unix_micros() 関数を使用して、タイムスタンプを Unix マイクロ秒に変換できます。
unix_seconds() と unix_millis() の時間関数を使用することも可能です。
SQL スカラー関数を使用する
bigframes.bigquery ライブラリの bigframes.bigquery.sql_scalar() 関数を使用して、単一列の式を表す任意の SQL 構文にアクセスできます。
次のステップ
- BigQuery DataFrames のカスタム Python 関数について確認する。
- Gemini を使用して BigQuery DataFrames コードを生成する方法を確認する。
- BigQuery DataFrames を使用して PyPI からのパッケージ ダウンロードを分析する方法を確認する。
- GitHub で BigQuery DataFrames のソースコード、サンプル ノートブック、サンプルを確認する。
- BigQuery DataFrames API リファレンスを確認する。