BigQuery DataFrames をインストールする

BigQuery DataFrames は、BigQuery エンジンによる Python DataFrame と ML API を提供します。BigQuery DataFrames は、オープンソースのパッケージです。

BigQuery DataFrames をインストールする

BigQuery DataFrames の最新バージョンをインストールするには、pip install --upgrade bigframes を実行します。

使用可能なライブラリ

BigQuery DataFrames には、次の 3 つのライブラリが用意されています。

  • bigframes.pandas は、BigQuery でデータの分析と操作に使用できる pandas API を提供します。多くのワークロードは、インポートをいくつか変更するだけで pandas から bigframes に移行できます。bigframes.pandas API は、テラバイト単位の BigQuery データの処理をサポートするようにスケーラブルで、BigQuery クエリエンジンを使用して計算を実行します。
  • bigframes.bigquery には、相当するものが pandas にない BigQuery SQL 関数が多く用意されています。
  • bigframes.ml は、ML 用の scikit-learn API と同様の API を提供します。BigQuery DataFrames の ML 機能を使用すると、データを前処理してから、そのデータでモデルをトレーニングできます。また、これらのアクションを連結してデータ パイプラインを作成することも可能です。

必要なロール

このドキュメントのタスクを実行するために必要な権限を取得するには、プロジェクトに対して次の IAM ロールを付与するように管理者へ依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

ノートブック、Python REPL、コマンドラインなどのインタラクティブ環境でエンドユーザー認証を実行する場合は、必要に応じて BigQuery DataFrames が認証を要求します。実行しない場合は、さまざまな環境でアプリケーションのデフォルト認証情報を設定する方法をご覧ください。

インストール オプションを構成する

BigQuery DataFrames をインストールしたら、次のオプションを指定できます。

ロケーションとプロジェクト

BigQuery DataFrames を使用するロケーションプロジェクトを指定する必要があります。

ノートブックのロケーションとプロジェクトは、次の方法で定義できます。

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

データ処理のロケーション

BigQuery DataFrames はスケールすることを考慮して設計されており、BigQuery サービス上にデータと処理を保持することで実現しています。ただし、DataFrame オブジェクトや Series オブジェクトで .to_pandas() を呼び出すと、クライアント マシンのメモリにデータを取り込めます。そうすることを選択した場合は、クライアント マシンのメモリ上限が適用されます。

次のステップ