BigQuery DataFrames をインストールする
BigQuery DataFrames は、BigQuery エンジンによる Python DataFrame と ML API を提供します。BigQuery DataFrames は、オープンソースのパッケージです。
BigQuery DataFrames をインストールする
BigQuery DataFrames の最新バージョンをインストールするには、pip install
--upgrade bigframes を実行します。
使用可能なライブラリ
BigQuery DataFrames には、次の 3 つのライブラリが用意されています。
bigframes.pandasは、BigQuery でデータの分析と操作に使用できる pandas API を提供します。多くのワークロードは、インポートをいくつか変更するだけで pandas から bigframes に移行できます。bigframes.pandasAPI は、テラバイト単位の BigQuery データの処理をサポートするようにスケーラブルで、BigQuery クエリエンジンを使用して計算を実行します。bigframes.bigqueryには、相当するものが pandas にない BigQuery SQL 関数が多く用意されています。bigframes.mlは、ML 用の scikit-learn API と同様の API を提供します。BigQuery DataFrames の ML 機能を使用すると、データを前処理してから、そのデータでモデルをトレーニングできます。また、これらのアクションを連結してデータ パイプラインを作成することも可能です。
必要なロール
このドキュメントのタスクを実行するために必要な権限を取得するには、プロジェクトに対して次の IAM ロールを付与するように管理者へ依頼してください。
-
BigQuery ジョブユーザー(
roles/bigquery.jobUser) -
BigQuery 読み取りセッション ユーザー(
roles/bigquery.readSessionUser) -
BigQuery ノートブックで BigQuery DataFrames を使用する:
-
BigQuery ユーザー(
roles/bigquery.user) -
ノートブック ランタイム ユーザー()
roles/aiplatform.notebookRuntimeUser - コード作成者()
roles/dataform.codeCreator
-
BigQuery ユーザー(
ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
ノートブック、Python REPL、コマンドラインなどのインタラクティブ環境でエンドユーザー認証を実行する場合は、必要に応じて BigQuery DataFrames が認証を要求します。実行しない場合は、さまざまな環境でアプリケーションのデフォルト認証情報を設定する方法をご覧ください。
インストール オプションを構成する
BigQuery DataFrames をインストールしたら、次のオプションを指定できます。
ロケーションとプロジェクト
BigQuery DataFrames を使用するロケーションとプロジェクトを指定する必要があります。
ノートブックのロケーションとプロジェクトは、次の方法で定義できます。
データ処理のロケーション
BigQuery DataFrames はスケールすることを考慮して設計されており、BigQuery サービス上にデータと処理を保持することで実現しています。ただし、DataFrame オブジェクトや Series オブジェクトで .to_pandas() を呼び出すと、クライアント マシンのメモリにデータを取り込めます。そうすることを選択した場合は、クライアント マシンのメモリ上限が適用されます。
次のステップ
- BigQuery DataFrames を使用したデータの操作について学習する。
- Gemini を使用して BigQuery DataFrames コードを生成する方法を確認する。
- BigQuery DataFrames を使用して PyPI からのパッケージ ダウンロードを分析する方法を確認する。
- GitHub で BigQuery DataFrames のソースコード、サンプル ノートブック、サンプルを確認する。
- BigQuery DataFrames API リファレンスを確認する。