Installer BigQuery DataFrames

BigQuery DataFrames fournit un DataFrame Python et une API de machine learning (ML) basés sur le moteur BigQuery. BigQuery DataFrames est un package Open Source.

Installer BigQuery DataFrames

Pour installer la dernière version de BigQuery DataFrames, exécutez pip install --upgrade bigframes.

Bibliothèques disponibles

BigQuery DataFrames fournit trois bibliothèques :

  • bigframes.pandas fournit une API pandas que vous pouvez utiliser pour analyser et manipuler des données dans BigQuery. De nombreuses charges de travail peuvent être migrées de pandas vers bigframes en modifiant simplement quelques importations. L'API bigframes.pandas est évolutive et permet de traiter des téraoctets de données BigQuery. Elle utilise le moteur de requêtes BigQuery pour effectuer les calculs.
  • bigframes.bigquery fournit de nombreuses fonctions SQL BigQuery qui n'ont peut-être pas d'équivalent dans pandas.
  • bigframes.ml fournit une API semblable à l'API scikit-learn pour le ML. Les fonctionnalités de ML de BigQuery DataFrames vous permettent de prétraiter les données, puis d'entraîner des modèles sur ces données. Vous pouvez également enchaîner ces actions pour créer des pipelines de données.

Rôles requis

Pour obtenir les autorisations nécessaires pour effectuer les tâches décrites dans ce document, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Lorsque vous effectuez l'authentification d'un utilisateur final dans un environnement interactif tel qu'un notebook, un REPL Python ou la ligne de commande, BigQuery DataFrames vous invite à procéder à une authentification si nécessaire. Sinon, consultez Configurer les identifiants par défaut de l'application pour différents environnements.

Configurer les options d'installation

Une fois BigQuery DataFrames installé, vous pouvez spécifier les options suivantes.

Emplacement et projet

Vous devez spécifier l'emplacement et le projet dans lesquels vous souhaitez utiliser BigQuery DataFrames.

Vous pouvez définir l'emplacement et le projet dans votre notebook de la manière suivante :

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Emplacement de traitement des données

BigQuery DataFrames est conçu pour la mise à l'échelle, ce qu'il réalise en conservant les données et le traitement sur le service BigQuery. Toutefois, vous pouvez importer des données dans la mémoire de votre machine cliente en appelant .to_pandas() sur un DataFrame ou un objet Series. Si vous choisissez de le faire, les limites de mémoire de votre machine cliente s'appliquent.

Étapes suivantes