Installer BigQuery DataFrames
BigQuery DataFrames fournit un DataFrame Python et une API de machine learning (ML) basés sur le moteur BigQuery. BigQuery DataFrames est un package Open Source.
Installer BigQuery DataFrames
Pour installer la dernière version de BigQuery DataFrames, exécutez pip install
--upgrade bigframes.
Bibliothèques disponibles
BigQuery DataFrames fournit trois bibliothèques :
bigframes.pandasfournit une API pandas que vous pouvez utiliser pour analyser et manipuler des données dans BigQuery. De nombreuses charges de travail peuvent être migrées de pandas vers bigframes en modifiant simplement quelques importations. L'APIbigframes.pandasest évolutive et permet de traiter des téraoctets de données BigQuery. Elle utilise le moteur de requêtes BigQuery pour effectuer les calculs.bigframes.bigqueryfournit de nombreuses fonctions SQL BigQuery qui n'ont peut-être pas d'équivalent dans pandas.bigframes.mlfournit une API semblable à l'API scikit-learn pour le ML. Les fonctionnalités de ML de BigQuery DataFrames vous permettent de prétraiter les données, puis d'entraîner des modèles sur ces données. Vous pouvez également enchaîner ces actions pour créer des pipelines de données.
Rôles requis
Pour obtenir les autorisations nécessaires pour effectuer les tâches décrites dans ce document, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :
-
Utilisateur de job BigQuery (
roles/bigquery.jobUser) -
Utilisateur de sessions de lecture BigQuery (
roles/bigquery.readSessionUser) -
Utiliser BigQuery DataFrames dans un notebook BigQuery :
-
Utilisateur BigQuery (
roles/bigquery.user) -
Utilisateur de l'environnement d'exécution de notebook (
roles/aiplatform.notebookRuntimeUser) -
Créateur de code (
roles/dataform.codeCreator)
-
Utilisateur BigQuery (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Lorsque vous effectuez l'authentification d'un utilisateur final dans un environnement interactif tel qu'un notebook, un REPL Python ou la ligne de commande, BigQuery DataFrames vous invite à procéder à une authentification si nécessaire. Sinon, consultez Configurer les identifiants par défaut de l'application pour différents environnements.
Configurer les options d'installation
Une fois BigQuery DataFrames installé, vous pouvez spécifier les options suivantes.
Emplacement et projet
Vous devez spécifier l'emplacement et le projet dans lesquels vous souhaitez utiliser BigQuery DataFrames.
Vous pouvez définir l'emplacement et le projet dans votre notebook de la manière suivante :
Emplacement de traitement des données
BigQuery DataFrames est conçu pour la mise à l'échelle, ce qu'il réalise en conservant les données et le traitement sur le service BigQuery. Toutefois, vous pouvez importer des données dans la mémoire de votre machine cliente en appelant .to_pandas() sur un DataFrame ou un objet Series. Si vous choisissez de le faire, les limites de mémoire de votre machine cliente s'appliquent.
Étapes suivantes
- Découvrez comment manipuler des données avec les DataFrames BigQuery.
- Découvrez comment générer du code BigQuery DataFrames avec Gemini.
- Découvrez comment analyser les téléchargements de packages depuis PyPI avec BigQuery DataFrames.
- Consultez le code source, les exemples de notebooks et les exemples de BigQuery DataFrames sur GitHub.
- Explorez la documentation de référence de l'API BigQuery DataFrames.