Gérer les sessions et les E/S BigQuery DataFrames
Ce document explique comment gérer les sessions et effectuer des opérations d'entrée et de sortie (E/S) lorsque vous utilisez BigQuery DataFrames. Vous apprendrez à créer et à utiliser des sessions, à travailler avec des données en mémoire, ainsi qu'à lire et à écrire dans des fichiers et des tables BigQuery.
Sessions BigQuery
BigQuery DataFrames utilise un objet de session local pour gérer les métadonnées en interne. Chaque objet DataFrame et Series se connecte à une session, chaque
session se connecte à un emplacement, et chaque requête d'une
session s'exécute dans l'emplacement où vous avez créé la session. Utilisez l'exemple de code suivant pour créer manuellement une session et l'utiliser pour charger des données :
Vous ne pouvez pas combiner des données provenant de plusieurs instances de session, même si vous les initialisez avec les mêmes paramètres. L'exemple de code suivant montre qu'une tentative de combinaison de données provenant de différentes instances de session provoque une erreur :
Session globale
BigQuery DataFrames fournit une session globale par défaut à laquelle vous pouvez
accéder avec la bigframes.pandas.get_global_session() méthode. Dans
Colab, vous devez fournir un ID du projet pour l'attribut
bigframes.pandas.options.bigquery.project avant de l'utiliser. Vous
pouvez également définir un emplacement avec l
bigframes.pandas.options.bigquery.location attribut, qui est défini par défaut sur
la US multirégion.
L'exemple de code suivant montre comment définir des options pour la session globale :
Pour réinitialiser l'emplacement ou le projet de la session globale, fermez la session actuelle en
exécutant la bigframes.pandas.close_session() méthode.
De nombreuses fonctions intégrées de BigQuery DataFrames utilisent la session globale par défaut. L'exemple de code suivant montre comment les fonctions intégrées utilisent la session globale :
Données en mémoire
Vous pouvez créer des objets DataFrames et Series avec des structures de données Python ou NumPy
intégrées, de la même manière que vous créez des objets avec pandas. Utilisez l'exemple de code suivant pour créer un objet :
Pour convertir des objets pandas en objets DataFrames à l'aide de la read_pandas()
méthode ou de constructeurs, utilisez l'exemple de code suivant :
Pour utiliser la méthode to_pandas() afin de charger des données BigQuery DataFrames dans
votre mémoire, utilisez l'exemple de code suivant :
Estimation des coûts avec le paramètre dry_run
Le chargement d'une grande quantité de données peut prendre beaucoup de temps et de ressources. Pour voir la quantité de données traitées, utilisez le dry_run=True paramètre dans l'
to_pandas() appel. Utilisez l'exemple de code suivant pour effectuer une simulation :
Lire et écrire des fichiers
Vous pouvez lire des données à partir de fichiers compatibles dans un BigQuery DataFrames. Ces fichiers peuvent se trouver sur votre ordinateur local ou dans Cloud Storage. Utilisez l'exemple de code suivant pour lire des données à partir d'un fichier CSV :
Pour enregistrer vos BigQuery DataFrames dans des fichiers locaux ou des fichiers Cloud Storage
à l'aide de la méthode to_csv, utilisez l'exemple de code suivant :
Lire et écrire des tables BigQuery
Pour créer des BigQuery DataFrames à l'aide de références de table BigQuery
et de la fonction bigframes.pandas.read_gbq, utilisez l'exemple de code
suivant :
Pour utiliser une chaîne SQL avec la read_gbq() fonction afin de lire des données dans
BigQuery DataFrames, utilisez l'exemple de code suivant :
Pour enregistrer votre DataFrame objet dans une table BigQuery, utilisez la
to_gbq() méthode de votre DataFrame objet. L'exemple de code suivant montre comment procéder :
Étape suivante
- En savoir plus sur BigQuery DataFrames.
- Découvrez comment utiliser les types de données dans BigQuery DataFrames.
- Découvrez comment visualiser des graphiques à l'aide de BigQuery DataFrames.
- Explorez la documentation de référence de l'API BigQuery DataFrames.