Créer et exécuter un notebook à l'aide de la galerie de notebooks
Commencez à analyser des données à l'aide de la galerie de notebooks dans BigQuery Studio.
Avant de commencer
- Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Activez l'API BigQuery.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (
roles/serviceusage.serviceUsageAdmin), qui contient l'autorisationserviceusage.services.enable. Découvrez comment attribuer des rôles.Pour les nouveaux projets, l'API BigQuery est automatiquement activée.
- Facultatif : Activez la facturation pour le projet. Les étapes décrites dans ce document demeurent valables, même si vous ne souhaitez pas activer la facturation ou fournir une carte de crédit. BigQuery fournit un bac à sable permettant d'accomplir les étapes. Pour en savoir plus, consultez la page Activer le bac à sable BigQuery.
Rôles requis
Pour obtenir les autorisations nécessaires pour créer des notebooks d'exécution, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :
- Utilisateur de sessions de lecture BigQuery (
roles/bigquery.readSessionUser) - Utilisateur BigQuery Studio (
roles/bigquery.studioUser)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Si vous ne connaissez pas encore les notebooks dans BigQuery, consultez les autorisations requises sur la page Créer des notebooks.
Galerie de notebooks
La galerie de notebooks est un hub central permettant de découvrir et d'utiliser des modèles de notebooks prédéfinis. Ces modèles vous permettent d'effectuer des tâches courantes telles que la préparation, l'analyse et la visualisation des données. Ils vous aident également à explorer les fonctionnalités de BigQuery Studio, à gérer les workflows et à promouvoir les bonnes pratiques.
Vous pouvez utiliser les modèles de la galerie de notebooks pour rationaliser l'ensemble de votre workflow d'intention à insights à chaque étape du cycle de vie des données, de l'ingestion et de l'exploration à l'analyse avancée et à BigQuery ML.
La galerie de notebooks propose des modèles pour tous les niveaux de compétence. Elle inclut des modèles fondamentaux pour SQL, Python, Apache Spark et DataFrames. Vous pouvez également explorer des sujets tels que l'IA générative et l'analyse de données multimodales dans BigQuery.
Pour en savoir plus sur l'utilisation des modèles de la galerie de notebooks, consultez la page Créer un notebook à l'aide de la galerie de notebooks.
Créer un notebook à partir d'un modèle de la galerie de notebooks
L'exemple suivant utilise le modèle Présentation des notebooks dans BigQuery Studio. Ce notebook vous explique comment effectuer les tâches suivantes :
- Interroger des données : exécutez des requêtes à l'aide de cellules SQL.
- Visualiser les résultats de requêtes : créez des visualisations sans code à l'aide de cellules de visualisation.
- Nettoyer et transformer des données : triez, dédupliquez et filtrez vos données à l'aide de l'API BigQuery DataFrames (pandas).
- Exécuter des prédictions d'IA : générez des prédictions à l'aide de la
(
AI.FORECASTfonction) dans BigQuery DataFrames. La fonctionAI.FORECASTutilise le modèle de fondation TimesFM pour générer des prédictions directement à partir d'un ensemble de données, sans nécessiter d'entraînement de modèle. - Tracer des données : tracez des données à l'aide des bibliothèques de visualisation intégrées de Python. Vous tracez les données à l'aide de la bibliothèque de visualisation BigQuery DataFrames, optimisée par Matplotlib et Pandas.
Pour utiliser le notebook, ouvrez le modèle, convertissez-le en notebook exécutable, connectez-vous à l'environnement d'exécution du notebook, puis exécutez-le.
Ouvrir le modèle et le convertir en notebook exécutable
Avant de pouvoir utiliser un notebook créé à partir d'un modèle de la galerie de notebooks, vous devez le convertir en notebook exécutable.
Pour ouvrir le modèle Présentation des notebooks dans BigQuery Studio dans la galerie de notebooks et le convertir en notebook exécutable, procédez comme suit :
Accédez à la page Studio.
Cliquez sur la flèche arrow vers le bas, puis sélectionnez Notebook > Tous les modèles.
Vous pouvez également cliquer sur Afficher la galerie de notebooks depuis la page d'accueil de BigQuery Studio.
Cliquez sur la carte Présentation des notebooks dans BigQuery Studio ou recherchez-la dans la galerie.
Une fois le modèle ouvert, cliquez sur Utiliser ce modèle pour le convertir en notebook exécutable.
Se connecter à l'environnement d'exécution par défaut
Avant de pouvoir exécuter le notebook, vous devez le connecter à un environnement d'exécution Gemini Enterprise Agent Platform. Un environnement d'exécution est une ressource de calcul qui exécute le code de votre notebook. L'environnement d'exécution doit se trouver dans la même région que votre notebook.
Pour en savoir plus sur les environnements d'exécution, consultez la page Environnements d'exécution et modèles d'exécution. Pour en savoir plus sur la configuration des paramètres régionaux, consultez la section Définir la région par défaut des composants de code assets.
Dans ce tutoriel, vous allez utiliser l'environnement d'exécution par défaut. L'environnement d'exécution par défaut est un environnement d'exécution prédéfini qui nécessite une configuration minimale. Pour vous connecter à l'environnement d'exécution par défaut, procédez comme suit :
Une fois votre notebook ouvert, cliquez sur Connecter.
La connexion à l'environnement d'exécution par défaut peut prendre plusieurs minutes si vous n'avez pas encore d'environnement d'exécution actif.
Lorsque l'environnement d'exécution est prêt, une coche s'affiche avec des graphiques de RAM et de disque. Si vous pointez sur les graphiques, vous voyez le type d'environnement d'exécution et sa configuration.
Exécuter le notebook
Le notebook Présentation des notebooks dans BigQuery Studio contient du texte, des requêtes SQL, des visualisations et des cellules de code. Les cellules autres que les cellules de texte peuvent être exécutées individuellement, ou vous pouvez exécuter toutes les cellules dans l'ordre, de la première à la dernière.
Dans ce tutoriel, vous allez exécuter les cellules du notebook individuellement afin de pouvoir afficher les résultats par étapes. Pour exécuter le notebook :
Dans la section Interroger vos données à l'aide de cellules SQL, pointez sur la cellule SQL, puis cliquez sur Exécuter la cellule.
Cette cellule SQL interroge la
bigquery-public-data.epa_historical_air_quality.pm25_frm_daily_summarytable dans l'ensemble de données public Historical Air Quality et renvoie la moyenne quotidienne de PM2.5 (une métrique courante de la qualité de l'air) pour San Francisco au cours des dernières années.Affichez les résultats. Les résultats de la requête sont affichés dans un DataFrame.
Dans la section Visualiser les données, pointez sur la cellule de visualisation, et puis cliquez sur Exécuter la cellule.
Affichez la visualisation générée.
Le résultat affiche un graphique de série temporelle qui trace les valeurs moyennes quotidiennes de PM2.5 dans le DataFrame
dfque vous avez généré précédemment. Ce graphique montre l'évolution des niveaux de PM2.5 au fil du temps.Dans la section Nettoyer les données, pointez sur la cellule de code, puis cliquez sur Exécuter la cellule.
Affichez les résultats. Les résultats sont affichés dans un DataFrame.
Le code :
- importe la bibliothèque
bigframes.pandas; - s'assure que le champ
date_localest un horodatage ; - trie les résultats par date, ce qui est nécessaire pour la prévision ;
- supprime les lignes en double ;
- supprime les lignes où
avg_pm25estnull; - filtre les valeurs aberrantes ;
- affiche les résultats dans un BigQuery DataFrames nommé
df_cleaned.
- importe la bibliothèque
Dans la section Prédire des valeurs à l'aide de
AI.FORECAST, pointez sur la cellule SQL, puis cliquez sur Exécuter la cellule.Affichez les résultats. Les résultats de la requête sont affichés dans un DataFrame.
Cette cellule SQL exécute une requête qui utilise la fonction
AI.FORECASTpour prévoir la moyenne quotidienne future de PM2.5 à l'aide du DataFramedf_cleanedque vous avez généré précédemment.Dans la section Visualiser les données à l'aide de Python, pointez sur la cellule de code, puis cliquez sur Exécuter la cellule.
Affichez les résultats. Les résultats sont affichés dans un graphique.
Le code Python :
- importe le module
datetime; - trace d'abord les données historiques et obtient les axes ;
- trace les données prévues sur les mêmes axes ;
- trace l'intervalle de confiance.
Cette visualisation ressemble à un traçage Python standard, mais
df_cleaned.plotest une commande BigQuery DataFrames. La commande ne récupère que les données nécessaires (un échantillon) pour afficher le graphique, et non l'ensemble de données.- importe le module
Libérer de l'espace
Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre Google Cloud compte pour les ressources utilisées sur cette page, procédez comme suit :
- Dans la Google Cloud console, accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez Arrêter pour supprimer le projet.
Vous pouvez également conserver le projet et supprimer les ressources utilisées dans ce tutoriel en procédant comme suit :
Accédez à la page Studio.
Dans le volet de gauche, développez votre projet, puis cliquez sur Notebooks.
Pour le notebook que vous supprimez, cliquez sur Ouvrir les actions > Supprimer.
Dans la boîte de dialogue Supprimer le notebook, cliquez sur Supprimer pour confirmer l'opération.
Étape suivante
Pour exécuter d'autres exemples de modèles de notebooks dans la galerie de notebooks, consultez les pages suivantes :- Premiers pas avec les notebooks pour les utilisateurs de SQL
- Premiers pas avec les notebooks pour les utilisateurs de Python
Pour en savoir plus sur les DataFrames, consultez les pages suivantes :
Pour en savoir plus sur les fonctions d'IA générative et de ML dans BigQuery, consultez la présentation de l'IA générative.