Vous pouvez explorer les résultats de requêtes BigQuery à l'aide de notebooks Colab Enterprise, au sein de BigQuery.
Dans ce tutoriel, vous allez interroger les données d'un ensemble de données public BigQuery et explorer les résultats de la requête dans un notebook.
Objectifs
- Créer et exécuter une requête dans BigQuery
- Explorer les résultats de la requête dans un notebook
Coûts
Ce tutoriel utilise un ensemble de données disponible via le programme d'ensembles de données publicsGoogle Cloud . Google prend en charge le stockage de ces ensembles de données et fournit un accès public aux données. Des frais vous sont facturés pour les requêtes que vous effectuez sur les données. Pour en savoir plus, consultez la page décrivant les tarifs de BigQuery.
Avant de commencer
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.BigQuery est automatiquement activé dans les nouveaux projets.
Définir la région par défaut des composants de code
Si c'est la première fois que vous créez un composant de code, vous devez définir la région par défaut pour les composants de code. Vous ne pouvez pas modifier la région d'un composant de code après sa création.
Tous les composants de code dans BigQuery Studio utilisent la même région par défaut. Pour définir la région par défaut des composants de code :
Accédez à la page BigQuery.
Dans le volet Explorateur, recherchez le projet dans lequel vous avez activé des éléments de code.
Cliquez sur Afficher les actions à côté du projet, puis sur Modifier la région du code par défaut.
Dans Région, sélectionnez la région que vous souhaitez utiliser pour les composants de code.
Cliquez sur Sélectionner.
Pour obtenir la liste des régions compatibles, consultez Emplacements BigQuery Studio.
Autorisations requises
Pour créer et exécuter des notebooks, vous avez besoin des rôles IAM (Identity and Access Management) suivants :
- Utilisateur BigQuery (
roles/bigquery.user) - Utilisateur de l'environnement d'exécution de notebook (
roles/aiplatform.notebookRuntimeUser) - Créateur de code (
roles/dataform.codeCreator)
Ouvrir les résultats de la requête dans un notebook
Vous pouvez exécuter une requête SQL, puis utiliser un notebook pour explorer les données. Cette approche est utile si vous souhaitez modifier les données dans BigQuery avant de les exploiter, ou si vous n'avez besoin que d'un sous-ensemble des champs de la table.
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le champ Saisissez un terme à rechercher, saisissez
bigquery-public-data.Si le projet ne s'affiche pas, saisissez
bigquerydans le champ de recherche, puis cliquez sur Rechercher dans tous les projets pour faire correspondre la chaîne de recherche avec les projets existants.Sélectionnez bigquery-public-data > ml_datasets > penguins.
Pour la table penguins (manchots), cliquez sur Afficher les actions, puis sur Requête.
Ajoutez un astérisque (
*) pour sélectionner les champs pour la requête générée, de sorte qu'elle se présente comme dans l'exemple suivant :SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Cliquez sur Exécuter.
Dans la section Résultats de la requête, cliquez sur Ouvrir dans, puis sur Notebook.
Préparer le notebook en vue de son utilisation
Préparez le notebook pour l'utiliser en vous connectant à un environnement d'exécution et en définissant les valeurs par défaut de l'application.
- Dans l'en-tête du notebook, cliquez sur Connecter pour vous connecter à l'environnement d'exécution par défaut.
- Dans le bloc de code Configuration, cliquez sur Exécuter la cellule.
Explorer les données
- Pour charger les données penguins dans un DataFrame BigQuery et afficher les résultats, cliquez sur Exécuter la cellule dans le bloc de code de la section Ensemble de résultats chargé à partir d'un job BigQuery en tant que DataFrame.
- Pour obtenir des métriques descriptives des données, cliquez sur Exécuter la cellule dans le bloc de code de la section Afficher les statistiques descriptives à l'aide de describe().
- Facultatif : Utilisez d'autres fonctions ou packages Python pour explorer et analyser les données.
L'exemple de code suivant montre comment utiliser :
bigframes.pandas pour analyser des données et bigframes.ml
pour créer un modèle de régression linéaire à partir de données penguins
dans un DataFrame BigQuery :
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet Google Cloud que vous avez créé pour ce tutoriel.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Étapes suivantes
- Découvrez comment créer des notebooks dans BigQuery.
- En savoir plus sur l'exploration des données avec les DataFrames BigQuery.