Utiliser des cellules SQL
Ce guide explique comment utiliser les cellules SQL pour interroger des données à partir d'un notebook Colab Enterprise.
Présentation
Une cellule SQL est une cellule de code permettant d'écrire, de modifier et d'exécuter des requêtes SQL dans votre notebook Colab Enterprise. Les cellules SQL offrent un workflow alternatif aux commandes magiques IPython pour BigQuery.
Capacités
Les cellules SQL offrent les fonctionnalités suivantes :
- Prise en charge de l'exécution à blanc : validation des instructions SQL et approximation du nombre d'octets traités par la requête
- Mise en forme : linting des mots clés et coloration syntaxique
- Nommage des variables de sortie BigQuery DataFrame : référencez la variable de sortie à partir d'autres cellules du notebook.
- Remplacement de variables : référencez les variables Python et les cellules SQL pour prendre en charge la paramétrisation et la possibilité d'interroger les résultats d'une requête précédente.
- Visionneuse d'ensembles de résultats : visionneuse d'ensembles de résultats tabulaires légère avec pagination pour les ensembles de résultats volumineux
Dialecte SQL et source de données compatibles
Les cellules SQL Colab Enterprise sont compatibles avec GoogleSQL.
Vous pouvez exécuter des requêtes SQL sur les données BigQuery.
Limites
Tenez compte des limites suivantes lorsque vous planifiez votre projet :
- Vous pouvez exécuter plusieurs instructions SQL dans une même cellule SQL, mais seuls les résultats de la dernière instruction SQL sont enregistrés dans un DataFrame.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Compute Engine, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Compute Engine, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Utilisateur BigQuery (
roles/bigquery.user
) -
Utilisateur Colab Enterprise (
roles/aiplatform.colabEnterpriseUser
) -
Dans la console Google Cloud , accédez à la page Mes notebooks de Colab Enterprise.
-
Dans le menu Région, sélectionnez la région qui contient votre notebook.
-
Cliquez sur le notebook que vous souhaitez ouvrir. Si vous n'avez pas encore créé de notebook, créez-en un.
-
Dans la barre d'outils, pour ajouter une cellule SQL, cliquez sur le menu d'options
Insérer une cellule de code, puis sélectionnez Ajouter une cellule SQL.Votre cellule SQL est ajoutée à votre notebook.
-
Dans votre cellule SQL, saisissez une requête SQL. Pour obtenir un aperçu des instructions et des dialectes SQL compatibles, consultez Présentation de SQL dans BigQuery.
Vous pouvez faire référence à des variables Python dans des expressions en plaçant le nom de la variable entre accolades (
{ }
). Par exemple, si vous avez spécifié une valeur dans une variable Python nomméemy_threshold
, vous pouvez limiter votre ensemble de résultats avec une requête semblable à la suivante :SELECT * FROM my_dataset.my_table WHERE x > {my_threshold};
-
Placez le pointeur de la souris sur la cellule SQL que vous souhaitez exécuter, puis cliquez sur le bouton
Exécuter la cellule.
Rôles requis
Pour obtenir les autorisations nécessaires pour créer un notebook Colab Enterprise, exécuter le code du notebook sur un environnement d'exécution et utiliser les données BigQuery dans le notebook, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet :
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Créer une cellule SQL
Pour créer une cellule SQL dans Colab Enterprise, procédez comme suit :
Saisir et exécuter une requête
Le résultat de la requête est automatiquement enregistré en tant que DataFrame BigQuery portant le même nom que le titre de la cellule SQL.
Interagir avec l'ensemble de résultats
Vous pouvez interagir avec l'ensemble de résultats en tant que DataFrame BigQuery ou DataFrame pandas.
Vous pouvez enchaîner des instructions SQL en utilisant le même nom de variable de cellule SQL. Par exemple, vous pouvez utiliser les DataFrames BigQuery générés par l'ensemble de résultats comme tables dans une requête suivante en encadrant le nom du DataFrame par des accolades ({ }
). Consultez l'exemple suivant, qui fait référence à la sortie d'une requête précédente enregistrée en tant que DataFrame nommé df
:
SELECT * FROM {df};