Usar células SQL
Neste guia, descrevemos como usar células SQL para consultar dados em um notebook do Colab Enterprise.
Visão geral
Uma célula SQL é uma célula de código para escrever, editar e executar consultas SQL no notebook do Colab Enterprise. As células SQL oferecem um fluxo de trabalho alternativo aos comandos mágicos do IPython para BigQuery.
Recursos
As células SQL oferecem os seguintes recursos:
- Suporte para simulação: validação de instrução SQL e uma aproximação do número de bytes processados pela consulta
- Formatação: linting de palavras-chave e destaque de sintaxe
- Nomenclatura de variáveis de saída do DataFrame do BigQuery: consulte a variável de saída em outras células do notebook.
- Substituição de variáveis: consulte variáveis do Python e células SQL para permitir a parametrização e a capacidade de consultar os resultados de uma consulta anterior.
- Visualizador de conjunto de resultados: visualizador tabular leve com paginação para conjuntos de resultados grandes.
Dialeto SQL e fonte de dados compatíveis
As células SQL do Colab Enterprise são compatíveis com o GoogleSQL.
É possível executar consultas SQL em dados do BigQuery.
Limitações
Considere as seguintes limitações ao planejar seu projeto:
- É possível executar várias instruções SQL em uma única célula SQL, mas apenas os resultados da última instrução SQL são salvos em um DataFrame.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Compute Engine, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Compute Engine, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Usuário do BigQuery (
roles/bigquery.user
) -
Usuário do Colab Enterprise (
roles/aiplatform.colabEnterpriseUser
) -
No console do Google Cloud , acesse a página Meus notebooks do Colab Enterprise.
-
No menu Região, selecione a região que contém o notebook.
-
Clique no notebook que você quer abrir. Crie um notebook se ainda não tiver feito isso.
-
Na barra de ferramentas, para adicionar uma célula SQL, clique no menu
Inserir opções de célula de código e selecione Adicionar célula SQL.A célula SQL é adicionada ao notebook.
-
Na célula SQL, insira uma consulta SQL. Para uma visão geral das instruções e dialetos SQL compatíveis, consulte Introdução ao SQL no BigQuery.
Para se referir a variáveis do Python em expressões, coloque o nome da variável entre chaves (
{ }
). Por exemplo, se você especificou um valor em uma variável do Python chamadamy_threshold
, é possível limitar o conjunto de resultados com uma consulta semelhante a esta:SELECT * FROM my_dataset.my_table WHERE x > {my_threshold};
-
Mantenha o ponteiro do mouse sobre a célula SQL que você quer executar e clique no botão
Executar célula.
Funções exigidas
Para receber as permissões necessárias para criar um notebook do Colab Enterprise, executar o código do notebook em um ambiente de execução e usar dados do BigQuery no notebook, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Criar uma célula SQL
Para criar uma célula SQL no Colab Enterprise, faça o seguinte:
Inserir e executar uma consulta
A saída da consulta é salva automaticamente como um DataFrame do BigQuery com o mesmo nome do título da célula SQL.
Interagir com o conjunto de resultados
É possível interagir com o conjunto de resultados como um DataFrame do BigQuery ou do pandas.
É possível encadear instruções SQL usando o mesmo nome de variável de célula SQL. Por exemplo, é possível usar os BigQuery DataFrames gerados pelo conjunto de resultados como tabelas em uma consulta subsequente, colocando o nome do DataFrame entre chaves ({ }
). Consulte o exemplo a seguir, que faz referência à saída de uma consulta anterior salva como um DataFrame chamado df
:
SELECT * FROM {df};