Consulta conjuntos de datos públicos con la biblioteca cliente de Python de BigQuery

Consulta un conjunto de datos públicos con biblioteca cliente de Python de BigQuery

Consulta conjuntos de datos públicos con la biblio. cliente de Python de BQ

Aprenderás a realizar estas tareas:

  1. Activar Cloud Shell en un proyecto de Google Cloud
  2. Abrir el editor de Cloud Shell
  3. Preparar archivos para realizar consultas
  4. Consultar un conjunto de datos públicos en BigQuery
  5. Realizar una limpieza

Tiempo estimado para completar la actividad:

Haz clic en Iniciar para comenzar.

Activa Cloud Shell en un proyecto de Google Cloud

  1. Si no habilitas la facturación para un proyecto, trabajarás de forma automática en la zona de pruebas de BigQuery. La zona de pruebas de BigQuery te permite comprender la plataforma con un conjunto limitado de funciones de BigQuery sin cargo. Si no planeas usar tu proyecto más allá de este documento, te recomendamos que uses la zona de pruebas de BigQuery.

  2. Haz clic en Activar Cloud Shell. Mostrar

Si quieres aprender a abrir el editor de Cloud Shell, haz clic en Siguiente.

Abre el Editor de Cloud Shell.

  1. En Cloud Shell, crea un proyecto y un archivo de Python nuevos:

    mkdir bigquery-python-quickstart \
        && touch \
        bigquery-python-quickstart/app.py
    

    Este comando crea un proyecto de Python denominado bigquery-python-quickstart y un archivo llamado app.py.

  2. Abre el editor de Cloud Shell:

    cloudshell workspace bigquery-python-quickstart
    

Si quieres aprender a preparar archivos para realizar consultas, haz clic en Siguiente.

Prepara archivos para realizar consultas

  1. Para abrir una terminal en el editor de Cloud Shell, haz clic en Abrir terminal.

  2. Abre el directorio de tu proyecto:

    cd bigquery-python-quickstart
    
  3. Instala la biblioteca cliente de BigQuery para Python:

    pip install --upgrade google-cloud-bigquery
    

    El resultado es similar al siguiente. Se omiten varias líneas para simplificar el resultado.

    Installing collected packages: google-cloud-bigquery
    ...
    Successfully installed google-cloud-bigquery-3.9.0
    ...
    

Si quieres aprender a consultar un conjunto de datos públicos en BigQuery, haz clic en Siguiente.

Consulta un conjunto de datos públicos en BigQuery

  1. Haz clic en Abrir editor.

  2. En el panel Explorador, ubica el proyecto BIGQUERY-PYTHON-QUICKSTART.

  3. Haz clic en el archivo app.py para abrirlo.

  4. Para crear una consulta en el conjunto de datos bigquery-public-data.stackoverflow que devuelva las 10 páginas más vistas de Stack Overflow y sus recuentos de vistas, copia el siguiente código en el archivo app.py:

    from google.cloud import bigquery
    
    
    
    def query_stackoverflow() -> None:
        client = bigquery.Client()
        results = client.query_and_wait(
            """
            SELECT
              CONCAT(
                'https://stackoverflow.com/questions/',
                CAST(id as STRING)) as url,
              view_count
            FROM `bigquery-public-data.stackoverflow.posts_questions`
            WHERE tags like '%google-bigquery%'
            ORDER BY view_count DESC
            LIMIT 10"""
        )  # Waits for job to complete.
    
        for row in results:
            print("{} : {} views".format(row.url, row.view_count))
    
    
    if __name__ == "__main__":
        query_stackoverflow()

  5. Haz clic en Abrir terminal.

  6. En la terminal, ejecuta la secuencia de comandos app.py. Si se te solicita que autorices a Cloud Shell y aceptes los términos, haz clic en Autorizar.

    python app.py
    

    El resultado es similar al siguiente:

    https://stackoverflow.com/questions/35159967 : 170023 views
    https://stackoverflow.com/questions/22879669 : 142581 views
    https://stackoverflow.com/questions/10604135 : 132406 views
    https://stackoverflow.com/questions/44564887 : 128781 views
    https://stackoverflow.com/questions/27060396 : 127008 views
    https://stackoverflow.com/questions/12482637 : 120766 views
    https://stackoverflow.com/questions/20673986 : 115720 views
    https://stackoverflow.com/questions/39109817 : 108368 views
    https://stackoverflow.com/questions/11057219 : 105175 views
    https://stackoverflow.com/questions/43195143 : 101878 views
    

Consultaste con éxito un conjunto de datos públicos con la biblioteca cliente de Python para BigQuery.

Para evitar que se apliquen cargos a tu cuenta y obtener información sobre los próximos pasos, haz clic en Siguiente.

Próximos pasos

Conserva los recursos que creaste y haz más tareas con BigQuery o realiza una limpieza para evitar cargos de facturación.

Haz más tareas con BigQuery

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud , borra tu proyecto de Google Cloud o los recursos que creaste en esta explicación.

Borra el proyecto

Si creaste un proyecto nuevo para aprender sobre BigQuery y ya no lo necesitas, bórralo. Ten en cuenta que, cuando borras un proyecto, se borra todo su contenido y se pierden los IDs personalizados.

Borra los recursos

Si usaste un proyecto existente, borra la carpeta bigquery-python-quickstart que creaste:

  1. En Cloud Shell, mueve un directorio hacia arriba:

    cd ..
    
  2. Borra los recursos que creaste:

    rm -R bigquery-python-quickstart
    

    La marca -R borra todos los elementos de una carpeta.