Instala BigQuery DataFrames

BigQuery DataFrames proporciona un DataFrame de Python y una API de aprendizaje automático (AA) con la tecnología del motor de BigQuery. BigQuery DataFrames es un paquete de código abierto.

Instala BigQuery DataFrames

Para instalar la versión más reciente de BigQuery DataFrames, ejecuta pip install --upgrade bigframes.

Bibliotecas disponibles

BigQuery DataFrames proporciona tres bibliotecas:

  • bigframes.pandas proporciona una API de pandas que puedes usar para analizar y manipular datos en BigQuery. Muchas cargas de trabajo se pueden migrar de pandas a BigFrames con solo cambiar algunas importaciones. La API de bigframes.pandas es escalable para admitir el procesamiento de terabytes de datos de BigQuery y usa el motor de consulta de BigQuery para realizar cálculos.
  • bigframes.bigquery proporciona muchas funciones de SQL de BigQuery que tal vez no tengan un equivalente en pandas.
  • bigframes.ml proporciona una API similar a la API de scikit-learn para el AA. Las capacidades de AA en BigQuery DataFrames te permiten procesar previamente los datos y, luego, entrenar modelos en esos datos. También puedes encadenar estas acciones para crear canalizaciones de datos.

Roles obligatorios

Para obtener los permisos que necesitas para completar las tareas de este documento, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Cuando realizas la autenticación de usuario final en un entorno interactivo como un notebook, el REPL de Python o la línea de comandos, BigQuery DataFrames solicita la autenticación, si es necesario. De lo contrario, consulta cómo configurar las credenciales predeterminadas de la aplicación para varios entornos.

Cómo configurar las opciones de instalación

Después de instalar BigQuery DataFrames, puedes especificar las siguientes opciones.

Ubicación y proyecto

Debes especificar la ubicación y el proyecto en los que deseas usar BigQuery DataFrames.

Puedes definir la ubicación y el proyecto en tu notebook de la siguiente manera:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Ubicación del procesamiento de datos

BigQuery DataFrames está diseñado para el escalamiento, lo que logra a través de la conservación de los datos y el procesamiento en el servicio de BigQuery. Sin embargo, puedes incorporar datos a la memoria de tu máquina cliente si llamas a .to_pandas() en un objeto de DataFrame oSeries. Si eliges hacerlo, se aplica la limitación de memoria de tu máquina cliente.

¿Qué sigue?