Instala BigQuery DataFrames
BigQuery DataFrames proporciona un DataFrame de Python y una API de aprendizaje automático (AA) con la tecnología del motor de BigQuery. BigQuery DataFrames es un paquete de código abierto.
Instala BigQuery DataFrames
Para instalar la versión más reciente de BigQuery DataFrames, ejecuta pip install
--upgrade bigframes.
Bibliotecas disponibles
BigQuery DataFrames proporciona tres bibliotecas:
bigframes.pandasproporciona una API de pandas que puedes usar para analizar y manipular datos en BigQuery. Muchas cargas de trabajo se pueden migrar de pandas a BigFrames con solo cambiar algunas importaciones. La API debigframes.pandases escalable para admitir el procesamiento de terabytes de datos de BigQuery y usa el motor de consulta de BigQuery para realizar cálculos.bigframes.bigqueryproporciona muchas funciones de SQL de BigQuery que tal vez no tengan un equivalente en pandas.bigframes.mlproporciona una API similar a la API de scikit-learn para el AA. Las capacidades de AA en BigQuery DataFrames te permiten procesar previamente los datos y, luego, entrenar modelos en esos datos. También puedes encadenar estas acciones para crear canalizaciones de datos.
Roles obligatorios
Para obtener los permisos que necesitas para completar las tareas de este documento, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
-
Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) -
Usuario de sesión de lectura de BigQuery (
roles/bigquery.readSessionUser) -
Usa BigQuery DataFrames en un notebook de BigQuery:
-
Usuario de BigQuery (
roles/bigquery.user) -
Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser) -
Creador de código (
roles/dataform.codeCreator)
-
Usuario de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Cuando realizas la autenticación de usuario final en un entorno interactivo como un notebook, el REPL de Python o la línea de comandos, BigQuery DataFrames solicita la autenticación, si es necesario. De lo contrario, consulta cómo configurar las credenciales predeterminadas de la aplicación para varios entornos.
Cómo configurar las opciones de instalación
Después de instalar BigQuery DataFrames, puedes especificar las siguientes opciones.
Ubicación y proyecto
Debes especificar la ubicación y el proyecto en los que deseas usar BigQuery DataFrames.
Puedes definir la ubicación y el proyecto en tu notebook de la siguiente manera:
Ubicación del procesamiento de datos
BigQuery DataFrames está diseñado para el escalamiento, lo que logra a través de la conservación de los datos y el procesamiento en el servicio de BigQuery. Sin embargo, puedes incorporar datos a la memoria de tu máquina cliente si llamas a .to_pandas() en un objeto de DataFrame oSeries. Si eliges hacerlo, se aplica la limitación de memoria de tu máquina cliente.
¿Qué sigue?
- Obtén más información para manipular datos con BigQuery DataFrames.
- Aprende a generar código de BigQuery DataFrames con Gemini.
- Aprende a analizar las descargas de paquetes de PyPI con BigQuery DataFrames.
- Consulta el código fuente, los notebooks de muestra y los ejemplos de BigQuery DataFrames en GitHub.
- Explora la referencia de la API de BigQuery DataFrames.