Instala BigQuery DataFrames
BigQuery DataFrames proporciona un DataFrame de Python y una API de aprendizaje automático (AA) con la tecnología del motor de BigQuery. BigQuery DataFrames es un paquete de código abierto.
Instala BigQuery DataFrames
Para instalar la versión más reciente de BigQuery DataFrames, ejecuta pip install
--upgrade bigframes.
Bibliotecas disponibles
BigQuery DataFrames proporciona tres bibliotecas:
bigframes.pandasproporciona una API de Pandas que puedes usar para analizar y manipular datos en BigQuery. Muchas cargas de trabajo se pueden migrar de Pandas a BigFrames con solo cambiar algunas importaciones. La API debigframes.pandases escalable para admitir el procesamiento de terabytes de datos de BigQuery, y la API usa el motor de consulta de BigQuery para realizar cálculos.bigframes.bigqueryproporciona muchas funciones de SQL de BigQuery que podrían no tener un equivalente de Pandas.bigframes.mlproporciona una API similar a la API de scikit-learn para el AA. Las funciones del AA en BigQuery DataFrames te permiten procesar previamente los datos y, luego, entrenar modelos en esos datos. También puedes encadenar estas acciones para crear canalizaciones de datos.
Roles obligatorios
Para obtener los permisos que necesitas para completar las tareas de este documento, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
-
Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) -
Usuario de sesión de lectura de BigQuery (
roles/bigquery.readSessionUser) -
Usa BigQuery DataFrames en un notebook de BigQuery:
-
Usuario de BigQuery (
roles/bigquery.user) -
Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser) -
Creador de código (
roles/dataform.codeCreator)
-
Usuario de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Cuando realizas la autenticación de usuario final en un entorno interactivo como un notebook, el REPL de Python o la línea de comandos, BigQuery DataFrames solicita la autenticación si es necesario. De lo contrario, consulta cómo configurar las credenciales predeterminadas de la aplicación para varios entornos.
Configura las opciones de instalación
Después de instalar BigQuery DataFrames, puedes especificar las siguientes opciones.
Ubicación y proyecto
Debes especificar la ubicación y el proyecto en los que deseas usar BigQuery DataFrames.
Puedes definir la ubicación y el proyecto en tu notebook de la siguiente manera:
Ubicación del procesamiento de datos
BigQuery DataFrames está diseñado para el escalamiento, lo que lo logra a través de la conservación de los datos y el procesamiento en el servicio de BigQuery. Sin embargo, puedes incorporar datos a la memoria de tu máquina cliente si llamas a .to_pandas() en un objeto de DataFrame o de Series. Si eliges hacerlo, se aplica la limitación de memoria de la máquina cliente.
¿Qué sigue?
- Obtén información para manipular datos con BigQuery DataFrames.
- Obtén información para generar código de BigQuery DataFrames con Gemini.
- Obtén información para analizar las descargas de paquetes de PyPI con BigQuery DataFrames.
- Consulta el código fuente, los notebooks de muestra, y las muestras de BigQuery DataFrames en GitHub.
- Explora la referencia de la API de BigQuery DataFrames.