Introducción a la administración de datos en BigQuery

BigQuery tiene capacidades de administración integradas que simplifican la forma en que descubres, administras, supervisas, controlas y usas tus datos y recursos de IA.

Los administradores, los administradores de datos, los administradores de administración de datos y los custodios de datos pueden usar las capacidades de administración en BigQuery para hacer lo siguiente:

  • Descubrir datos
  • Seleccionar datos
  • Recopilar y enriquecer metadatos
  • Administrar la calidad de los datos
  • Garantizar que los datos se usen de forma coherente y de conformidad con las políticas de la organización
  • Compartir datos a gran escala y de forma segura

Las capacidades de administración de BigQuery están potenciadas por Knowledge Catalog, un inventario centralizado de todos los recursos de datos de tu organización. Knowledge Catalog contiene metadatos comerciales, técnicos y operativos de todos tus datos. Te ayuda a descubrir relaciones y semánticas en los metadatos mediante la aplicación de inteligencia artificial y aprendizaje automático.

BigLake Metastore te permite usar varios motores de procesamiento de datos para consultar una sola copia de datos con un solo esquema, sin duplicación de datos. Los motores de procesamiento de datos que puedes usar incluyen BigQuery, Apache Spark, Apache Flink y Apache Hive. Tus datos se pueden almacenar en ubicaciones como tablas de almacenamiento de BigQuery, tablas de BigLake para Apache Iceberg en BigQuery o tablas externas de BigLake.

BigQuery admite un ciclo de vida de datos de extremo a extremo, desde el descubrimiento hasta el uso de datos. Las funciones de administración también están disponibles en Knowledge Catalog.

Detección de datos

BigQuery descubre datos en toda la organización en Google Cloud, ya sea que los datos estén en BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. Los metadatos se extraen y almacenan automáticamente en Knowledge Catalog. Por ejemplo, puedes extraer metadatos de datos estructurados y no estructurados de Cloud Storage, y puedes crear automáticamente tablas de BigLake listas para la consulta a gran escala. Esto te permite realizar análisis con un motor de código abierto sin duplicación de datos.

También puedes extraer y catalogar metadatos de fuentes de datos externas con conectores personalizados.

BigQuery ofrece las siguientes capacidades de detección de datos:

  • Búsqueda. Busca datos y recursos de IA en todos los proyectos y la organización. Dentro de BigQuery en la Google Cloud consola de, usa la búsqueda semántica (vista previa) para buscar recursos con lenguaje cotidiano. También puedes encontrar recursos con la búsqueda por palabra clave en Knowledge Catalog.
  • Detección automática de datos de Cloud Storage. Analiza los datos en los buckets de Cloud Storage para extraer y, luego, catalogar los metadatos. La detección automática crea tablas para datos estructurados y no estructurados.
  • Importación de metadatos. Importa metadatos a gran escala desde sistemas externos a Knowledge Catalog. Puedes compilar conectores personalizados para extraer datos de tus fuentes de datos y, luego, ejecutar canalizaciones de conectividad administradas que orquesten el flujo de trabajo de importación de metadatos.
  • Exportación de metadatos. Exporta metadatos a gran escala desde Knowledge Catalog. Puedes analizar los metadatos exportados con BigQuery o integrarlos en aplicaciones personalizadas o flujos de trabajo de procesamiento programático.

Selección y administración de datos

Para mejorar la capacidad de detección y la usabilidad de los datos, los administradores de datos y los administradores pueden usar BigQuery para revisar, actualizar y analizar metadatos. Las capacidades de selección y administración de datos de BigQuery te ayudan a garantizar que tus datos sean precisos, coherentes y estén alineados con las políticas de tu organización.

BigQuery ofrece las siguientes capacidades de selección y administración de datos:

  • Glosario comercial. Mejora el contexto, la colaboración y la búsqueda definiendo la terminología de tu organización en un glosario. Identifica a los administradores de datos para los términos y adjunta términos a los campos de recursos de datos.
  • Estadísticas de datos. Gemini usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas en SQL para responderlas. Estas estadísticas de datos te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
  • Creación de perfiles de datos. Identifica las características estadísticas comunes de las columnas en las tablas de BigQuery para comprender y analizar tus datos de forma más eficaz.
  • Calidad de los datos. Define y ejecuta verificaciones de calidad de los datos en tablas de BigQuery y Cloud Storage, y aplica controles de datos regulares y continuos en entornos de BigQuery.
  • Linaje de datos. Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos. BigQuery admite el linaje de datos a nivel de la tabla y la columna.

Próximos pasos para la selección y la administración de datos

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de selección y administración de datos:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube
  • Habilita el linaje de datos en tu proyecto de BigQuery para registrar de forma automática la información de linaje para las operaciones de BigQuery, como la carga, la copia y las modificaciones de datos.
  • Configura un análisis de calidad de los datos recurrente para recibir alertas de posibles problemas de datos con reglas de análisis predefinidas.
  • Configura reglas de calidad de los datos personalizadas para los análisis de calidad de los datos, de modo que tus análisis se adapten a tus necesidades específicas.

Seguridad y control de acceso

La administración de acceso a los datos es el proceso de definir, aplicar y supervisar las reglas y políticas que controlan quién tiene acceso a los datos. La administración de acceso garantiza que solo quienes están autorizados para acceder a los datos tengan acceso a ellos.

BigQuery ofrece las siguientes capacidades de seguridad y control de acceso:

  • Identity and Access Management (IAM). IAM te permite controlar quién tiene acceso a tus recursos de BigQuery, como proyectos, conjuntos de datos, tablas y vistas. Puedes otorgar roles de IAM a usuarios, grupos y cuentas de servicio. Estos roles definen lo que pueden hacer con tus recursos.
  • Controles de acceso a nivel de columna y controles de acceso a nivel de fila. Los controles de acceso a nivel de columna y a nivel de fila te permiten restringir el acceso a columnas y filas específicas en una tabla según los atributos de usuario o los valores de datos. Este control te permite implementar un acceso detallado para ayudar a proteger los datos sensibles del acceso no autorizado.
  • Administración de transferencia de datos. Los Controles del servicio de VPC te permiten crear perímetros en los Google Cloud recursos y controlar el acceso a esos recursos según las políticas de tu organización.
  • Registros de auditoría. Los registros de auditoría te proporcionan un registro detallado de la actividad del usuario y los eventos del sistema en tu organización. Estos registros te ayudan a aplicar políticas de administración de datos y a identificar posibles riesgos de seguridad.
  • Enmascaramiento de datos. El enmascaramiento de datos te permite ocultar los datos sensibles en una tabla, a la vez que permite que los usuarios autorizados accedan a los datos que los rodean. El enmascaramiento de datos también puede ocultar datos que coincidan con patrones de datos sensibles, lo que brinda protección contra la divulgación accidental de datos.
  • Encriptación. BigQuery encripta todos los datos en reposo y en tránsito de forma automática, a la vez que te permite personalizar la configuración de encriptación para que cumpla con tus requisitos específicos.

Próximos pasos para la seguridad y el control de acceso

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de control de acceso:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube

Datos y estadísticas compartidos

BigQuery te permite compartir datos y estadísticas a gran escala dentro y fuera de los límites de la organización. Tiene un framework de seguridad y privacidad sólido a través de una plataforma de intercambio de datos integrada. Con el uso compartido de BigQuery, puedes descubrir, acceder y consumir una biblioteca de datos seleccionada por una amplia selección de proveedores de datos.

BigQuery ofrece las siguientes capacidades de uso compartido:

  • Comparte más que datos. Puedes compartir una amplia variedad de datos y recursos de IA, como conjuntos de datos, tablas, vistas, transmisiones en tiempo real con temas de Pub/Sub, procedimientos almacenados de SQL y modelos de BigQuery ML.
  • Accede a conjuntos de datos de Google. Mejora tus iniciativas de análisis y AA con conjuntos de datos de Google de Tendencias de búsqueda, modelos de DeepMind WeatherNext, Google Maps Platform, Google Earth Engine y mucho más.
  • Realiza la integración con los principios de administración de datos. Los propietarios de los datos conservan el control sobre sus datos y tienen la capacidad de definir y configurar reglas o políticas para restringir el acceso y el uso.
  • Uso compartido de datos en vivo y sin copia. Los datos se comparten en el lugar sin necesidad de integración, movimiento de datos ni replicación, lo que garantiza que el análisis se base en la información más reciente. Los conjuntos de datos vinculados creados son un puntero activo al recurso compartido.
  • Mejora la postura de seguridad. Puedes usar controles de acceso para reducir el acceso con exceso de aprovisionamiento, incluida la compatibilidad integrada con los Controles del servicio de VPC.
  • Aumenta la visibilidad con las métricas de uso del proveedor. Los publicadores de datos pueden ver y supervisar el uso de los recursos compartidos, como la cantidad de trabajos ejecutados, el total de bytes analizados y los suscriptores de cada organización.
  • Colabora en datos sensibles con salas limpias de datos. Las salas limpias de datos proporcionan un entorno con seguridad mejorada en el que varias partes pueden compartir, unir y analizar sus recursos de datos sin mover ni revelar los datos subyacentes.
  • Compilación en BigQuery. Puedes aprovechar la escalabilidad y las capacidades de procesamiento masivo en BigQuery, lo que permite colaboraciones a gran escala.

Próximos pasos para el uso compartido

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de uso compartido:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
  • Descubre cómo crear y administrar intercambios y fichas para comenzar a compartir dentro o fuera de tu organización.
Usuarios con experiencia en la nube

¿Qué sigue?