Probablemente te hayas preguntado cosas como “¿Qué significa el nombre de esta columna?” "¿Quién es el propietario de este conjunto de datos dañado?" o "¿Se aprobó el uso de esta tabla?" Algunos catálogos de datos usan etiquetas no estructuradas para agregar esta información, pero las etiquetas se vuelven obsoletas o incoherentes rápidamente. Knowledge Catalog (anteriormente, Dataplex Universal Catalog) evita este problema, ya que te permite adjuntar metadatos estructurados y basados en esquemas, y definiciones empresariales claras directamente a tus recursos de datos. Este enfoque te ayuda a crear una administración programática a gran escala.
En este instructivo, se muestra cómo comenzar a usar la administración de datos en Knowledge Catalog. Diseñado para ingenieros de datos, administradores de bases de datos y arquitectos de datos, este instructivo explica los pasos manuales de la IU para ayudarte a crear un modelo mental sólido antes de automatizar estos flujos de trabajo. Aclara las relaciones entre los conceptos clave del Catálogo de conocimiento. Al final, sabrás cómo hacer que tus datos sean fáciles de descubrir y confiables.
Objetivos
En este instructivo, aprenderás a realizar lo siguiente:
- Crea una única fuente de información para los términos comerciales con un glosario empresarial.
- Estructura y organiza tus metadatos con tipos de aspectos.
- Adjunta metadatos a tus recursos con aspectos.
- Usa la Búsqueda de Knowledge Catalog para encontrar exactamente lo que necesitas con estos nuevos metadatos estructurados.
Antes de comenzar
Antes de comenzar, haz lo siguiente:
- Selecciona un Google Cloud proyecto para este instructivo.
- Confirma que la facturación esté habilitada para tu proyecto.
Configura tu entorno
En este instructivo, se usa Cloud Shell, un entorno de línea de comandos que se ejecuta en la nube.
En la Google Cloud consola, haz clic en Activar Cloud Shell en la barra de herramientas de la esquina superior derecha. El aprovisionamiento y la conexión al entorno demorarán unos minutos.
En Cloud Shell, configura tus variables
PROJECT_IDyLOCATIONpara que todos los comandos futuros se dirijan a tu proyecto Google Cloud específico.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Habilita los Google Cloud servicios necesarios.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Crea un conjunto de datos de BigQuery y prepara datos de muestra
Usa el siguiente código para crear un conjunto de datos de BigQuery y cargar algunas transacciones de CSV de muestra en una tabla. Después de crear la tabla, Knowledge Catalog la detecta automáticamente y crea una entrada para ella en el catálogo.
Piensa en una entrada como la representación de un recurso de datos en Knowledge Catalog. Es como un registro en el catálogo al que puedes adjuntar metadatos de administración. En lugar de administrar la tabla de BigQuery directamente, administras su entrada en Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Ejecuta una consulta SELECT para verificar tu configuración:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Resultado de ejemplo:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Establece términos comunes con un glosario empresarial
Una buena administración se basa en definiciones claras. Por ejemplo, un desarrollador no debería tener que adivinar si una columna llamada gmv significa valor bruto de la mercancía o si incluye impuestos o devoluciones. Un glosario empresarial resuelve este problema creando una única fuente de información que desacopla las definiciones empresariales de los detalles técnicos. Esto garantiza que términos como el valor bruto de la mercancía signifiquen lo mismo para todos, desde el equipo de Ventas hasta el de Finanzas.
Sigue estos pasos para crear un glosario y definir tu primer término:
En la consola de Google Cloud , ve a la página Glosarios de Knowledge Catalog.
Haz clic en Crear glosario empresarial.
Ingresa los siguientes detalles:
- Nombre visible:
Retail Business Glossary - Ubicación:
us-central1 (Iowa)
- Nombre visible:
Haz clic en Crear.
Haz clic en Crear categoría.
Asigna el nombre
Sales Metricsa la categoría y haz clic en Crear.Selecciona la categoría Métricas de ventas y haz clic en Agregar término.
Asigna el nombre
Gross Merchandise Valueal término y haz clic en Crear.Haz clic en el término Valor bruto de la mercancía para abrir su página de detalles.
Haz clic en Agregar junto a Resumen. Ingresa los siguientes detalles:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of ecommerce business growth.Haz clic en Guardar.
Ya creaste un término del glosario que puedes vincular a los recursos de datos de toda tu organización.
Define metadatos técnicos con un tipo de aspecto
Si necesitas hacer un seguimiento de quién es el propietario de un activo de datos en particular, las etiquetas de pares clave-valor no son suficientes. No querrás que una tabla esté etiquetada como owner:bob y otra como contact:alice@example.com. Quieres un esquema estructurado que requiera que la información del propietario esté en un formato de correo electrónico válido.
Para satisfacer esta necesidad, Knowledge Catalog admite tipos de aspectos. Un tipo de aspecto es como un plano para tus metadatos que te permite establecer reglas claras y campos obligatorios. Esto garantiza que los metadatos que agregues más adelante se mantengan organizados.
En la consola de Google Cloud , ve a la pestaña Tipos de aspectos en la página Tipos de metadatos de Knowledge Catalog.
En la pestaña Personalizada, haz clic en Crear.
Ingresa los siguientes detalles:
- Nombre visible:
Data Asset Governance - Ubicación:
us-central1 (Iowa)
- Nombre visible:
En la sección Plantilla, haz clic en Agregar campo para crear los siguientes tres campos:
Campo 1:
- Nombre visible:
Data Steward - Tipo:
Text - Is Required: Selecciona la casilla de verificación.
- Tipo de texto:
Plain text
- Nombre visible:
Campo 2 (haz clic en Agregar campo):
- Nombre visible:
Data Sensitivity - Tipo:
Enum - Is Required: Déjalo como opcional.
- Valores: Agrega
Public,InternalyConfidential.
- Nombre visible:
Campo 3 (haz clic en Agregar un campo):
- Nombre visible:
Last Review Date - Is Required: Déjalo como opcional.
- Tipo:
Date and time
- Nombre visible:
Haz clic en Guardar.
Ahora tienes un tipo de aspecto para los campos de metadatos relacionados con la gobernanza, como el administrador de datos, el nivel de sensibilidad y la fecha de revisión. En la siguiente sección, aplicarás este esquema a una entrada de tabla adjuntando un aspecto con valores específicos para estos campos.
Enriquece una entrada con metadatos de administración
Los nombres de las columnas suelen ser abreviados o ambiguos. Vincular una columna a un término de tu glosario empresarial proporciona una definición clara y coherente. En este paso, enriquecerás la entrada de la tabla retail_data.transactions vinculando el término Gross Merchandise Value a una columna llamada gmv y usando tu tipo de aspecto para adjuntar un aspecto a la entrada de la tabla.
Cómo vincular una columna a un término comercial
Para aclarar qué es la columna gmv en retail_data.transactions, vincúlala a tu término Gross Merchandise Value.
En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.
Haz clic en Filtros para abrir el panel Filtros.
En Alcance, selecciona Proyecto actual.
Busca
retail_data.transactionsy haz clic en la tabla de transacciones que se muestra.Haz clic en la pestaña Esquema.
Selecciona la casilla de verificación junto a la columna
gmvy haz clic en Agregar condición comercial.Selecciona
Gross Merchandise Value.
Adjunta un aspecto a la entrada de la tabla
Además de vincular términos comerciales a columnas, puedes adjuntar un aspecto a una entrada de tabla para capturar metadatos de administración a nivel de la tabla, como la propiedad y la sensibilidad de los datos.
Un aspecto es una instancia de un tipo de aspecto que contiene valores específicos para los campos de metadatos. Cuando adjuntas un aspecto a una entrada, Knowledge Catalog verifica la información que proporcionas con el esquema definido en el tipo de aspecto para garantizar la coherencia.
Para definir la propiedad y la sensibilidad de la tabla retail_data.transactions, adjunta el aspecto Data Asset Governance:
- En la pestaña Detalles de la página de entrada
retail_data.transactions, haz clic en Agregar junto a Aspectos opcionales. - Selecciona
Data Asset Governanceen la lista. Ingresa valores en los campos:
- Administrador de datos:
finance-team@example.com - Sensibilidad de los datos: Selecciona Interna.
- Fecha de la última revisión: Selecciona la fecha de hoy.
- Administrador de datos:
Haz clic en Guardar.
Ahora, estableciste una base sólida para la administración de datos en Knowledge Catalog.
Cómo buscar entradas con metadatos enriquecidos
Enriqueciste la entrada retail_data.transactions vinculando una columna a un término comercial y adjuntando un aspecto. Ahora puedes usar la búsqueda de Knowledge Catalog para encontrar entradas basadas en estos contextos comerciales. Por ejemplo, puedes encontrar todos los activos con un nivel de sensibilidad específico o buscar tu término del glosario para descubrir las tablas subyacentes.
En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.
Haz clic en Filtros para abrir el panel Filtros.
En Alcance, selecciona Proyecto actual.
En la barra de búsqueda, ingresa
Find tables where the Data Asset Governance aspect has Internal sensitivity..Deberías ver tu tabla
retail_data.transactionsen la lista de resultados.Borra la barra de búsqueda y, luego, ingresa
Find tables with the Gross Merchandise Value term attached..Deberías volver a ver la tabla
retail_data.transactionsen los resultados, ya que su columnagmvestá directamente vinculada a este término comercial.
Realiza una limpieza
Para evitar que se generen cobros, borra los recursos que creaste en este instructivo.
Borra el conjunto de datos de muestra
Para borrar el conjunto de datos de muestra de BigQuery y todas sus tablas, usa el siguiente comando. Esta acción es irreversible.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Borra artefactos de Knowledge Catalog
En la consola de Google Cloud , ve a la pestaña Tipos de aspectos en la página Tipos de metadatos de Knowledge Catalog.
Selecciona el tipo de aspecto
data_asset_governancey haz clic en Borrar.En la consola de Google Cloud , ve a la página Glosarios de Knowledge Catalog.
Selecciona el término
Gross Merchandise Valuey haz clic en Borrar.Selecciona la categoría
Sales Metricsy haz clic en Borrar.Selecciona el
Retail Business Glossaryy haz clic en Borrar.
¿Qué sigue?
- Administra glosarios empresariales: Obtén más información para establecer un vocabulario estandarizado para tus datos en Administra un glosario empresarial.
- Enriquece el contexto de los metadatos: Obtén más información para agregar contexto significativo con aspectos en Administra aspectos y enriquece los metadatos.
- Automatiza la asociación de aspectos: Asocia aspectos a conjuntos de datos nuevos con Cloud Run Functions o Cloud Build.
- Gobernanza como código: Administra esquemas en el control de versión con el proveedor de Terraform de Google Cloud.