Es probable que te hayas preguntado alguna vez "¿Qué significa este nombre de columna?", "¿Quién es el propietario de este conjunto de datos dañado?" o "¿Se aprobó el uso de esta tabla?". Algunos catálogos de datos usan etiquetas no estructuradas para agregar esta información, pero las etiquetas se vuelven obsoletas o incoherentes rápidamente. Knowledge Catalog (anteriormente, Dataplex Universal Catalog) evita este problema, ya que te permite adjuntar metadatos estructurados y basados en esquemas, y definiciones empresariales claras directamente a tus recursos de datos. Este enfoque te ayuda a crear una administración programática a gran escala.
En este instructivo, se muestra cómo comenzar a usar la administración de datos en Knowledge Catalog. Diseñado para ingenieros de datos, administradores de bases de datos y arquitectos de datos, este instructivo describe los pasos manuales de la IU para ayudarte a crear un modelo mental sólido antes de automatizar estos flujos de trabajo. Aclara las relaciones entre los conceptos clave de Knowledge Catalog. Al final, sabrás cómo hacer que tus datos sean detectables y confiables.
Objetivos
En este instructivo, aprenderás a realizar lo siguiente:
- Crea una única fuente de información para tus términos empresariales con un glosario empresarial.
- Estructura y organiza tus metadatos con tipos de aspectos.
- Adjunta metadatos a tus recursos con aspectos.
- Usa la búsqueda de Knowledge Catalog para encontrar exactamente lo que necesitas con estos nuevos metadatos estructurados.
Antes de comenzar
Antes de comenzar, haz lo siguiente:
- Selecciona un Google Cloud proyecto para este instructivo.
- Confirma que la facturación esté habilitada para tu proyecto.
Configura tu entorno
En este instructivo, se usa Cloud Shell, un entorno de línea de comandos que se ejecuta en la nube.
En la Google Cloud consola de, haz clic en Activar Cloud Shell en la barra de herramientas de la derecha. El aprovisionamiento y la conexión al entorno demorarán unos minutos.
En Cloud Shell, establece tus variables
PROJECT_IDyLOCATIONpara que todos los comandos futuros apunten a tu proyecto específico Google Cloud .export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Habilita losservicios necesarios Google Cloud .
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Crea un conjunto de datos de BigQuery y prepara datos de muestra
Usa el siguiente código para crear un conjunto de datos de BigQuery y cargar algunas transacciones de CSV de muestra en una tabla. Después de crear la tabla, Knowledge Catalog la descubre automáticamente y crea una entrada para ella en el catálogo.
Piensa en una entrada como la representación de Knowledge Catalog de un recurso de datos. Es como un registro en el catálogo al que puedes adjuntar metadatos de administración. En lugar de administrar la tabla de BigQuery directamente, administras su entrada en Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Ejecuta una consulta SELECT para verificar tu configuración:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Resultado de ejemplo:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Establece términos comunes con un glosario empresarial
Una buena administración se basa en definiciones claras. Por ejemplo, un desarrollador no debería tener que adivinar si una columna llamada gmv significa valor bruto de la mercancía o si incluye impuestos o devoluciones. Un glosario empresarial resuelve esto creando una única fuente de información que desacopla las definiciones empresariales de los detalles técnicos. Esto garantiza que términos como valor bruto de la mercancía signifiquen lo mismo para todos, desde el equipo de ventas hasta el de finanzas.
Sigue estos pasos para crear un glosario y definir tu primer término:
En la Google Cloud consola de, ve a la página Glosarios de Knowledge Catalog.
Haz clic en Crear glosario empresarial.
Ingresa los siguientes detalles:
- Nombre visible:
Retail Business Glossary - Ubicación:
us-central1 (Iowa)
- Nombre visible:
Haz clic en Crear.
Haz clic en Crear categoría.
Asigna el nombre
Sales Metricsa la categoría y haz clic en Crear.Selecciona la categoría Sales Metrics y haz clic en Agregar término.
Asigna el nombre
Gross Merchandise Valueal término y haz clic en Crear.Haz clic en el término Gross Merchandise Value para abrir su página de detalles.
Haz clic en Agregar junto a Descripción general. Ingresa los siguientes detalles:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Haz clic en Guardar.
Ahora creaste un término del glosario que puedes vincular a los recursos de datos de tu organización.
Define metadatos técnicos con un tipo de aspecto
Si necesitas hacer un seguimiento de quién es el propietario de un recurso de datos en particular, las etiquetas de pares clave-valor no son suficientes. No quieres que una tabla tenga la etiqueta owner:bob y otra contact:alice@example.com. Quieres un esquema estructurado que requiera que la información del propietario esté en un formato de correo electrónico válido.
Para satisfacer esta necesidad, Knowledge Catalog admite tipos de aspectos. Un tipo de aspecto es como un plano para tus metadatos que te permite establecer reglas claras y campos obligatorios. Esto garantiza que los metadatos que agregues más adelante permanezcan organizados.
En la Google Cloud consola de, ve a la pestaña Tipos de aspectos de Knowledge Catalog en la página Tipos de metadatos.
En la pestaña Personalizado, haz clic en Crear.
Ingresa los siguientes detalles:
- Nombre visible:
Data Asset Governance - Ubicación:
us-central1 (Iowa)
- Nombre visible:
En la sección Plantilla, haz clic en Agregar campo para crear los siguientes tres campos:
Campo 1:
- Nombre visible:
Data Steward - Tipo:
Text - Es obligatorio: Selecciona la casilla de verificación.
- Tipo de texto:
Plain text
- Nombre visible:
Campo 2 (haz clic en Agregar campo):
- Nombre visible:
Data Sensitivity - Tipo:
Enum - Es obligatorio: Déjalo como opcional.
- Valores: Agrega
Public,InternalyConfidential.
- Nombre visible:
Campo 3 (haz clic en Agregar un campo):
- Nombre visible:
Last Review Date - Es obligatorio: Déjalo como opcional.
- Tipo:
Date and time
- Nombre visible:
Haz clic en Guardar.
Ahora tienes un tipo de aspecto para los campos de metadatos relacionados con la administración, como el administrador de datos, el nivel de sensibilidad y la fecha de revisión. En la siguiente sección, aplicarás este esquema a una entrada de tabla adjuntando un aspecto con valores específicos para estos campos.
Enriquece una entrada con metadatos de administración
Los nombres de las columnas suelen ser abreviados o ambiguos. Vincular una columna a un término en tu glosario empresarial proporciona una definición clara y coherente. En este paso, enriquecerás la entrada de la tabla retail_data.transactions vinculando el término Gross Merchandise Value a una columna llamada gmv y usando tu tipo de aspecto para adjuntar un aspecto a la entrada de la tabla.
Vincula una columna a un término empresarial
Para aclarar qué es la columna gmv en retail_data.transactions, vincúlala a tu término Gross Merchandise Value.
En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.
Haz clic en Filtros para abrir el panel Filtros.
En Alcance, selecciona Proyecto actual.
Busca
retail_data.transactionsy haz clic en la tabla de transacciones que se muestra.Haz clic en la pestaña Esquema.
Selecciona la casilla de verificación junto a la columna
gmvy haz clic en Agregar término empresarial.Selecciona
Gross Merchandise Value.
Adjunta un aspecto a la entrada de la tabla
Además de vincular términos empresariales a columnas, puedes adjuntar un aspecto a una entrada de tabla para capturar metadatos de administración a nivel de la tabla, como la propiedad y la sensibilidad de los datos.
Un aspecto es una instancia de un tipo de aspecto que contiene valores específicos para los campos de metadatos. Cuando adjuntas un aspecto a una entrada, Knowledge Catalog verifica la información que proporcionas con el esquema definido en el tipo de aspecto para garantizar la coherencia.
Para definir la propiedad y la sensibilidad de la tabla retail_data.transactions, adjunta el aspecto Data Asset Governance:
- En la pestaña Detalles de la página de entrada
retail_data.transactions, haz clic en Agregar junto a Aspectos opcionales. - Selecciona
Data Asset Governancede la lista. Ingresa valores en los campos:
- Administrador de datos:
finance-team@example.com - Sensibilidad de los datos: Selecciona Internal.
- Fecha de última revisión: Selecciona la fecha de hoy.
- Administrador de datos:
Haz clic en Guardar.
Ahora configuraste una base sólida para la administración de datos en Knowledge Catalog.
Busca entradas con metadatos enriquecidos
Enriqueciste la entrada retail_data.transactions vinculando una columna a un término empresarial y adjuntando un aspecto. Ahora puedes usar la búsqueda de Knowledge Catalog para encontrar entradas basadas en estos contextos empresariales. Por ejemplo, puedes encontrar todos los recursos con un nivel de sensibilidad específico o buscar tu término del glosario para descubrir las tablas subyacentes.
En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.
Haz clic en Filtros para abrir el panel Filtros.
En Alcance, selecciona Proyecto actual.
En la barra de búsqueda, ingresa
Find tables where the Data Asset Governance aspect has Internal sensitivity.Deberías ver tu tabla
retail_data.transactionsen la lista de resultados.Borra la barra de búsqueda y, luego, ingresa
Find tables with the Gross Merchandise Value term attached.Deberías volver a ver la tabla
retail_data.transactionsen los resultados, ya que su columnagmvestá vinculada directamente a este término empresarial.
Limpia
Para evitar que se generen cobros, borra los recursos que creaste en este instructivo.
Borra el conjunto de datos de muestra
Para borrar el conjunto de datos de BigQuery de muestra y todas sus tablas, usa el siguiente comando. Esta acción es irreversible.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Borra los artefactos de Knowledge Catalog
En la Google Cloud consola de, ve a la pestaña Tipos de aspectos de Knowledge Catalog en la página Tipos de metadatos.
Selecciona el tipo de aspecto
data_asset_governancey haz clic en Borrar.En la Google Cloud consola de, ve a la página Glosarios de Knowledge Catalog.
Selecciona el término
Gross Merchandise Valuey haz clic en Borrar.Selecciona la categoría
Sales Metricsy haz clic en Borrar.Selecciona
Retail Business Glossaryy haz clic en Borrar.
¿Qué sigue?
- Administra glosarios empresariales: Obtén más información para establecer un vocabulario estandarizado para tus datos en Administra un glosario empresarial.
- Enriquece el contexto de los metadatos: Obtén más información para agregar contexto significativo con aspectos en Administra aspectos y enriquece metadatos.
- Automatiza la adjunción de aspectos: Adjunta aspectos a conjuntos de datos nuevos con Cloud Run Functions o Cloud Build.
- Administración como código: Administra esquemas en el control de versión con el proveedor de Terraform de Google Cloud.