Compila una administración de datos básica

Es probable que te hayas preguntado alguna vez "¿Qué significa este nombre de columna?", "¿Quién es el propietario de este conjunto de datos dañado?" o "¿Se aprobó el uso de esta tabla?". Algunos catálogos de datos usan etiquetas no estructuradas para agregar esta información, pero las etiquetas se vuelven obsoletas o incoherentes rápidamente. Knowledge Catalog (anteriormente, Dataplex Universal Catalog) evita este problema, ya que te permite adjuntar metadatos estructurados y basados en esquemas, y definiciones empresariales claras directamente a tus recursos de datos. Este enfoque te ayuda a crear una administración programática a gran escala.

En este instructivo, se muestra cómo comenzar a usar la administración de datos en Knowledge Catalog. Diseñado para ingenieros de datos, administradores de bases de datos y arquitectos de datos, este instructivo describe los pasos manuales de la IU para ayudarte a crear un modelo mental sólido antes de automatizar estos flujos de trabajo. Aclara las relaciones entre los conceptos clave de Knowledge Catalog. Al final, sabrás cómo hacer que tus datos sean detectables y confiables.

Objetivos

En este instructivo, aprenderás a realizar lo siguiente:

  • Crea una única fuente de información para tus términos empresariales con un glosario empresarial.
  • Estructura y organiza tus metadatos con tipos de aspectos.
  • Adjunta metadatos a tus recursos con aspectos.
  • Usa la búsqueda de Knowledge Catalog para encontrar exactamente lo que necesitas con estos nuevos metadatos estructurados.

Antes de comenzar

Antes de comenzar, haz lo siguiente:

Configura tu entorno

En este instructivo, se usa Cloud Shell, un entorno de línea de comandos que se ejecuta en la nube.

  1. En la Google Cloud consola de, haz clic en Activar Cloud Shell en la barra de herramientas de la derecha. El aprovisionamiento y la conexión al entorno demorarán unos minutos.

  2. En Cloud Shell, establece tus variables PROJECT_ID y LOCATION para que todos los comandos futuros apunten a tu proyecto específico Google Cloud .

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Habilita losservicios necesarios Google Cloud .

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Crea un conjunto de datos de BigQuery y prepara datos de muestra

Usa el siguiente código para crear un conjunto de datos de BigQuery y cargar algunas transacciones de CSV de muestra en una tabla. Después de crear la tabla, Knowledge Catalog la descubre automáticamente y crea una entrada para ella en el catálogo.

Piensa en una entrada como la representación de Knowledge Catalog de un recurso de datos. Es como un registro en el catálogo al que puedes adjuntar metadatos de administración. En lugar de administrar la tabla de BigQuery directamente, administras su entrada en Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Ejecuta una consulta SELECT para verificar tu configuración:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Resultado de ejemplo:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Establece términos comunes con un glosario empresarial

Una buena administración se basa en definiciones claras. Por ejemplo, un desarrollador no debería tener que adivinar si una columna llamada gmv significa valor bruto de la mercancía o si incluye impuestos o devoluciones. Un glosario empresarial resuelve esto creando una única fuente de información que desacopla las definiciones empresariales de los detalles técnicos. Esto garantiza que términos como valor bruto de la mercancía signifiquen lo mismo para todos, desde el equipo de ventas hasta el de finanzas.

Sigue estos pasos para crear un glosario y definir tu primer término:

  1. En la Google Cloud consola de, ve a la página Glosarios de Knowledge Catalog.

    Ir a Glosarios

  2. Haz clic en Crear glosario empresarial.

  3. Ingresa los siguientes detalles:

    • Nombre visible: Retail Business Glossary
    • Ubicación: us-central1 (Iowa)
  4. Haz clic en Crear.

  5. Haz clic en Crear categoría.

  6. Asigna el nombre Sales Metrics a la categoría y haz clic en Crear.

  7. Selecciona la categoría Sales Metrics y haz clic en Agregar término.

  8. Asigna el nombre Gross Merchandise Value al término y haz clic en Crear.

  9. Haz clic en el término Gross Merchandise Value para abrir su página de detalles.

  10. Haz clic en Agregar junto a Descripción general. Ingresa los siguientes detalles: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Haz clic en Guardar.

Ahora creaste un término del glosario que puedes vincular a los recursos de datos de tu organización.

Define metadatos técnicos con un tipo de aspecto

Si necesitas hacer un seguimiento de quién es el propietario de un recurso de datos en particular, las etiquetas de pares clave-valor no son suficientes. No quieres que una tabla tenga la etiqueta owner:bob y otra contact:alice@example.com. Quieres un esquema estructurado que requiera que la información del propietario esté en un formato de correo electrónico válido.

Para satisfacer esta necesidad, Knowledge Catalog admite tipos de aspectos. Un tipo de aspecto es como un plano para tus metadatos que te permite establecer reglas claras y campos obligatorios. Esto garantiza que los metadatos que agregues más adelante permanezcan organizados.

  1. En la Google Cloud consola de, ve a la pestaña Tipos de aspectos de Knowledge Catalog en la página Tipos de metadatos.

    Ir a Tipos de aspectos

  2. En la pestaña Personalizado, haz clic en Crear.

  3. Ingresa los siguientes detalles:

    • Nombre visible: Data Asset Governance
    • Ubicación: us-central1 (Iowa)
  4. En la sección Plantilla, haz clic en Agregar campo para crear los siguientes tres campos:

    • Campo 1:

      • Nombre visible: Data Steward
      • Tipo: Text
      • Es obligatorio: Selecciona la casilla de verificación.
      • Tipo de texto: Plain text
    • Campo 2 (haz clic en Agregar campo):

      • Nombre visible: Data Sensitivity
      • Tipo: Enum
      • Es obligatorio: Déjalo como opcional.
      • Valores: Agrega Public, Internal y Confidential.
    • Campo 3 (haz clic en Agregar un campo):

      • Nombre visible: Last Review Date
      • Es obligatorio: Déjalo como opcional.
      • Tipo: Date and time
  5. Haz clic en Guardar.

Ahora tienes un tipo de aspecto para los campos de metadatos relacionados con la administración, como el administrador de datos, el nivel de sensibilidad y la fecha de revisión. En la siguiente sección, aplicarás este esquema a una entrada de tabla adjuntando un aspecto con valores específicos para estos campos.

Enriquece una entrada con metadatos de administración

Los nombres de las columnas suelen ser abreviados o ambiguos. Vincular una columna a un término en tu glosario empresarial proporciona una definición clara y coherente. En este paso, enriquecerás la entrada de la tabla retail_data.transactions vinculando el término Gross Merchandise Value a una columna llamada gmv y usando tu tipo de aspecto para adjuntar un aspecto a la entrada de la tabla.

Para aclarar qué es la columna gmv en retail_data.transactions, vincúlala a tu término Gross Merchandise Value.

  1. En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.

    Ir a Búsqueda

  2. Haz clic en Filtros para abrir el panel Filtros.

  3. En Alcance, selecciona Proyecto actual.

  4. Busca retail_data.transactions y haz clic en la tabla de transacciones que se muestra.

  5. Haz clic en la pestaña Esquema.

  6. Selecciona la casilla de verificación junto a la columna gmv y haz clic en Agregar término empresarial.

  7. Selecciona Gross Merchandise Value.

Adjunta un aspecto a la entrada de la tabla

Además de vincular términos empresariales a columnas, puedes adjuntar un aspecto a una entrada de tabla para capturar metadatos de administración a nivel de la tabla, como la propiedad y la sensibilidad de los datos.

Un aspecto es una instancia de un tipo de aspecto que contiene valores específicos para los campos de metadatos. Cuando adjuntas un aspecto a una entrada, Knowledge Catalog verifica la información que proporcionas con el esquema definido en el tipo de aspecto para garantizar la coherencia.

Para definir la propiedad y la sensibilidad de la tabla retail_data.transactions, adjunta el aspecto Data Asset Governance:

  1. En la pestaña Detalles de la página de entrada retail_data.transactions, haz clic en Agregar junto a Aspectos opcionales.
  2. Selecciona Data Asset Governance de la lista.
  3. Ingresa valores en los campos:

    • Administrador de datos: finance-team@example.com
    • Sensibilidad de los datos: Selecciona Internal.
    • Fecha de última revisión: Selecciona la fecha de hoy.
  4. Haz clic en Guardar.

Ahora configuraste una base sólida para la administración de datos en Knowledge Catalog.

Busca entradas con metadatos enriquecidos

Enriqueciste la entrada retail_data.transactions vinculando una columna a un término empresarial y adjuntando un aspecto. Ahora puedes usar la búsqueda de Knowledge Catalog para encontrar entradas basadas en estos contextos empresariales. Por ejemplo, puedes encontrar todos los recursos con un nivel de sensibilidad específico o buscar tu término del glosario para descubrir las tablas subyacentes.

  1. En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.

    Ir a Búsqueda

  2. Haz clic en Filtros para abrir el panel Filtros.

  3. En Alcance, selecciona Proyecto actual.

  4. En la barra de búsqueda, ingresa Find tables where the Data Asset Governance aspect has Internal sensitivity.

  5. Deberías ver tu tabla retail_data.transactions en la lista de resultados.

  6. Borra la barra de búsqueda y, luego, ingresa Find tables with the Gross Merchandise Value term attached.

  7. Deberías volver a ver la tabla retail_data.transactions en los resultados, ya que su columna gmv está vinculada directamente a este término empresarial.

Limpia

Para evitar que se generen cobros, borra los recursos que creaste en este instructivo.

Borra el conjunto de datos de muestra

Para borrar el conjunto de datos de BigQuery de muestra y todas sus tablas, usa el siguiente comando. Esta acción es irreversible.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Borra los artefactos de Knowledge Catalog

  1. En la Google Cloud consola de, ve a la pestaña Tipos de aspectos de Knowledge Catalog en la página Tipos de metadatos.

    Ir a Tipos de aspectos

  2. Selecciona el tipo de aspecto data_asset_governance y haz clic en Borrar.

  3. En la Google Cloud consola de, ve a la página Glosarios de Knowledge Catalog.

    Ir a Glosarios

  4. Selecciona el término Gross Merchandise Value y haz clic en Borrar.

  5. Selecciona la categoría Sales Metrics y haz clic en Borrar.

  6. Selecciona Retail Business Glossary y haz clic en Borrar.

¿Qué sigue?