Dataplex Universal Catalog proporciona una plataforma central para almacenar, administrar y acceder a tus metadatos. En este documento, se describen las funciones de administración de metadatos de Dataplex Universal Catalog.
Dataplex Universal Catalog proporciona un inventario unificado de los recursos Google Cloud y locales. Dataplex Universal Catalog recupera y almacena automáticamente los metadatos de los recursos Google Cloud . También puedes incorporar tus propios metadatos para recursos de terceros en Dataplex Universal Catalog.
Puedes enriquecer tu inventario con metadatos técnicos y comerciales adicionales que capturen el contexto y el conocimiento sobre tus recursos. También puedes buscar y descubrir tus datos en toda la organización, y habilitar la administración de datos en tus recursos de datos.
Puedes establecer tu experiencia de catálogo predeterminada en Dataplex Universal Catalog. Si usas Data Catalog, migra tu contenido y uso independientes de Data Catalog a Dataplex Universal Catalog. Para obtener más información, consulta Transición de Data Catalog a Dataplex Universal Catalog.
Cómo funciona la administración de metadatos
Las funciones de administración de metadatos en Dataplex Universal Catalog se basan en los siguientes conceptos:
- Entrada
Una entrada representa un recurso de datos. Esto es similar a
Ejemplo: Una tabla de BigQuery llamada
test-project.sales_data.customer_ordersse representa como una entrada.Una columna de una entrada representa una subsección específica de un recurso de datos, como una sola columna en una tabla de BigQuery o un campo en un archivo JSON. Las columnas te permiten adjuntar metadatos a campos individuales dentro de una entrada, no solo a la entrada en su totalidad. No defines columnas directamente, sino que se crean cuando adjuntas un aspecto de tipo
schemaa una entrada. Las columnas también se denominan rutas.Ejemplo: Para describir el campo
email_addressdentro de la entradacustomer_orderscomo que contiene información de identificación personal (PII), puedes adjuntar un aspecto a la columnaemail_address.Para obtener más información sobre las entradas, consulta Entradas.
- Aspecto
Un aspecto es un conjunto de campos de metadatos relacionados. Puedes adjuntar
Un aspecto de una entrada para describirla en su totalidad La mayoría de los metadatos se describen mediante aspectos dentro de una entrada. Es similar a las etiquetas en Data Catalog. Sin embargo, los aspectos se almacenan dentro de las entradas y no como recursos independientes.
Ejemplo: Para definir todas las columnas de la entrada
customer_orders, comoorder_id,order_dateyemail_address, puedes adjuntar un aspectoschemaa la entradacustomer_orders. Para especificar que la columnaemail_addresscontiene una dirección de correo electrónico, puedes adjuntar un aspectoschemaa la columnaemail_address.Para obtener más información sobre los aspectos, consulta Aspectos.
- Tipo de entrada
Un tipo de entrada es una plantilla para crear entradas. Establece
los elementos de metadatos esenciales, que se describen como una lista de aspectos obligatorios para las entradas de este tipo Un tipo de entrada especifica qué tipos de aspectos son obligatorios para un activo de datos específico.
Ejemplo: Para garantizar que todas las entradas tengan los metadatos requeridos, puedes crear un tipo de entrada llamado
StandardOperationalTableque requiera que se adjunte un aspectoOwnerInfoa cualquier entrada nueva de este tipo.Para obtener más información sobre los tipos de entrada, consulta Tipos de entrada.
- Tipo de aspecto
Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto
es una instancia de un tipo de aspecto. Esto es similar a las plantillas de etiquetas en Data Catalog.
Ejemplo: Para definir una plantilla reutilizable para la información de contacto, puedes definir un tipo de aspecto llamado
ContactInfocon campos paraowner_name,emailysupport_team. Luego, puedes crear aspectosContactInfoa partir de esta plantilla y adjuntarlos a entradas o columnas.Para obtener más información sobre los tipos de aspectos, consulta Tipos de aspectos.
- Grupo de entradas
Un grupo de entrada es un contenedor de entradas que sirve como
unidad de administración de estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de Identity and Access Management, la atribución del proyecto o la ubicación de las entradas del grupo de entrada. Esto es similar a los grupos de entradas en Data Catalog.
Ejemplo: Un equipo de finanzas desea administrar los permisos de todas sus tablas a la vez. Pueden crear un grupo de entradas llamado
production_finance_datay, en él, incluir las entradas de las tablascustomer_orders,quarterly_revenueyemployee_salaries.Para obtener más información sobre los grupos de entradas, consulta Grupos de entradas.
Figura 1. Entradas y grupos de entradas
Figura 2. Tipos de aspectos y tipos de entrada
Comparación entre Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog proporciona capacidades integradas para administrar tus metadatos. El almacenamiento de metadatos y los métodos de la API están integrados en la API de Dataplex.
Las principales funciones de administración de metadatos en Dataplex Universal Catalog incluyen las siguientes:
Metamodelo más robusto
- Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos requerido para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la transferencia personalizada sea más sólida y mejora la coherencia y la integridad de los metadatos personalizados.
- Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la compatibilidad con estructuras de anidación, como listas, mapas y arrays
Se mejoró la escalabilidad, incluida la capacidad de interactuar con todos los metadatos asociados a una entrada a través de operaciones CRUD atómicas únicas y la capacidad de recuperar varias anotaciones de metadatos asociadas en las respuestas de búsqueda o de lista.
En la siguiente tabla, se comparan las funciones de administración de metadatos de Dataplex Universal Catalog y Data Catalog:
| Función | Dataplex Universal Catalog | Data Catalog |
|---|---|---|
| Fuentes Google Cloud compatibles | Todas las fuentes, como se describen en la sección Fuentes Google Cloud admitidas de este documento | Todas las fuentes descritas en Entradas y grupos de entradas |
| Ingesta de fuentes personalizadas | Transferencia a entradas personalizadas con estructura controlada, definida por tipos de entrada. Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en Dataplex Universal Catalog con el tipo de entrada | Ingesta en entradas personalizadas genéricas |
| Enriquecimiento de metadatos | El contexto de los metadatos de las entradas se captura con glosarios empresariales, aspectos y tipos de aspectos. | El contexto de los metadatos de las entradas se captura con glosarios empresariales, etiquetas y plantillas de etiquetas. |
| Buscar | La búsqueda se realiza en los siguientes elementos:
Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen a la misma organización y al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consola de Google Cloud , este es el proyecto que se selecciona en la consola. Ten en cuenta que, para buscar entradas, necesitas al menos uno de los siguientes roles de IAM en el proyecto que se usa para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Visualizador de Dataplex Catalog. Los permisos en los resultados de la búsqueda se verifican independientemente del proyecto seleccionado. |
La búsqueda se realiza en los siguientes elementos:
|
| Linaje de datos |
El linaje de datos recupera los detalles de las entradas para los nodos de recursos con la API de Dataplex. La consola de Google Cloud muestra los aspectos adjuntos. |
El linaje de datos recupera los detalles de las entradas para los nodos de activos con la API de Data Catalog. |
| Glosarios empresariales |
El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con los recursos y las columnas de datos. Puedes usar la búsqueda para descubrir los recursos vinculados a un término. |
El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con columnas. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
En la siguiente tabla, se describe cómo se corresponden los recursos de Dataplex Universal Catalog con los de Data Catalog:
| Recurso de Dataplex Universal Catalog | Recurso de Data Catalog | Descripción |
|---|---|---|
Tipo de aspecto (global) |
Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de aspectos global en Dataplex Universal Catalog. |
| Aspecto opcional | Etiqueta pública | Las etiquetas públicas de Data Catalog corresponden a aspectos opcionales en Dataplex Universal Catalog. |
| Grupo de entradas | Grupo de entradas | Para las fuentes de Google Cloud , los grupos de entradas del sistema, como @bigquery, se establecen por proyecto en Dataplex Universal Catalog. |
| Aspectos obligatorios de la entrada personalizada | Entrada personalizada | Data Catalog y Dataplex Universal Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Universal Catalog. |
| Aspectos obligatorios de la entrada del sistema | Entrada del sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
| Glosarios empresariales | Glosarios empresariales | Usa glosarios para crear una taxonomía de términos comerciales que estandarice el contexto empresarial en toda la empresa. |
Para obtener más información sobre las funciones disponibles en Data Catalog, pero no compatibles con Dataplex Universal Catalog, consulta la sección Funciones de administración de metadatos que no son compatibles con Dataplex Universal Catalog en este documento.
Para usuarios existentes de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general, los glosarios y los grupos de entradas que creaste en Data Catalog están disponibles en Dataplex Universal Catalog.
- Como administrador, puedes optar por que el contenido de las etiquetas y las plantillas de etiquetas de Data Catalog esté disponible de forma simultánea en Dataplex Universal Catalog. Para obtener más información, consulta Realiza la transición de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Dataplex Universal Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Universal Catalog y los que se importaron de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
- Las descripciones de los grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a 1,024 caracteres en Dataplex Universal Catalog.
- Como administrador, para que los glosarios y los vínculos asociados entre los términos comerciales y las columnas que creaste en Data Catalog estén disponibles en Dataplex Universal Catalog, sigue el proceso de transición.
Para obtener más información sobre cómo migrar el contenido y el uso de Data Catalog independiente a Dataplex Universal Catalog, consulta Transición de Data Catalog a Dataplex Universal Catalog.
Asigna métodos de la API de Data Catalog a Dataplex Universal Catalog
Si migras de Data Catalog a Dataplex Universal Catalog, debes actualizar tus flujos de trabajo programáticos para usar la API de Dataplex. En esta sección, se proporciona una asignación entre la API de Data Catalog y la API de Dataplex.
Para obtener más información sobre los métodos de la API de Dataplex Universal Catalog, consulta la documentación de la API de Dataplex para métodos de REST y la documentación de la API de Dataplex para métodos de RPC.
En las siguientes tablas, se proporciona una asignación de los métodos de la API de Data Catalog a sus equivalentes en la API de Dataplex.
Grupos de entrada
El concepto de grupos de entradas es el mismo en Dataplex Universal Catalog y Data Catalog.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
Entradas
El concepto de entradas, que representan recursos de datos, es similar en Dataplex Universal Catalog y Data Catalog.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
entries.lookup (REST)LookupEntry (RPC) |
projects.locations.entries.lookup (REST)LookupEntry (RPC)
Nota: Para usar los métodos |
entries.modifyEntryContacts (REST)ModifyEntryContacts (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres desde el método |
entries.modifyEntryOverview (REST)ModifyEntryOverview (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres desde el método |
projects.locations.entryGroups.entries.reconcileTags (REST)ReconcileTags (RPC) |
projects.locations.metadataJobs.create (REST)CreateMetadataJob (RPC),projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres desde el método |
catalog.search (REST)SearchCatalog (RPC) |
projects.locations.searchEntries (REST)SearchEntries (RPC)
Nota: Los métodos |
Etiquetas y plantillas de etiquetas
En Dataplex Universal Catalog, los tipos de aspectos son los sucesores de las plantillas de etiquetas de Data Catalog, y los aspectos son los sucesores de las etiquetas de Data Catalog.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.create (REST)CreateTagTemplate (RPC) |
projects.locations.aspectTypes.create (REST)CreateAspectType (RPC) |
projects.locations.tagTemplates.get (REST)GetTagTemplate (RPC) |
projects.locations.aspectTypes.get (REST)GetAspectType (RPC) |
projects.locations.tagTemplates.patch (REST)UpdateTagTemplate (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.delete (REST)DeleteTagTemplate (RPC) |
projects.locations.aspectTypes.delete (REST)DeleteAspectType (RPC) |
catalog.search (REST) con predicado type=tag_templateSearchCatalog (RPC) con predicado type=tag_template |
projects.locations.aspectTypes.list (REST)ListAspectTypes (RPC) |
Campos de la plantilla de etiqueta
Los campos de la plantilla de etiquetas corresponden al contenido del campo metadata_template en un tipo de aspecto. Para migrar una operación a nivel del campo de Data Catalog, usa la operación UpdateAspectType con la carga útil correspondiente en Dataplex Universal Catalog.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.fields.create (REST)CreateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.patch (REST)UpdateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.rename (REST)RenameTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.delete (REST)DeleteTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Valores de enumeración de campos de plantillas de etiquetas
Al igual que con los campos de plantillas de etiquetas, puedes editar los valores de enumeración en la API de Dataplex modificando el campo metadata_template en el tipo de aspecto correspondiente.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.fields.enumValues.rename (REST)RenameTagTemplateFieldEnumValue (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Etiquetas
Los aspectos son los sucesores de las etiquetas de Data Catalog. Los aspectos no son recursos independientes y se encapsulan en sus entradas principales. El parámetro field_mask se puede usar para actualizar de forma selectiva un solo aspecto de una entrada.
| Método de la API de Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.entries.tags.create (REST)CreateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.list (REST)ListTags (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC)
Nota: Para limitar la respuesta solo a los aspectos requeridos, usa los parámetros |
projects.locations.entryGroups.entries.tags.patch (REST)UpdateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.delete (REST)DeleteTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
Etiquetas y taxonomías de políticas
Estas APIs no cambiarán y, por lo tanto, no es necesario migrarlas.
Fuentes admitidas
- Detección automática de datos de Cloud Storage
- Los metadatos de las siguientes fuentes Google Cloud se transfieren automáticamente a Dataplex Universal Catalog:
- Clústeres, instancias, bases de datos, esquemas, tablas y vistas de AlloyDB para PostgreSQL: Consulta Cómo habilitar la integración de AlloyDB para PostgreSQL (vista previa)
- Intercambios y fichas de BigQuery sharing (anteriormente Analytics Hub)
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL (consulta Cómo habilitar la integración de Cloud SQL)
- Servicios, base de datos y tablas de Dataproc Metastore
- Temas de Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de atributos, vistas de atributos y instancias de almacén en línea de Vertex AI
Para importar metadatos de una fuente externa a Dataplex Universal Catalog, puedes usar una canalización de conectividad administrada.
Restricciones de proyecto y ubicación
Los recursos del catálogo en Dataplex Universal Catalog se encuentran en varios proyectos y ubicaciones. Se aplica la siguiente limitación:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
global. - Un aspecto agregado a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser
global. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenan en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones de administración de metadatos que no se admiten en Dataplex Universal Catalog
Las siguientes funciones disponibles en Data Catalog no son compatibles con Dataplex Universal Catalog:
- El concepto de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas en Data Catalog) no existe en Dataplex Universal Catalog.
- La búsqueda de etiquetas de política no es compatible con la búsqueda de Dataplex Universal Catalog. Por lo tanto, los predicados
policytagypolicytagidno funcionan en la búsqueda de Dataplex Universal Catalog. - Cuando transfieres grupos de entradas personalizados, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Universal Catalog, no se conservan sus permisos originales. Debes configurar de forma explícita los permisos de IAM para los metadatos copiados antes de usarlos.
- No se admite el envío directo de los resultados de la inspección de Sensitive Data Protection al catálogo de Dataplex Universal Catalog. En su lugar, puedes enviar los resultados de la inspección de Sensitive Data Protection a Data Catalog y, luego, transferir los resultados a Dataplex Universal Catalog.
- No puedes enumerar los tipos de entrada y los tipos de aspectos en todos los proyectos con la API. Puedes limitar la solicitud de lista a un solo proyecto.
- No se admite el registro de lakes, zonas, recursos y entidades como entradas de Dataplex Universal Catalog. Esto significa que los metadatos de Data Catalog que se adjuntan a los lakes, las zonas, los recursos y las entidades no se transfieren al catálogo de Dataplex Universal Catalog. Además, cuando se usa la búsqueda de Dataplex Universal Catalog, no se admite la búsqueda de zonas y entidades, ni el filtrado por lakes y zonas. Puedes usar lagos y zonas de forma independiente del catálogo en Dataplex Universal Catalog.
- No se admite la búsqueda de administradores, lo que garantiza una recuperación completa. En cambio, puedes exportar metadatos a Cloud Storage y, luego, consultarlos desde BigQuery.
Para comparar las funciones y los recursos compatibles con Dataplex Universal Catalog y Data Catalog, consulta la sección Comparación entre Dataplex Universal Catalog y Data Catalog en este documento.
Precios
Dataplex Universal Catalog usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta los precios de Dataplex Universal Catalog.
No se aplican cargos por usar lo siguiente:
- Crea y administra recursos del catálogo en Dataplex Universal Catalog
- Llamadas a la API de Search para Dataplex Universal Catalog
- Búsquedas realizadas en la página Dataplex Universal Catalog de la consola deGoogle Cloud
¿Qué sigue?
- Obtén información para buscar recursos en Dataplex Universal Catalog.
- Obtén información para administrar recursos y enriquecer metadatos.
- Obtén más información para administrar entradas y transferir fuentes personalizadas.
- Obtén más información para migrar de Data Catalog a Dataplex Universal Catalog.
- Obtén más información para migrar glosarios a Dataplex Universal Catalog.