Dataplex Universal Catalog proporciona una plataforma central para almacenar, gestionar y acceder a sus metadatos. En este documento se describen las funciones de gestión de metadatos de Dataplex Universal Catalog.
Dataplex Universal Catalog proporciona un inventario unificado de recursos Google Cloud y locales. Dataplex Universal Catalog obtiene y almacena automáticamente los metadatos de los Google Cloud recursos. También puedes incorporar tus propios metadatos de recursos de terceros a Dataplex Universal Catalog.
Puede enriquecer su inventario con metadatos empresariales y técnicos adicionales que capturen el contexto y el conocimiento sobre sus recursos. También puedes buscar y descubrir tus datos en toda la organización, así como habilitar la gobernanza de datos en tus recursos de datos.
Puedes definir Dataplex Universal Catalog como experiencia de catálogo predeterminada. Si usas Data Catalog, migra tu contenido y uso de Data Catalog independiente a Dataplex Universal Catalog. Para obtener más información, consulta Pasar de Data Catalog a Dataplex Universal Catalog.
Cómo funciona la gestión de metadatos
Las funciones de gestión de metadatos de Dataplex Universal Catalog se basan en los siguientes conceptos:
- Entrada
Una entrada representa un recurso de datos. Es similar a
Por ejemplo, una tabla de BigQuery llamada
test-project.sales_data.customer_ordersse representa como una entrada.Una columna de una entrada representa una subsección específica de un activo de datos, como una columna de una tabla de BigQuery o un campo de un archivo JSON. Las columnas te permiten adjuntar metadatos a campos concretos de una entrada, no solo a la entrada en su conjunto. Las columnas no se definen directamente, sino que se crean cuando se adjunta un aspecto de tipo
schemaa una entrada. Las columnas también se denominan rutas.Ejemplo: Para describir el campo
email_addressde la entradacustomer_orderscomo que contiene información personal identificable (IPI), puede asociar un aspecto a la columnaemail_address.Para obtener más información sobre las entradas, consulta Entradas.
- Aspecto
Un aspecto es un conjunto de campos de metadatos relacionados. Puedes adjuntar
un aspecto de una entrada para describir la entrada en su conjunto. La mayoría de los metadatos se describen mediante aspectos de una entrada. Es similar a las etiquetas de Data Catalog. Sin embargo, los aspectos se almacenan en las entradas y no como recursos independientes.
Ejemplo: Para definir todas las columnas de la entrada
customer_orders, comoorder_id,order_dateyemail_address, puedes adjuntar un aspectoschemaa la entradacustomer_orders. Para especificar que la columnaemail_addresscontiene una dirección de correo, puedes adjuntar un aspectoschemaa la columnaemail_address.Para obtener más información sobre los aspectos, consulta Aspectos.
- Tipo de entrada
Un tipo de entrada es una plantilla para crear entradas. Establece
los elementos de metadatos esenciales, descritos como una lista de aspectos obligatorios para las entradas de este tipo. Un tipo de entrada especifica qué tipos de aspectos son obligatorios para un recurso de datos concreto.
Por ejemplo, para asegurarse de que todas las entradas tengan los metadatos necesarios, puede crear un tipo de entrada llamado
StandardOperationalTableque requiera que se adjunte un aspectoOwnerInfoa cualquier entrada nueva de este tipo.Para obtener más información sobre los tipos de entrada, consulta Tipos de entrada.
- Tipo de aspecto
Un tipo de aspecto es una plantilla reutilizable para aspectos. Todos los aspectos
es una instancia de un tipo de aspecto. Es similar a las plantillas de etiquetas de Data Catalog.
Ejemplo: Para definir una plantilla reutilizable de información de contacto, puedes definir un tipo de aspecto llamado
ContactInfocon campos paraowner_name,emailysupport_team. Después, puedes crearContactInfoaspectos a partir de esta plantilla y adjuntarlos a entradas o columnas.Para obtener más información sobre los tipos de aspectos, consulta Tipos de aspectos.
- Grupo de entradas
Un grupo de entradas es un contenedor de entradas que sirve como
unidad de gestión de estas entradas. Por ejemplo, puedes usar un grupo de entradas para configurar el control de acceso de Gestión de Identidades y Accesos, la atribución de proyectos o la ubicación de las entradas del grupo. Es similar a los grupos de entradas de Data Catalog.
Por ejemplo, un equipo de finanzas quiere gestionar los permisos de todas sus hojas de cálculo a la vez. Pueden crear un grupo de entradas llamado
production_finance_datay añadir las entradas de las tablascustomer_orders,quarterly_revenueyemployee_salaries.Para obtener más información sobre los grupos de entradas, consulta Grupos de entradas.
Imagen 1. Entradas y grupos de entrada
Imagen 2. Tipos de aspectos y tipos de entradas
Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog ofrece funciones integradas para gestionar tus metadatos. El almacenamiento de metadatos y los métodos de la API se integran en la API de Dataplex.
Estas son las principales funciones de gestión de metadatos de Dataplex Universal Catalog:
Metamodelo más sólido
- Entradas escritas. Puedes aplicar estándares de metadatos mínimos definiendo el contenido de metadatos obligatorio para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la ingestión personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
- Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la compatibilidad con estructuras anidadas, como listas, mapas y arrays.
Se ha mejorado la escalabilidad, incluida la posibilidad de interactuar con todos los metadatos asociados a una entrada mediante operaciones CRUD atómicas únicas y la posibilidad de obtener varias anotaciones de metadatos asociadas en búsquedas o respuestas de listas.
En la siguiente tabla se comparan las funciones de gestión de metadatos de Dataplex Universal Catalog y Data Catalog:
| Función | Dataplex Universal Catalog | Data Catalog |
|---|---|---|
| Fuentes Google Cloud admitidas | Todas las fuentes descritas en la sección Fuentes admitidas Google Cloud de este documento. | Todas las fuentes descritas en Entradas y grupos de entrada. |
| Ingestión de fuentes personalizadas | Ingestión en entradas personalizadas con una estructura controlada, definida por tipos de entrada. Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en Dataplex Universal Catalog con el tipo de entrada | Ingestión en entradas personalizadas genéricas. |
| Enriquecimiento de metadatos | El contexto de los metadatos de las entradas se captura mediante glosarios empresariales, aspectos y tipos de aspectos. | El contexto de los metadatos de las entradas se obtiene mediante glosarios empresariales, etiquetas y plantillas de etiquetas. |
| Buscar | La búsqueda se realiza en los siguientes elementos:
Los resultados de búsqueda solo incluyen los recursos que pertenecen a la misma organización y al mismo perímetro de los controles de servicio de VPC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consola Google Cloud , este es el proyecto que se selecciona en la consola. Ten en cuenta que, para buscar entradas, debes tener al menos uno de los siguientes roles de gestión de identidades y accesos en el proyecto que se utiliza para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Lector de Dataplex Catalog. Los permisos de los resultados de búsqueda se comprueban independientemente del proyecto seleccionado. |
La búsqueda se realiza en los siguientes elementos:
|
| Linaje de datos |
El linaje de datos obtiene los detalles de las entradas de los nodos de recursos mediante la API de Dataplex. La consola Google Cloud muestra los aspectos adjuntos. |
El linaje de datos obtiene los detalles de las entradas de los nodos de recursos mediante la API de Data Catalog. |
| Glosarios empresariales |
El glosario empresarial le permite crear una taxonomía de términos empresariales y asociarlos a recursos y columnas de datos. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
El glosario empresarial te permite crear una taxonomía de términos empresariales y asociarlos a columnas. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
En la siguiente tabla se describe cómo se corresponden los recursos de Dataplex Universal Catalog con los de Data Catalog:
| Recurso de Dataplex Universal Catalog | Recurso de Data Catalog | Descripción |
|---|---|---|
Tipo de aspecto (global) |
Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlas para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de global aspecto
de Dataplex Universal Catalog. |
| Aspecto opcional | Etiqueta pública | Las etiquetas públicas de Data Catalog corresponden a aspectos opcionales de Dataplex Universal Catalog. |
| Grupo de entradas | Grupo de entradas | En el caso de las Google Cloud fuentes, @bigquery
se crean grupos de entradas del sistema por proyecto en Dataplex Universal Catalog. |
| Aspectos necesarios de las entradas personalizadas | Entrada personalizada | Data Catalog y Dataplex Universal Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Universal Catalog. |
| Aspectos necesarios para acceder al sistema | Entrada del sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se registran en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
| Glosarios empresariales | Glosarios empresariales | Usa glosarios para crear una taxonomía de términos empresariales que estandarice el contexto empresarial en toda la empresa. |
Para obtener más información sobre las funciones disponibles en Data Catalog que no se admiten en el catálogo universal de Dataplex, consulta la sección Funciones de gestión de metadatos que no se admiten en el catálogo universal de Dataplex de este documento.
Para usuarios actuales de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general, los glosarios y los grupos de entradas que hayas creado en Data Catalog estarán disponibles en Dataplex Universal Catalog.
- Como administrador, puede hacer que el contenido de las plantillas y las etiquetas de Data Catalog esté disponible simultáneamente en Dataplex Universal Catalog. Para obtener más información, consulta Transición de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Dataplex Universal Catalog, se incluyen tanto los metadatos creados directamente en Dataplex Universal Catalog como los metadatos importados de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se han creado en Data Catalog.
- Las descripciones de los grupos de entradas de Data Catalog que superen los 1024 caracteres se truncarán a 1024 caracteres en Dataplex Universal Catalog.
- Como administrador, para que los glosarios y los enlaces asociados entre los términos empresariales y las columnas que has creado en Data Catalog estén disponibles en Dataplex Universal Catalog, sigue el proceso de transición.
Para obtener más información sobre cómo migrar el contenido y el uso de Data Catalog independiente a Dataplex Universal Catalog, consulta el artículo Migrar de Data Catalog a Dataplex Universal Catalog.
Asignar métodos de la API Data Catalog a Dataplex Universal Catalog
Si vas a migrar de Data Catalog a Dataplex Universal Catalog, debes actualizar tus flujos de trabajo programáticos para usar la API de Dataplex. En esta sección se proporciona una asignación entre la API de Data Catalog y la API de Dataplex.
Para obtener más información sobre los métodos de la API Dataplex Universal Catalog, consulta la documentación de la API Dataplex para métodos REST y la documentación de la API Dataplex para métodos RPC.
En las siguientes tablas se muestra una asignación de los métodos de la API Data Catalog a sus equivalentes en la API Dataplex.
Grupos de entrada
El concepto de grupos de entradas es el mismo en Dataplex Universal Catalog y Data Catalog.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
Entradas
El concepto de entradas, que representan recursos de datos, es similar en Dataplex Universal Catalog y Data Catalog.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
entries.lookup (REST)LookupEntry (RPC) |
projects.locations.entries.lookup (REST)LookupEntry (RPC)
Nota: Para usar los métodos |
entries.modifyEntryContacts (REST)ModifyEntryContacts (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres del método |
entries.modifyEntryOverview (REST)ModifyEntryOverview (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres del método |
projects.locations.entryGroups.entries.reconcileTags (REST)ReconcileTags (RPC) |
projects.locations.metadataJobs.create (REST)CreateMetadataJob (RPC),projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota: Cuando migres desde el método |
catalog.search (REST)SearchCatalog (RPC) |
projects.locations.searchEntries (REST)SearchEntries (RPC)
Nota: Los métodos |
Plantillas de etiquetas y etiquetas
En Dataplex Universal Catalog, los tipos de aspectos sustituyen a las plantillas de etiquetas de Data Catalog, y los aspectos sustituyen a las etiquetas de Data Catalog.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.create (REST)CreateTagTemplate (RPC) |
projects.locations.aspectTypes.create (REST)CreateAspectType (RPC) |
projects.locations.tagTemplates.get (REST)GetTagTemplate (RPC) |
projects.locations.aspectTypes.get (REST)GetAspectType (RPC) |
projects.locations.tagTemplates.patch (REST)UpdateTagTemplate (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.delete (REST)DeleteTagTemplate (RPC) |
projects.locations.aspectTypes.delete (REST)DeleteAspectType (RPC) |
catalog.search (REST) con el predicado type=tag_templateSearchCatalog (RPC) con el predicado type=tag_template |
projects.locations.aspectTypes.list (REST)ListAspectTypes (RPC) |
Campos de plantilla de etiqueta
Los campos de plantilla de etiqueta corresponden al contenido del campo metadata_template de un tipo de aspecto. Para migrar una operación a nivel de campo de Data Catalog, usa la operación UpdateAspectType con la carga útil correspondiente en Dataplex Universal Catalog.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.fields.create (REST)CreateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.patch (REST)UpdateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.rename (REST)RenameTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.delete (REST)DeleteTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Valores de enumeración de campos de plantillas de etiquetas
Al igual que con los campos de plantilla de etiqueta, puede editar los valores de enumeración en la API de Dataplex
modificando el campo metadata_template del tipo de aspecto correspondiente.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.tagTemplates.fields.enumValues.rename (REST)RenameTagTemplateFieldEnumValue (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Etiquetas
Los aspectos son los sucesores de las etiquetas de Data Catalog. Los aspectos no son recursos independientes, sino que están encapsulados en sus entradas principales. El parámetro field_mask se puede usar para actualizar de forma selectiva un solo aspecto de una entrada.
| Método de la API Data Catalog | Método de la API de Dataplex |
|---|---|
projects.locations.entryGroups.entries.tags.create (REST)CreateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.list (REST)ListTags (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC)
Nota: Para limitar la respuesta solo a los aspectos necesarios, usa los parámetros |
projects.locations.entryGroups.entries.tags.patch (REST)UpdateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.delete (REST)DeleteTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
Etiquetas y taxonomías de política
Estas APIs no van a cambiar, por lo que no es necesario migrarlas.
Fuentes admitidas
- Detección automática de datos de Cloud Storage
- Los metadatos de las siguientes Google Cloud fuentes se ingieren automáticamente
en Dataplex Universal Catalog:
- Clústeres, instancias, bases de datos, esquemas, tablas y vistas de AlloyDB para PostgreSQL: consulta Habilitar la integración de AlloyDB para PostgreSQL (vista previa).
- Intercambios y fichas de BigQuery (antes Analytics Hub)
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de las familias de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL: consulta Habilitar la integración de Cloud SQL.
- Servicios, bases de datos y tablas de Dataproc Metastore
- Temas Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de características, vistas de características e instancias de almacén online de Vertex AI
Para importar metadatos de una fuente de terceros a Dataplex Universal Catalog, puedes usar una pipeline de conectividad gestionada.
Restricciones de proyectos y ubicaciones
Los recursos de catálogo de Dataplex Universal Catalog se encuentran en varios proyectos y ubicaciones. Se aplican las siguientes limitaciones:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
global. - Un aspecto añadido a una entrada debe basarse en un tipo de aspecto que se
almacene en la misma ubicación que la entrada o el tipo de aspecto debe ser
global. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenen en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones de gestión de metadatos no compatibles con Dataplex Universal Catalog
Las siguientes funciones disponibles en Data Catalog no se admiten en Dataplex Universal Catalog:
- El concepto de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas de Data Catalog) no existe en Dataplex Universal Catalog.
- La búsqueda de etiquetas de políticas no se admite en la búsqueda de Dataplex Universal Catalog. Por lo tanto, los predicados
policytagypolicytagidno funcionan en la búsqueda de Dataplex Universal Catalog. - Cuando importa grupos de entradas personalizadas, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Universal Catalog, sus permisos originales no se transfieren. Debes configurar explícitamente los permisos de gestión de identidades y accesos de los metadatos copiados antes de usarlos.
- No se admite el envío de los resultados de la inspección de Protección de Datos Sensibles directamente al catálogo de Dataplex Universal Catalog. En su lugar, puede enviar los resultados de la inspección de Protección de Datos Sensibles a Data Catalog y, a continuación, transferir los resultados a Dataplex Universal Catalog.
- No puedes mostrar tipos de entrada y tipos de aspecto en varios proyectos mediante la API. Puedes limitar el ámbito de la solicitud de lista a un proyecto.
- No se admite el registro de lagos, zonas, recursos y entidades como entradas de Dataplex Universal Catalog. Esto significa que los metadatos de Data Catalog que están asociados a lagos, zonas, recursos y entidades no se transfieren al catálogo de Dataplex Universal Catalog. Además, cuando se usa la búsqueda del catálogo universal de Dataplex, no se pueden buscar zonas ni entidades, ni tampoco filtrar por lagos y zonas. Puedes usar lagos y zonas independientemente del catálogo en Dataplex Universal Catalog.
- No se admite la búsqueda de administradores, que garantiza que se recuerde todo. En su lugar, puede exportar metadatos a Cloud Storage y, a continuación, consultarlos desde BigQuery.
Para ver una comparación de las funciones y los recursos que se admiten en Dataplex Universal Catalog y Data Catalog, consulta la sección Comparación entre Dataplex Universal Catalog y Data Catalog de este documento.
Precios
Dataplex Universal Catalog usa la SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta los precios de Dataplex Universal Catalog.
No se aplican cargos por usar lo siguiente:
- Crear y gestionar recursos de catálogo en Dataplex Universal Catalog
- Llamadas a la API Search de Dataplex Universal Catalog
- Consultas de búsqueda realizadas en la página Dataplex Universal Catalog de laGoogle Cloud consola
Siguientes pasos
- Consulta cómo buscar recursos en Dataplex Universal Catalog.
- Consulta cómo gestionar recursos y enriquecer metadatos.
- Consulta cómo gestionar entradas e ingerir fuentes personalizadas.
- Consulta más información sobre la transición de Data Catalog a Dataplex Universal Catalog.
- Más información sobre cómo migrar glosarios a Dataplex Universal Catalog