O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerenciar e acessar seus metadados. Este documento descreve os recursos de gerenciamento de metadados do Dataplex Universal Catalog.
O Dataplex Universal Catalog oferece um inventário unificado de recursos Google Cloud e locais. Os metadados dos recursos Google Cloud são recuperados e armazenados automaticamente pelo Dataplex Universal Catalog. Também é possível trazer seus próprios metadados de recursos de terceiros para o Dataplex Universal Catalog.
É possível enriquecer seu inventário com metadados técnicos e comerciais adicionais que capturam o contexto e o conhecimento sobre seus recursos. Você também pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados nos seus recursos.
Você pode definir o Catálogo Universal do Dataplex como sua experiência de catálogo padrão. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Como funciona o gerenciamento de metadados
Os recursos de gerenciamento de metadados no Dataplex Universal Catalog são baseados nos seguintes conceitos:
- Entrada
Uma entrada representa um recurso de dados. Isso é semelhante a
Exemplo: uma tabela do BigQuery chamada
test-project.sales_data.customer_ordersé representada como uma entrada.Uma coluna de uma entrada representa uma subseção específica de um recurso de dados, como uma única coluna em uma tabela do BigQuery ou um campo em um arquivo JSON. Com as colunas, é possível anexar metadados a campos individuais em uma entrada, não apenas à entrada como um todo. As colunas não são definidas diretamente. Elas são criadas quando você anexa um aspecto do tipo
schemaa uma entrada. As colunas também são chamadas de caminhos.Exemplo: para descrever o campo
email_addressna entradacustomer_orderscomo contendo informações de identificação pessoal (PII), anexe um aspecto à colunaemail_address.Para mais informações sobre entradas, consulte Entradas.
- Aspecto
Um aspecto é um conjunto de campos de metadados relacionados. Você pode anexar
um aspecto de uma entrada para descrever a entrada como um todo. A maioria dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às tags no Data Catalog. No entanto, os aspectos são armazenados em entradas, não como recursos independentes.
Exemplo: para definir todas as colunas da entrada
customer_orders, comoorder_id,order_dateeemail_address, anexe um aspectoschemaà entradacustomer_orders. Para especificar que a colunaemail_addresscontém um endereço de e-mail, anexe um aspectoschemaà colunaemail_address.Para mais informações sobre aspectos, consulte Aspectos.
- Tipo de entrada
Um tipo de entrada é um modelo para criar entradas. Ele estabelece
os elementos essenciais de metadados, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Um tipo de entrada especifica quais tipos de aspectos são obrigatórios para um recurso de dados específico.
Exemplo: para garantir que todas as entradas tenham os metadados necessários, crie um tipo de entrada chamado
StandardOperationalTableque exija um aspectoOwnerInfopara ser anexado a qualquer nova entrada desse tipo.Para mais informações sobre os tipos de entradas, consulte Tipos de entradas.
- Tipo de aspecto
Um tipo de aspecto é um modelo reutilizável de aspectos. Todos os aspectos
é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog.
Exemplo: para definir um modelo reutilizável de dados de contato, você pode definir um tipo de aspecto chamado
ContactInfocom campos paraowner_name,emailesupport_team. Em seguida, crie aspectosContactInfocom base nesse modelo e anexe-os a entradas ou colunas.Para mais informações sobre os tipos de aspectos, consulte Tipos de aspectos.
- Grupo de entradas
Um grupo de entrada é um contêiner de entradas que serve como um
unidade de gerenciamento dessas entradas. Por exemplo, use um grupo de entradas para configurar o controle de acesso do Identity and Access Management, a atribuição do projeto ou o local das entradas no grupo. Isso é semelhante aos grupos de entradas no Data Catalog.
Exemplo: uma equipe financeira quer gerenciar as permissões de todas as tabelas de uma só vez. Eles podem criar um grupo de entradas chamado
production_finance_datae incluir as entradas das tabelascustomer_orders,quarterly_revenueeemployee_salariesnele.Para mais informações sobre grupos de entradas, consulte Grupos de entradas.
Figura 1. Entradas e grupos de entradas
Figura 2. Tipos de aspecto e tipos de entrada
Dataplex Universal Catalog x Data Catalog
O Dataplex Universal Catalog oferece recursos integrados para gerenciar seus metadados. O armazenamento de metadados e os métodos de API são integrados à API Dataplex.
Os principais recursos de gerenciamento de metadados no Dataplex Universal Catalog incluem o seguinte:
Metamodelo mais robusto
- Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
- Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a abrangência dos metadados personalizados.
- Suporte a uma variedade e complexidade maiores de metadados, incluindo estruturas de aninhamento, como listas, mapas e matrizes.
Melhor escalonabilidade, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por meio de operações CRUD atômicas únicas e de buscar várias anotações de metadados associadas em respostas de pesquisa ou lista.
A tabela a seguir compara os recursos de gerenciamento de metadados do Dataplex Universal Catalog e do Data Catalog:
| Recurso | Dataplex Universal Catalog | Data Catalog |
|---|---|---|
| Fontes Google Cloud compatíveis | Todas as fontes descritas na seção Fontes Google Cloud compatíveis deste documento. | Todas as fontes descritas em Entradas e grupos de entradas. |
| Ingestão de fontes personalizadas | Ingestão em entradas personalizadas com estrutura controlada, definida por tipos de entrada. As entradas e os grupos de entrada personalizados do Data Catalog são disponibilizados no
Dataplex Universal Catalog no tipo de entrada | Ingestão em entradas personalizadas genéricas. |
| Enriquecimento de metadados | O contexto de metadados para entradas é capturado usando glossários de negócios, aspectos e tipos de aspectos. | O contexto dos metadados para entradas é capturado usando glossários de negócios, tags e modelos de tag. |
| Pesquisar | A pesquisa é realizada nos seguintes itens:
Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro da VPC-SC que o projeto em que a pesquisa é realizada. Ao usar o console Google Cloud , esse é o projeto selecionado no console. Para pesquisar entradas, você precisa de pelo menos uma das seguintes funções do IAM no projeto usado para pesquisa: administrador do Dataplex Catalog, editor do Dataplex Catalog ou leitor do Dataplex Catalog. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado. |
A pesquisa é realizada nos seguintes itens:
|
| Linhagem de dados |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex. O console Google Cloud mostra os aspectos anexados. |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog. |
| Glossários de negócios |
Com o glossário de negócios, é possível criar uma taxonomia para termos comerciais e associá-los a recursos e colunas de dados. Use a pesquisa para descobrir recursos vinculados a um termo. |
Com o glossário de negócios, você pode criar uma taxonomia para termos comerciais e associá-los a colunas. Use a pesquisa para descobrir recursos vinculados a um termo. |
A tabela a seguir descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:
| Recurso do Dataplex Universal Catalog | Recurso do Data Catalog | Descrição |
|---|---|---|
Tipo de aspecto (global) |
Modelo de tag pública | Os modelos de tag são recursos regionais. No entanto, é possível usá-las para criar
tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no Dataplex Universal Catalog. |
| Aspecto opcional | Tag pública | As tags públicas no Data Catalog correspondem a aspectos opcionais no Dataplex Universal Catalog. |
| Grupo de entradas | Grupo de entradas | Para fontes de Google Cloud , os grupos de entrada do sistema, como @bigquery, são estabelecidos por projeto no Dataplex Universal Catalog. |
| Aspectos obrigatórios da entrada personalizada | Entrada personalizada | O Data Catalog e o Dataplex Universal Catalog compartilham conceitos semelhantes para entradas personalizadas. As propriedades de entrada padrão são modeladas como aspectos obrigatórios no Dataplex Universal Catalog. |
| Aspectos obrigatórios para entrada no sistema | Entrada do sistema (Google Cloud) | Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados nos aspectos obrigatórios dos tipos de aspectos definidos pelo sistema. |
| Glossários de negócios | Glossários de negócios | Use glossários para criar uma taxonomia de termos comerciais, padronizando o contexto de negócios em toda a empresa. |
Para mais informações sobre os recursos disponíveis no Data Catalog, mas não compatíveis com o Dataplex Universal Catalog, consulte a seção Recursos de gerenciamento de metadados não compatíveis com o Dataplex Universal Catalog neste documento.
Para usuários atuais do Data Catalog
Se você já estiver usando o Data Catalog, observe o seguinte:
- As entradas personalizadas, o contexto da visão geral, os glossários e os grupos de entradas criados no Data Catalog ficam disponíveis no Dataplex Universal Catalog.
- Como administrador, você pode disponibilizar simultaneamente o conteúdo dos modelos de tag e das tags do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
- Ao pesquisar recursos de dados no Dataplex Universal Catalog, os metadados criados diretamente nele e os metadados trazidos do Data Catalog são incluídos.
- Ao pesquisar recursos de dados no Data Catalog, somente os metadados criados nele são incluídos.
- As descrições de grupos de entrada no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no Dataplex Universal Catalog.
- Como administrador, para disponibilizar no Dataplex Universal Catalog os glossários e links associados entre termos comerciais e colunas criados no Data Catalog, siga o processo de transição.
Para mais informações sobre como fazer a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Mapear métodos da API Data Catalog para o Dataplex Universal Catalog
Se você estiver migrando do Data Catalog para o Dataplex Universal Catalog, será necessário atualizar seus fluxos de trabalho programáticos para usar a API Dataplex. Esta seção fornece um mapeamento entre a API Data Catalog e a API Dataplex.
Para mais informações sobre os métodos da API Dataplex Universal Catalog, consulte a documentação da API Dataplex para métodos REST e a documentação da API Dataplex para métodos RPC.
As tabelas a seguir fornecem um mapeamento dos métodos da API Data Catalog para os equivalentes na API Dataplex.
Grupos de entradas
O conceito de grupos de entrada é o mesmo no Dataplex Universal Catalog e no Data Catalog.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
Entradas
O conceito de entradas, que representam recursos de dados, é semelhante no Dataplex Universal Catalog e no Data Catalog.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
entries.lookup (REST)LookupEntry (RPC) |
projects.locations.entries.lookup (REST)LookupEntry (RPC)
Observação:para usar os métodos |
entries.modifyEntryContacts (REST)ModifyEntryContacts (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Observação:ao migrar do método |
entries.modifyEntryOverview (REST)ModifyEntryOverview (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Observação:ao migrar do método |
projects.locations.entryGroups.entries.reconcileTags (REST)ReconcileTags (RPC) |
projects.locations.metadataJobs.create (REST)CreateMetadataJob (RPC),projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Observação:ao migrar do método |
catalog.search (REST)SearchCatalog (RPC) |
projects.locations.searchEntries (REST)SearchEntries (RPC)
Observação:os métodos |
Modelos de tag e tags
No Dataplex Universal Catalog, os tipos de aspecto são os sucessores dos modelos de tag do Data Catalog, e os aspectos são os sucessores das tags do Data Catalog.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.tagTemplates.create (REST)CreateTagTemplate (RPC) |
projects.locations.aspectTypes.create (REST)CreateAspectType (RPC) |
projects.locations.tagTemplates.get (REST)GetTagTemplate (RPC) |
projects.locations.aspectTypes.get (REST)GetAspectType (RPC) |
projects.locations.tagTemplates.patch (REST)UpdateTagTemplate (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.delete (REST)DeleteTagTemplate (RPC) |
projects.locations.aspectTypes.delete (REST)DeleteAspectType (RPC) |
catalog.search (REST) com predicado type=tag_templateSearchCatalog (RPC) com predicado type=tag_template |
projects.locations.aspectTypes.list (REST)ListAspectTypes (RPC) |
Campos do modelo de tag
Os campos de modelo de tag correspondem ao conteúdo do campo metadata_template
em um tipo de aspecto. Para migrar uma operação no nível do campo do Data Catalog, use a operação UpdateAspectType com o payload correspondente no Dataplex Universal Catalog.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.tagTemplates.fields.create (REST)CreateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.patch (REST)UpdateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.rename (REST)RenameTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.delete (REST)DeleteTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Valores de enumeração de campos de modelo de tag
Assim como nos campos de modelo de tag, é possível editar valores de enumeração na API Dataplex
modificando o campo metadata_template no tipo de aspecto correspondente.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.tagTemplates.fields.enumValues.rename (REST)RenameTagTemplateFieldEnumValue (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Tags
Os aspectos são os sucessores das tags do Data Catalog. Os aspectos não são recursos independentes e são encapsulados nas entradas principais. O parâmetro
field_mask pode ser usado para atualizar seletivamente um único aspecto de uma
entrada.
| Método da API Data Catalog | Método da API Dataplex |
|---|---|
projects.locations.entryGroups.entries.tags.create (REST)CreateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.list (REST)ListTags (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC)
Observação:para limitar a resposta apenas aos aspectos necessários, use os parâmetros |
projects.locations.entryGroups.entries.tags.patch (REST)UpdateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.delete (REST)DeleteTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
Tags de política e taxonomias
Essas APIs não vão mudar e, portanto, não precisam ser migradas.
Fontes compatíveis
- Descoberta automática de dados do Cloud Storage
- Os metadados das seguintes fontes do Google Cloud são ingeridos automaticamente no Dataplex Universal Catalog:
- Clusters, instâncias, bancos de dados, esquemas, tabelas e visualizações do AlloyDB para PostgreSQL. Consulte Ativar a integração do AlloyDB para PostgreSQL (pré-lançamento).
- Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
- Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Repositórios do Dataform e recursos de código
- Instâncias, bancos de dados, esquemas, tabelas, visualizações do Cloud SQL. Consulte Como ativar a integração do Cloud SQL
- Serviços, bancos de dados e tabelas do Dataproc Metastore
- Tópicos do Pub/Sub
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
- Modelos, conjuntos de dados, grupos de recursos, visualizações de recursos e instâncias de loja on-line da Vertex AI
Para importar metadados de uma fonte terceirizada para o Dataplex Universal Catalog, use um pipeline de conectividade gerenciada.
Restrições de projeto e local
Os recursos do catálogo no Dataplex Universal Catalog estão em vários projetos e locais. Considere as seguintes limitações:
Local:
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
global. - Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser
global. - Um tipo de entrada precisa ser composto de tipos de aspecto armazenados no mesmo local que o tipo de entrada.
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
Projeto:
- Se um tipo de entrada fizer referência a tipos personalizados de aspecto, eles precisarão estar no mesmo local e projeto do tipo de entrada.
Recursos de gerenciamento de metadados que não são compatíveis com o Dataplex Universal Catalog
Os seguintes recursos disponíveis no Data Catalog não são compatíveis com o Dataplex Universal Catalog:
- O conceito de aspectos particulares e tipos de aspectos particulares (equivalentes a tags particulares e modelos de tags particulares no Data Catalog) não existe no Dataplex Universal Catalog.
- A pesquisa de tags de política não é compatível com a pesquisa do Dataplex Universal Catalog. Portanto, os predicados
policytagepolicytagidnão funcionam na pesquisa do Dataplex Universal Catalog. - Quando você traz grupos de entrada personalizados, entradas personalizadas, modelos de tag e tags do Data Catalog para o Dataplex Universal Catalog, as permissões originais não são transferidas. É necessário configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
- Não é possível enviar resultados de inspeção da Proteção de Dados Sensíveis diretamente para o catálogo no Dataplex Universal Catalog. Em vez disso, é possível enviar os resultados da inspeção da Proteção de Dados Sensíveis para o Data Catalog e fazer a transição dos resultados para o Dataplex Universal Catalog.
- Não é possível listar tipos de entrada e tipos de aspecto em projetos usando a API. É possível restringir a solicitação de lista a um projeto.
- Não é possível registrar lakes, zonas, recursos e entidades como entradas do Dataplex Universal Catalog. Isso significa que os metadados do Data Catalog anexados a data lakes, zonas, recursos e entidades não são transferidos para o catálogo no Dataplex Universal Catalog. Além disso, ao usar a pesquisa do Dataplex Universal Catalog, não é possível pesquisar zonas e entidades nem filtrar por lakes e zonas. É possível usar lakes e zonas de forma independente do catálogo no Dataplex Universal Catalog.
- A pesquisa de administrador, que garante o recall completo, não é compatível. Em vez disso, é possível exportar metadados para o Cloud Storage e consultá-los no BigQuery.
Para uma comparação dos recursos e recursos compatíveis com o Dataplex Universal Catalog e o Data Catalog, consulte a seção Dataplex Universal Catalog x Data Catalog neste documento.
Preços
O Dataplex Universal Catalog usa a SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte os preços do Dataplex Universal Catalog.
Não há cobranças para usar o seguinte:
- Criar e gerenciar recursos do catálogo no Dataplex Universal Catalog
- Chamadas da API Search para o Dataplex Universal Catalog
- Consultas de pesquisa realizadas na página do Universal Catalog do Dataplex no console Google Cloud
A seguir
- Saiba como pesquisar recursos no Dataplex Universal Catalog.
- Saiba como gerenciar recursos e enriquecer metadados.
- Saiba como gerenciar entradas e ingerir fontes personalizadas.
- Saiba mais sobre a transição do Data Catalog para o Dataplex Universal Catalog.
- Saiba mais sobre como fazer a transição de glossários para o Dataplex Universal Catalog.