Criar um lake do Knowledge Catalog

Este documento descreve como criar um lake do Knowledge Catalog (antigo Dataplex Universal Catalog). É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Knowledge Catalog.

Antes de começar

  1. Faça login nasua Google Cloud conta. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Controle de acesso

  1. Para criar e gerenciar seu lake, verifique se você tem os papéis predefinidos roles/dataplex.admin ou roles/dataplex.editor concedidos. Para mais informações, consulte Conceder um único papel.

  2. Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do Knowledge Catalog uma função de administrador no bucket executando o comando abaixo:

    gcloud dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Criar um metastore

É possível acessar os metadados do Knowledge Catalog usando o Hive Metastore em consultas do Spark associando uma instância de serviço do Dataproc Metastore ao seu lake do Knowledge Catalog. É necessário ter um metastore do Dataproc ativado para gRPC (versão 3.1.2 ou mais recente) associado ao lake do Knowledge Catalog.

  1. Crie um serviço Metastore do Dataproc.

  2. Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore padrão):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Confira o endpoint gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Criar um lake

Console

  1. No Google Cloud console, acesse a página Lakes do Knowledge Catalog.

    Acessar lakes

  2. Clique em Criar.

  3. Insira um Nome de exibição.

  4. O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio ID. Consulte a Convenção de nomenclatura de recursos.

  5. Opcional: digite uma Descrição.

  6. Especifique a Região em que o lake será criado.

    Para lakes criados em uma determinada região (por exemplo, us-central1), é possível anexar dados de uma região (us-central1) e de várias regiões (us multi-region), dependendo das configurações de zona.

  7. Opcional: adicione rótulos ao lake.

  8. Opcional: na seção Metastore, clique no menu Serviço do metastore e selecione o serviço criado na seção Antes de começar.

  9. Clique em Criar.

gcloud

Para criar um lake, use o comando gcloud dataplex lakes create:

gcloud dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Substitua:

  • LAKE: nome do novo lake
  • LOCATION: refere-se a uma Google Cloud região
  • k1=v1,k2=v2,k3=v3: rótulos usados (se houver)
  • METASTORE_SERVICE: o serviço Metastore do Dataproc, se criado

REST

Para criar um lake, use o lakes.create método.

A seguir