Criar um lake do Knowledge Catalog

Este documento descreve como criar um data lake do Knowledge Catalog (antigo Dataplex Universal Catalog). É possível criar um lake em qualquer uma das regiões compatíveis com o Catálogo de dados.

Antes de começar

  1. Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Controle de acesso

  1. Para criar e gerenciar seu lake, verifique se você tem as funções predefinidas roles/dataplex.admin ou roles/dataplex.editor concedidas. Para mais informações, consulte Conceder um único papel.

  2. Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do Knowledge Catalog uma função de administrador no bucket executando o comando a seguir:

    gcloud dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Criar um metastore

É possível acessar os metadados do Knowledge Catalog usando o metastore do Hive em consultas do Spark ao associar uma instância do serviço Metastore do Dataproc ao seu data lake do Knowledge Catalog. Você precisa ter um metastore do Dataproc (versão 3.1.2 ou mais recente) compatível com gRPC associado ao lake do Knowledge Catalog.

  1. Crie um serviço do metastore do Dataproc.

  2. Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore padrão):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Veja o endpoint do gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Criar um lake

Console

  1. No console Google Cloud , acesse a página Lakes do Knowledge Catalog.

    Acessar "Lagos"

  2. Clique em Criar.

  3. Insira um Nome de exibição.

  4. O ID do data lake é gerado automaticamente para você. Se preferir, você pode fornecer seu próprio ID. Consulte Convenção de nomenclatura de recursos.

  5. Opcional: digite uma Descrição.

  6. Especifique a Região em que o lake será criado.

    Para lakes criados em uma determinada região (por exemplo, us-central1), é possível anexar dados de uma região (us-central1) e dados multirregionais (us multi-region), dependendo das configurações de zona.

  7. Opcional: adicione rótulos ao lake.

  8. Opcional: na seção Metastore, clique no menu Serviço do metastore e selecione o serviço criado na seção Antes de começar.

  9. Clique em Criar.

gcloud

Para criar um lake, use o comando gcloud dataplex lakes create:

gcloud dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Substitua:

  • LAKE: nome do novo lake
  • LOCATION: refere-se a uma Google Cloud região.
  • k1=v1,k2=v2,k3=v3: rótulos usados (se houver)
  • METASTORE_SERVICE: o serviço do metastore do Dataproc, se criado

REST

Para criar um lake, use o método lakes.create.

A seguir