Este documento descreve como criar um lake do Knowledge Catalog (antigo Dataplex Universal Catalog). É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Knowledge Catalog.
Antes de começar
- Faça login nasua Google Cloud conta. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Controle de acesso
Para criar e gerenciar seu lake, verifique se você tem os papéis predefinidos
roles/dataplex.adminouroles/dataplex.editorconcedidos. Para mais informações, consulte Conceder um único papel.Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do Knowledge Catalog uma função de administrador no bucket executando o comando abaixo:
gcloud dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Criar um metastore
É possível acessar os metadados do Knowledge Catalog usando o Hive Metastore em consultas do Spark associando uma instância de serviço do Dataproc Metastore ao seu lake do Knowledge Catalog. É necessário ter um metastore do Dataproc ativado para gRPC (versão 3.1.2 ou mais recente) associado ao lake do Knowledge Catalog.
Crie um serviço Metastore do Dataproc.
Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore padrão):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'Confira o endpoint gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Criar um lake
Console
No Google Cloud console, acesse a página Lakes do Knowledge Catalog.
Clique em Criar.
Insira um Nome de exibição.
O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio ID. Consulte a Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1), é possível anexar dados de uma região (us-central1) e de várias regiões (us multi-region), dependendo das configurações de zona.Opcional: adicione rótulos ao lake.
Opcional: na seção Metastore, clique no menu Serviço do metastore e selecione o serviço criado na seção Antes de começar.
Clique em Criar.
gcloud
Para criar um lake, use o comando gcloud dataplex lakes create:
gcloud dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua:
LAKE: nome do novo lakeLOCATION: refere-se a uma Google Cloud regiãok1=v1,k2=v2,k3=v3: rótulos usados (se houver)METASTORE_SERVICE: o serviço Metastore do Dataproc, se criado
REST
Para criar um lake, use o lakes.create método.
A seguir
- Saiba como adicionar zonas a um lake.
- Saiba como anexar recursos a uma zona.
- Saiba como proteger seu lake.
- Saiba como gerenciar seu lake.