Crea un lake de Knowledge Catalog

En este documento, se describe cómo crear un lake de Knowledge Catalog (anteriormente, Dataplex Universal Catalog). Puedes crear un lake en cualquiera de las regiones que admiten Knowledge Catalog.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Control de acceso

  1. Para crear y administrar tu lago, asegúrate de tener los roles predefinidos roles/dataplex.admin o roles/dataplex.editor otorgados. Para obtener más información, consulta Otorga un solo rol.

  2. Para adjuntar un bucket de Cloud Storage de otro proyecto a tu lago, otorga a la siguiente cuenta de servicio de Knowledge Catalog un rol de administrador en el bucket ejecutando el siguiente comando:

    gcloud dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un almacén de metadatos

Puedes acceder a los metadatos de Knowledge Catalog con Hive Metastore en consultas de Spark asociando una instancia del servicio de Dataproc Metastore con tu lake de Knowledge Catalog. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Knowledge Catalog.

  1. Crea un servicio de Dataproc Metastore.

  2. Configura la instancia del servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Visualiza el extremo de gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake

Console

  1. En la consola de Google Cloud , ve a la página Lakes de Knowledge Catalog.

    Ir a Lakes

  2. Haga clic en Crear.

  3. Ingresa un Nombre visible.

  4. El ID del lago se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta Convención de asignación de nombres de recursos.

  5. Escribe una descripción (opcional).

  6. Especifica la región en la que se creará el lake.

    En el caso de los lakes creados en una región determinada (por ejemplo, us-central1), puedes adjuntar datos de una sola región (us-central1) y datos multirregionales (us multi-region) según la configuración de la zona.

  7. Agrega etiquetas a tu lake (opcional).

  8. Opcional: En la sección Metastore, haz clic en el menú Servicio de Metastore y selecciona el servicio que creaste en la sección Antes de comenzar.

  9. Haz clic en Crear.

gcloud

Para crear un lago, usa el comando gcloud dataplex lakes create:

gcloud dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Reemplaza lo siguiente:

  • LAKE: Nombre del nuevo lago
  • LOCATION: Se refiere a una Google Cloud región.
  • k1=v1,k2=v2,k3=v3: Etiquetas utilizadas (si las hay)
  • METASTORE_SERVICE: Es el servicio de Dataproc Metastore, si se creó.

REST

Para crear un lago, usa el método lakes.create.

¿Qué sigue?