Guía de inicio rápido: Crea y configura un lake
En esta guía de inicio rápido, se muestra cómo comenzar a usar Dataplex Universal Catalog en laGoogle Cloud consola. Para ello, se te guiará en la creación de un lake, la adición de una zona y la conexión de un recurso.
Antes de comenzar
- Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
- Crea un bucket de Cloud Storage:
- En la consola de Google Cloud , ve a la página Buckets de Cloud Storage.
- Haz clic en Crear.
- En la página Crear un bucket, ingresa la información de tu bucket. Para ir al paso siguiente, haz clic en Continuar.
- En Asigna un nombre a tu bucket, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
-
En la sección Elige dónde almacenar tus datos, haz lo siguiente:
- Selecciona un tipo de ubicación
- Elige una ubicación en la que se almacenen de forma permanente los datos de tu bucket en el menú desplegable Tipo de ubicación.
- Si seleccionas el tipo de ubicación birregional, también puedes habilitar la replicación turbo con la casilla de verificación correspondiente.
- Para configurar la replicación bucket buckets, selecciona
Agregar replicación entre bucket a través del Servicio de transferencia de almacenamiento y
sigue estos pasos:
Configura la replicación entre buckets
- En el menú Bucket, selecciona un bucket.
En la sección Configuración de replicación, haz clic en Configurar para configurar los parámetros del trabajo de replicación.
Aparecerá el panel Configurar la replicación entre buckets.
- Para filtrar los objetos que se replicarán por prefijo de nombre de objeto, ingresa un prefijo con el que quieras incluir o excluir objetos y, luego, haz clic en Agregar un prefijo.
- Para establecer una clase de almacenamiento para los objetos replicados, selecciona una clase de almacenamiento en el menú Clase de almacenamiento. Si omites este paso, los objetos replicados usarán la clase de almacenamiento del bucket de destino de forma predeterminada.
- Haz clic en Listo.
-
En la sección Elige cómo almacenar tus datos, haz lo siguiente:
- En la sección Establecer una clase predeterminada, selecciona lo siguiente: Estándar.
- Para habilitar el espacio de nombres jerárquico, en la sección Optimizar el almacenamiento para cargas de trabajo con uso intensivo de datos, selecciona Habilitar el espacio de nombres jerárquico en este bucket.
- En la sección Elige cómo controlar el acceso a los objetos, selecciona si tu bucket aplica o no la prevención del acceso público y elige un método de control de acceso para los objetos del bucket.
-
En la sección Elige cómo proteger los datos de objetos, haz lo siguiente:
- Selecciona cualquiera de las opciones de Protección de datos que
desees configurar para tu bucket.
- Para habilitar la eliminación no definitiva, haz clic en la casilla de verificación Política de eliminación no definitiva (para la recuperación de datos) y especifica la cantidad de días que deseas conservar los objetos después de la eliminación.
- Para configurar el control de versiones de objetos, haz clic en la casilla de verificación Control de versiones de objetos (para el control de versión) y especifica la cantidad máxima de versiones por objeto y la cantidad de días después de los cuales vencen las versiones no actuales.
- Para habilitar la política de retención en objetos y buckets, haz clic en la casilla de verificación Retención (para cumplimiento) y, luego, haz lo siguiente:
- Para habilitar el bloqueo de retención de objetos, haz clic en la casilla de verificación Habilitar la retención de objetos.
- Para habilitar el Bloqueo del bucket, haz clic en la casilla de verificación Establecer política de retención del bucket y elige una unidad de tiempo y una duración para tu período de retención.
- Para elegir cómo se encriptarán los datos de tus objetos, expande la sección Encriptación de datos () y selecciona un método de encriptación de datos.
- Selecciona cualquiera de las opciones de Protección de datos que
desees configurar para tu bucket.
- Haz clic en Crear.
Crea un lake
Un lake es una construcción lógica que representa un dominio de datos o una unidad de negocios. Por ejemplo, si necesitas organizar los datos según el uso del grupo, crearías un lake para cada departamento (por ejemplo, venta minorista, ventas y finanzas).
En los siguientes pasos, se muestra cómo crear un lago con la consola de Google Cloud .
En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.
Haz clic en Crear.
Ingresa un Nombre visible.
El ID del lago se genera automáticamente.
Especifica la región en la que se creará el lake.
En el caso de los lakes creados en una región determinada (por ejemplo,
us-central1), se pueden adjuntar datos de una sola región (us-central1) y datos multirregionales (us multi-region) según la configuración de la zona.Haz clic en Crear.
Agrega una zona a tu lake
Después de crear tu lake, puedes agregarle zonas. Las zonas son agrupaciones lógicas dentro de un lake que resultan útiles para categorizar datos estructurados y no estructurados.
En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una zona.
Haz clic en Agregar zona.
Ingresa un nombre visible para tu zona.
Haz clic en el menú desplegable Tipo. Elige Raw Zone o Curated Zone. Obtén más información sobre los tipos de zonas.
En Ubicaciones de datos, selecciona Regional o Multirregional. Lo que elijas no se podrá cambiar más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.
Haz clic en Crear.
La zona puede tardar unos minutos en crearse.
Cómo adjuntar un recurso
Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery, y se pueden conectar como recursos a zonas de datos dentro de un lake de Dataplex Universal Catalog.
Para adjuntar tu bucket de Cloud Storage como un recurso, sigue estos pasos:
En la vista Administrar, haz clic en el nombre del lake al que deseas adjuntar un bucket de Cloud Storage.
En la pestaña Zonas, haz clic en la zona a la que deseas agregar el activo.
En la pestaña Recursos, haz clic en Agregar recursos.
Haz clic en Agregar recurso.
En Tipo, selecciona Bucket de almacenamiento.
En Nombre visible, ingresa un nombre para el activo.
En el campo Bucket, haz clic en Explorar. Si tienes un bucket de Cloud Storage, búscalo y haz clic en Seleccionar. Si no tienes un bucket de Cloud Storage, puedes crear uno haciendo clic en el botón .
Ingresa un nombre único para el bucket. Haz clic en Continuar.
Elige un Tipo de ubicación. Haga clic en Continuar.
Elige una clase de almacenamiento predeterminada para tus datos. Haz clic en Continuar.
Elige un nivel de control de acceso. Haz clic en Continuar.
Elige una opción de protección de datos o Ninguna. Haga clic en Continuar.
Haz clic en Crear.
Haga clic en Seleccionar.
Haz clic en Listo.
Haz clic en Continuar.
En Configuración de detección, selecciona Heredar para heredar la configuración de detección del nivel de la zona.
Haz clic en Continuar.
En Agregar recursos, haz clic en Enviar.
Espera a que finalice la creación del activo.
Para usar tu lake, consulta la sección Próximos pasos. De lo contrario, borra los recursos que creaste siguiendo los pasos de limpieza.
Realiza una limpieza
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
- En la Google Cloud consola, ve a la página Administrar recursos.
- Si el proyecto que deseas borrar está vinculado con una organización, expande la lista Organización en la columna Nombre.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Como alternativa, puedes borrar los recursos que se usan en este instructivo. Un lake no se borra hasta que borras todos sus recursos de zona de datos. Del mismo modo, no se borra una zona de datos a menos que borres todos sus recursos de activos.
Desvincula el bucket de almacenamiento
Para separar el recurso de Dataplex Universal Catalog que creaste, sigue estos pasos:
En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.
Haz clic en el nombre del lago que creaste.
En la pestaña Zonas, haz clic en el nombre de la zona que creaste.
En la pestaña Recursos, selecciona el recurso que deseas separar marcando la casilla a la izquierda del nombre del bucket.
Haz clic en Borrar recurso.
Haz clic en Borrar para confirmar la separación.
Borra la zona
Para borrar la zona de Dataplex Universal Catalog que creaste, sigue estos pasos:
En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.
Haz clic en el lake que creaste.
En la pestaña Zonas, selecciona la zona que deseas borrar marcando la casilla que se encuentra a la izquierda del nombre de la zona de datos.
Haz clic en Borrar zona.
Haz clic en Borrar para confirmar esta acción.
Borra el lake
En los siguientes pasos, se muestra cómo borrar el lake de Dataplex Universal Catalog que creaste.
En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.
Haz clic en el lake que creaste.
Haz clic en Borrar en la parte superior de la página.
Para confirmar la eliminación, escribe "delete" en el campo.
Haz clic en Borrar lake para confirmar la eliminación.