Crear un perfil de tus datos

En este documento se explica cómo usar los análisis de perfil de datos para conocer mejor sus datos. BigQuery usa el catálogo universal de Dataplex para analizar las características estadísticas de tus datos, como los valores medios, los valores únicos y los valores máximos. Dataplex Universal Catalog también usa esta información para recomendar reglas para las comprobaciones de calidad de los datos.

Para obtener más información sobre la creación de perfiles de datos, consulta el artículo Acerca de la creación de perfiles de datos.

Antes de empezar

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Roles obligatorios

Para obtener los permisos que necesitas para crear y gestionar análisis de perfil de datos, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tu recurso, como el proyecto o la tabla:

  • Para crear, ejecutar, actualizar y eliminar análisis de perfil de datos, debe tener el rol Editor de DataScan de Dataplex (roles/dataplex.dataScanEditor) en el proyecto que contiene el análisis de datos.
  • Para permitir que Dataplex Universal Catalog ejecute análisis de perfil de datos en datos de BigQuery, asigna los siguientes roles a la cuenta de servicio de Dataplex Universal Catalog: Rol Usuario de tareas de BigQuery (roles/bigquery.jobUser) en el proyecto que ejecuta el análisis. Rol Lector de datos de BigQuery (roles/bigquery.dataViewer) en las tablas que se analizan.
  • Para ejecutar análisis de perfil de datos en tablas externas de BigQuery que usen datos de Cloud Storage, haz lo siguiente: Asigna a la cuenta de servicio de Universal Catalog de Dataplex los roles Lector de objetos de Storage (roles/storage.objectViewer) y Lector de buckets antiguos de Storage (roles/storage.legacyBucketReader) en el bucket de Cloud Storage.
  • Para ver los resultados, los trabajos y el historial de los análisis de perfil de datos, debes tener el rol Visor de DataScan de Dataplex (roles/dataplex.dataScanViewer) en el proyecto que contiene el análisis de datos.
  • Para exportar los resultados del análisis de perfil de datos a una tabla de BigQuery, debes tener la función Editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla.
  • Para publicar los resultados del análisis de perfil de datos en Dataplex Universal Catalog, haz lo siguiente: Rol Editor de catálogo de Dataplex (roles/dataplex.catalogEditor) en el grupo de entradas @bigquery.
  • Para ver los resultados de los análisis de perfil de datos publicados en BigQuery en la pestaña Perfil de datos, sigue estos pasos: Función Lector de datos de BigQuery (roles/bigquery.dataViewer) en la tabla.

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Permisos obligatorios

Si usas roles personalizados, debes conceder los siguientes permisos de gestión de identidades y accesos:

  • Para crear, ejecutar, actualizar y eliminar análisis de perfil de datos, sigue estos pasos:
    • dataplex.datascans.create en el proyecto: crea un DataScan
    • dataplex.datascans.update en el análisis de datos: actualiza la descripción de un DataScan
    • dataplex.datascans.delete en el análisis de datos: elimina un DataScan
    • dataplex.datascans.run en el análisis de datos: ejecuta una DataScan
    • dataplex.datascans.get en el análisis de datos: consulta los detalles de DataScan, sin incluir los resultados
    • dataplex.datascans.list en el proyecto: lista de DataScan
    • dataplex.dataScanJobs.get en el trabajo de análisis de datos: lectura de recursos de trabajos de DataScan
    • dataplex.dataScanJobs.list en el análisis de datos: muestra los recursos de tareas de DataScan de un proyecto.
  • Para permitir que Dataplex Universal Catalog ejecute análisis de perfiles de datos en datos de BigQuery, haz lo siguiente:
    • bigquery.jobs.create en el proyecto: ejecuta tareas
    • bigquery.tables.get en una tabla: obtiene los metadatos de la tabla.
    • bigquery.tables.getData en la tabla: obtener datos de la tabla
  • Para ejecutar análisis de perfil de datos en tablas externas de BigQuery que usen datos de Cloud Storage, haz lo siguiente:
    • storage.buckets.get en el segmento: lee los metadatos del segmento.
    • storage.objects.get en el objeto: lee los datos del objeto.
  • Para ver los resultados, los trabajos y el historial de los análisis de perfil de datos, sigue estos pasos:
    • dataplex.datascans.getData en el análisis de datos: consulta los detalles de DataScan, incluidos los resultados
    • dataplex.datascans.list en el proyecto: lista de DataScan
    • dataplex.dataScanJobs.get en el trabajo de análisis de datos: lectura de recursos de trabajos de DataScan
    • dataplex.dataScanJobs.list en el análisis de datos: muestra los recursos de tareas de DataScan de un proyecto.
  • Para exportar los resultados del análisis de perfil de datos a una tabla de BigQuery, sigue estos pasos:
    • bigquery.tables.create en el conjunto de datos—Crear tablas
    • bigquery.tables.updateData en la tabla: escribe datos en las tablas.
  • Para publicar los resultados del análisis de perfil de datos en Dataplex Universal Catalog, haz lo siguiente:
    • dataplex.entryGroups.useDataProfileAspect en el grupo de entradas: permite que los análisis de perfil de datos de Dataplex Universal Catalog guarden sus resultados en Dataplex Universal Catalog.
    • Además, necesitas uno de los siguientes permisos:
      • bigquery.tables.update en la tabla: actualiza los metadatos de la tabla.
      • dataplex.entries.update en una entrada: actualizar entradas
  • Para ver los resultados de los perfiles de datos publicados de una tabla en BigQuery o Dataplex Universal Catalog, sigue estos pasos:
    • bigquery.tables.get en una tabla: obtiene los metadatos de la tabla.
    • bigquery.tables.getData en la tabla: obtener datos de la tabla

Si una tabla usa la seguridad a nivel de fila de BigQuery, Dataplex Universal Catalog solo puede analizar las filas visibles para la cuenta de servicio de Dataplex Universal Catalog. Para permitir que Dataplex Universal Catalog analice todas las filas, añade su cuenta de servicio a un filtro de filas en el que el predicado sea TRUE.

Si una tabla usa la seguridad a nivel de columna de BigQuery, Dataplex Universal Catalog requiere acceso para analizar las columnas protegidas. Para conceder acceso, asigna a la cuenta de servicio de Dataplex Universal Catalog el rol Lector pormenorizado de Data Catalog (roles/datacatalog.fineGrainedReader) en todas las etiquetas de política que se usen en la tabla. El usuario que cree o actualice un análisis de datos también necesita permisos en las columnas protegidas.

Conceder roles a la cuenta de servicio de Dataplex Universal Catalog

Para ejecutar análisis de perfil de datos, Dataplex Universal Catalog usa una cuenta de servicio que requiere permisos para ejecutar tareas de BigQuery y leer datos de tablas de BigQuery. Para conceder los roles necesarios, sigue estos pasos:

  1. Obtén la dirección de correo de la cuenta de servicio de Dataplex Universal Catalog. Si no has creado un perfil de datos o un análisis de calidad de los datos en este proyecto, ejecuta el siguiente comando gcloud para generar la identidad de servicio:

    gcloud beta services identity create --service=dataplex.googleapis.com
    

    El comando devuelve el correo de la cuenta de servicio, que tiene el siguiente formato: service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com.

    Si la cuenta de servicio ya existe, puedes encontrar su correo consultando los principales con el nombre Dataplex en la página IAM de la consola Google Cloud .

  2. Asigna a la cuenta de servicio el rol Usuario de tareas de BigQuery (roles/bigquery.jobUser) en tu proyecto. Este rol permite que la cuenta de servicio ejecute tareas de BigQuery para el análisis.

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.jobUser"
    

    Haz los cambios siguientes:

    • PROJECT_ID: tu ID de proyecto Google Cloud .
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: el correo de la cuenta de servicio de Dataplex Universal Catalog.
  3. Asigna a la cuenta de servicio el rol Lector de datos de BigQuery (roles/bigquery.dataViewer) para cada tabla que quieras perfilar. Este rol concede acceso de solo lectura a las tablas.

    gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.dataViewer"
    

    Haz los cambios siguientes:

    • DATASET_ID: el ID del conjunto de datos que contiene la tabla.
    • TABLE_ID: el ID de la tabla que se va a analizar.
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: el correo de la cuenta de servicio de Dataplex Universal Catalog.

      Crear un análisis de perfil de datos

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Perfil y calidad de los datos

      2. Haz clic en Crear análisis de perfil de datos.

      3. Opcional: Introduce un Nombre visible.

      4. Introduce un ID. Consulta las convenciones para asignar nombres de recursos.

      5. Opcional: Introduce una Descripción.

      6. En el campo Tabla, haz clic en Buscar. Elige la tabla que quieras escanear y, a continuación, haz clic en Seleccionar.

        En el caso de las tablas de conjuntos de datos multirregionales, elige una región en la que crear el análisis de datos.

        Para consultar las tablas organizadas en los lagos de Dataplex Universal Catalog, haz clic en Consultar en lagos de Dataplex.

      7. En el campo Permiso, elija Incremental o Todos los datos.

        • Si elige Datos incrementales, en el campo Columna de marca de tiempo, seleccione una columna de tipo DATE o TIMESTAMP de su tabla de BigQuery que aumente a medida que se añadan registros nuevos y que se pueda usar para identificar registros nuevos. En las tablas con particiones basadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como campo de marca de tiempo.
      8. Opcional: Para filtrar los datos, haga lo siguiente:

        • Para filtrar por filas, seleccione la casilla Filtrar filas. Introduce una expresión SQL válida que se pueda usar en una cláusula WHERE con sintaxis de GoogleSQL. Por ejemplo: col1 >= 0.

          El filtro puede ser una combinación de condiciones SQL en varias columnas. Por ejemplo: col1 >= 0 AND col2 < 10.

        • Para filtrar por columnas, marque la casilla Filtrar columnas.

          • Para incluir columnas en el análisis del perfil, en el campo Incluir columnas, haga clic en Examinar. Seleccione las columnas que quiera incluir y, a continuación, haga clic en Seleccionar.

          • Para excluir columnas del análisis del perfil, en el campo Excluir columnas, haga clic en Examinar. Selecciona las columnas que quieras excluir y haz clic en Seleccionar.

      9. Para aplicar el muestreo al análisis de perfil de datos, en la lista Tamaño del muestreo, seleccione un porcentaje de muestreo. Elige un valor porcentual entre 0,0% y 100,0% con un máximo de 3 decimales.

        • En el caso de conjuntos de datos más grandes, elija un porcentaje de muestreo inferior. Por ejemplo, en una tabla de 1 PB, si introduces un valor entre el 0,1% y el 1,0%, el perfil de datos toma muestras de entre 1 y 10 TB de datos.

        • Debe haber al menos 100 registros en los datos muestreados para obtener un resultado.

        • En el caso de los análisis de datos incrementales, el análisis de perfil de datos aplica el muestreo al incremento más reciente.

      10. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Universal Catalog de Dataplex de laGoogle Cloud consola de la tabla de origen. Selecciona la casilla Publicar resultados en BigQuery y Dataplex Catalog.

        Puede ver los resultados del análisis más reciente en la pestaña Perfil de datos de las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la tabla de origen. Para permitir que los usuarios accedan a los resultados de los análisis publicados, consulta la sección Conceder acceso a los resultados de los análisis de perfil de datos de este documento.

        Es posible que la opción de publicación no esté disponible en los siguientes casos:

        • No tienes los permisos necesarios en la tabla.
        • Se va a publicar otro análisis de calidad de los datos.
      11. En la sección Programación, elija una de las siguientes opciones:

        • Repetir: ejecuta el análisis del perfil de datos según una programación: cada hora, cada día, cada semana, cada mes o personalizada. Especifica con qué frecuencia y a qué hora debe ejecutarse el análisis. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

        • Bajo demanda: ejecuta el análisis de perfil de datos bajo demanda.

      12. Haz clic en Continuar.

      13. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table (Exportar resultados del análisis a una tabla de BigQuery), haz lo siguiente:

        1. En el campo Seleccionar conjunto de datos de BigQuery, haga clic en Buscar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis de perfiles de datos.

        2. En el campo Tabla de BigQuery, especifica la tabla en la que se deben almacenar los resultados del análisis del perfil de datos. Si usas una tabla que ya tienes, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

      14. Opcional: añade etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.

      15. Para crear el análisis, haz clic en Crear.

        Si programas el análisis para que se ejecute bajo demanda, también puedes ejecutarlo ahora haciendo clic en Ejecutar análisis.

      gcloud

      Para crear un análisis de perfil de datos, usa el comando gcloud dataplex datascans create data-profile.

      Si los datos de origen están organizados en un lago de Dataplex Universal Catalog, incluya la marca --data-source-entity:

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-entity=DATA_SOURCE_ENTITY
      

      Si los datos de origen no están organizados en un lago de Dataplex Universal Catalog, incluya la marca --data-source-resource:

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-resource=DATA_SOURCE_RESOURCE
      

      Sustituye las siguientes variables:

      • DATASCAN: el nombre del análisis de perfil de datos.
      • LOCATION: región en la que se va a crear el análisis de perfil de datos. Google Cloud
      • DATA_SOURCE_ENTITY: entidad de Dataplex Universal Catalog que contiene los datos del análisis del perfil de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
      • DATA_SOURCE_RESOURCE: nombre del recurso que contiene los datos del análisis del perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

      C#

      C#

      Antes de probar este ejemplo, sigue las C# instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API C# Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      using Google.Api.Gax.ResourceNames;
      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for CreateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void CreateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              CreateDataScanRequest request = new CreateDataScanRequest
              {
                  ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
                  DataScan = new DataScan(),
                  DataScanId = "",
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Go

      Go

      Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.CreateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
      	}
      	op, err := c.CreateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      import com.google.cloud.dataplex.v1.CreateDataScanRequest;
      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.LocationName;
      
      public class SyncCreateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncCreateDataScan();
        }
      
        public static void syncCreateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            CreateDataScanRequest request =
                CreateDataScanRequest.newBuilder()
                    .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
                    .setDataScan(DataScan.newBuilder().build())
                    .setDataScanId("dataScanId1260787906")
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Antes de probar este ejemplo, sigue las Python instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Python Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_create_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.CreateDataScanRequest(
              parent="parent_value",
              data_scan=data_scan,
              data_scan_id="data_scan_id_value",
          )
      
          # Make the request
          operation = client.create_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de probar este ejemplo, sigue las Ruby instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Ruby Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the create_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
      #
      def create_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new
      
        # Call the create_data_scan method.
        result = client.create_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Para crear un análisis de perfil de datos, usa el método dataScans.create.

      Crear varios análisis de perfil de datos

      Puedes configurar análisis de perfil de datos para varias tablas de un conjunto de datos de BigQuery al mismo tiempo mediante la Google Cloud consola.

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haz clic en Crear análisis de perfil de datos.

      3. Selecciona la opción Varias búsquedas de perfil de datos.

      4. Introduce un prefijo de ID. Dataplex Universal Catalog genera automáticamente IDs de análisis mediante el prefijo proporcionado y sufijos únicos.

      5. Introduce una Descripción para todos los análisis de perfil de datos.

      6. En el campo Conjunto de datos, haga clic en Buscar. Selecciona un conjunto de datos para elegir las tablas. Haz clic en Seleccionar.

      7. Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfil de datos.

      8. Configura los ajustes comunes de los análisis:

        1. En el campo Permiso, elija Incremental o Todos los datos.

        2. Para aplicar el muestreo a los análisis de perfil de datos, en la lista Tamaño de muestreo, seleccione un porcentaje de muestreo.

          Elige un valor porcentual entre 0,0% y 100,0% con un máximo de 3 decimales.

        3. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Universal Catalog de Dataplex de laGoogle Cloud consola de la tabla de origen. Selecciona la casilla Publicar resultados en BigQuery y Dataplex Catalog.

          Puede ver los resultados del análisis más reciente en la pestaña Perfil de datos de las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la tabla de origen. Para permitir que los usuarios accedan a los resultados de análisis publicados, consulta la sección Conceder acceso a los resultados del análisis de perfil de datos de este documento.

        4. En la sección Programación, elija una de las siguientes opciones:

          • Repetir: ejecuta los análisis de perfil de datos según una programación: cada hora, cada día, cada semana, cada mes o personalizada. Especifica con qué frecuencia deben ejecutarse los análisis y a qué hora. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

          • Bajo demanda: ejecuta los análisis de perfil de datos bajo demanda.

      9. Haz clic en Continuar.

      10. En el campo Elegir tablas, haz clic en Explorar. Elige una o varias tablas que quieras analizar y, a continuación, haz clic en Seleccionar.

      11. Haz clic en Continuar.

      12. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table (Exportar resultados del análisis a una tabla de BigQuery), haz lo siguiente:

        1. En el campo Seleccionar conjunto de datos de BigQuery, haga clic en Buscar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis de perfiles de datos.

        2. En el campo Tabla de BigQuery, especifica la tabla en la que se deben almacenar los resultados del análisis del perfil de datos. Si usas una tabla, asegúrate de que sea compatible con el esquema de tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

          Dataplex Universal Catalog usa la misma tabla de resultados para todos los análisis de perfil de datos.

      13. Opcional: añade etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.

      14. Para crear los análisis, haz clic en Crear.

        Si programas el análisis para que se ejecute bajo demanda, también puedes ejecutarlo ahora haciendo clic en Ejecutar análisis.

      Ejecutar un análisis de perfil de datos

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haga clic en el análisis de perfil de datos que quiera ejecutar.
      3. Haz clic en Ejecutar ahora.

      gcloud

      Para ejecutar un análisis de perfil de datos, usa el comando gcloud dataplex datascans run:

      gcloud dataplex datascans run DATASCAN \
      --location=LOCATION
      

      Sustituye las siguientes variables:

      • DATASCAN: el nombre del análisis de perfil de datos.
      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.

      C#

      C#

      Antes de probar este ejemplo, sigue las C# instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API C# Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for RunDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void RunDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              RunDataScanRequest request = new RunDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
              };
              // Make the request
              RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
          }
      }

      Go

      Go

      Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.RunDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
      	}
      	resp, err := c.RunDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.RunDataScanRequest;
      import com.google.cloud.dataplex.v1.RunDataScanResponse;
      
      public class SyncRunDataScan {
      
        public static void main(String[] args) throws Exception {
          syncRunDataScan();
        }
      
        public static void syncRunDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            RunDataScanRequest request =
                RunDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
          }
        }
      }

      Python

      Python

      Antes de probar este ejemplo, sigue las Python instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Python Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_run_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.RunDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.run_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de probar este ejemplo, sigue las Ruby instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Ruby Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the run_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
      #
      def run_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new
      
        # Call the run_data_scan method.
        result = client.run_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
        p result
      end

      REST

      Para ejecutar un análisis de perfil de datos, usa el método dataScans.run.

      Ver los resultados de un análisis de perfil de datos

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haga clic en el nombre de un análisis de perfil de datos.

        • En la sección Resumen se muestra información sobre los trabajos más recientes, como cuándo se ejecutó el análisis, el número de registros de tabla analizados y el estado del trabajo.

        • En la sección Configuración de análisis de perfil de datos se muestran detalles sobre el análisis.

      3. Para ver información detallada sobre un trabajo, como las columnas de la tabla escaneada, estadísticas sobre las columnas que se han encontrado en el escaneo y los registros del trabajo, haz clic en la pestaña Historial de trabajos. A continuación, haz clic en un ID de tarea.

      gcloud

      Para ver los resultados de un trabajo de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs describe:

      gcloud dataplex datascans jobs describe JOB \
      --location=LOCATION \
      --datascan=DATASCAN \
      --view=FULL
      

      Sustituye las siguientes variables:

      • JOB: ID del trabajo de análisis de perfil de datos.
      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
      • DATASCAN: nombre del análisis de perfil de datos al que pertenece el trabajo.
      • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

      C#

      C#

      Antes de probar este ejemplo, sigue las C# instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API C# Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for GetDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void GetDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              GetDataScanRequest request = new GetDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  View = GetDataScanRequest.Types.DataScanView.Unspecified,
              };
              // Make the request
              DataScan response = dataScanServiceClient.GetDataScan(request);
          }
      }

      Go

      Go

      Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.GetDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
      	}
      	resp, err := c.GetDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.GetDataScanRequest;
      
      public class SyncGetDataScan {
      
        public static void main(String[] args) throws Exception {
          syncGetDataScan();
        }
      
        public static void syncGetDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            GetDataScanRequest request =
                GetDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            DataScan response = dataScanServiceClient.getDataScan(request);
          }
        }
      }

      Python

      Python

      Antes de probar este ejemplo, sigue las Python instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Python Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_get_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.GetDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.get_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de probar este ejemplo, sigue las Ruby instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Ruby Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the get_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
      #
      def get_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new
      
        # Call the get_data_scan method.
        result = client.get_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
        p result
      end

      REST

      Para ver los resultados de un análisis de perfil de datos, usa el método dataScans.get.

      Ver los resultados publicados

      Si los resultados del análisis del perfil de datos se publican en las páginas de BigQuery y Universal Catalog de Dataplex de la consola Google Cloud , puede ver los resultados del análisis más recientes en la pestaña Perfil de datos de la tabla de origen.

      1. En la Google Cloud consola, ve a la página BigQuery.

        Ir a BigQuery

      2. En el panel de la izquierda, haz clic en Explorador:

        Botón destacado del panel Explorador.

        Si no ves el panel de la izquierda, haz clic en Ampliar panel de la izquierda para abrirlo.

      3. En el panel Explorador, haga clic en Conjuntos de datos y, a continuación, en el conjunto de datos que quiera.

      4. Haga clic en Resumen > Tablas y, a continuación, seleccione la tabla cuyos resultados del análisis del perfil de datos quiera ver.

      5. Haga clic en la pestaña Perfil de datos.

        Se muestran los últimos resultados publicados.

      Ver el trabajo de análisis de perfil de datos más reciente

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Perfil y calidad de los datos

      2. Haga clic en el nombre de un análisis de perfil de datos.

      3. Haz clic en la pestaña Últimos resultados de los trabajos.

        La pestaña Resultados de la última tarea, cuando hay al menos una ejecución completada correctamente, proporciona información sobre la tarea más reciente. Muestra las columnas de la tabla escaneada y estadísticas sobre las columnas que se han encontrado en el análisis.

      gcloud

      Para ver el análisis de perfil de datos correcto más reciente, usa el comando gcloud dataplex datascans describe:

      gcloud dataplex datascans describe DATASCAN \
      --location=LOCATION \
      --view=FULL
      

      Sustituye las siguientes variables:

      • DATASCAN: el nombre del análisis de elaboración de perfiles de datos del que quieres ver el trabajo más reciente.
      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
      • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

      REST

      Para ver el análisis más reciente, usa el método dataScans.get.

      Ver el historial de resultados de análisis

      Dataplex Universal Catalog guarda el historial de análisis de perfiles de datos de los últimos 300 trabajos o del último año, lo que ocurra primero.

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Perfil y calidad de los datos

      2. Haga clic en el nombre de un análisis de perfil de datos.

      3. Haz clic en la pestaña Historial de trabajos.

        La pestaña Historial de tareas proporciona información sobre las tareas anteriores, como el número de registros analizados en cada tarea, el estado de la tarea y la hora en la que se ejecutó.

      4. Para ver información detallada sobre un trabajo, haz clic en cualquiera de los trabajos de la columna ID de trabajo.

      gcloud

      Para ver el historial de tareas de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs list:

      gcloud dataplex datascans jobs list \
      --location=LOCATION \
      --datascan=DATASCAN
      

      Sustituye las siguientes variables:

      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
      • DATASCAN: el nombre del análisis de elaboración de perfiles de datos para ver los trabajos.

      C#

      C#

      Antes de probar este ejemplo, sigue las C# instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API C# Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      using Google.Api.Gax;
      using Google.Cloud.Dataplex.V1;
      using System;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for ListDataScanJobs</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void ListDataScanJobsRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              ListDataScanJobsRequest request = new ListDataScanJobsRequest
              {
                  ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  Filter = "",
              };
              // Make the request
              PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);
      
              // Iterate over all response items, lazily performing RPCs as required
              foreach (DataScanJob item in response)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
      
              // Or iterate over pages (of server-defined size), performing one RPC per page
              foreach (ListDataScanJobsResponse page in response.AsRawResponses())
              {
                  // Do something with each page of items
                  Console.WriteLine("A page of results:");
                  foreach (DataScanJob item in page)
                  {
                      // Do something with each item
                      Console.WriteLine(item);
                  }
              }
      
              // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
              int pageSize = 10;
              Page<DataScanJob> singlePage = response.ReadPage(pageSize);
              // Do something with the page of items
              Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
              foreach (DataScanJob item in singlePage)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
              // Store the pageToken, for when the next page is required.
              string nextPageToken = singlePage.NextPageToken;
          }
      }

      Go

      Go

      Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      	"google.golang.org/api/iterator"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.ListDataScanJobsRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
      	}
      	it := c.ListDataScanJobs(ctx, req)
      	for {
      		resp, err := it.Next()
      		if err == iterator.Done {
      			break
      		}
      		if err != nil {
      			// TODO: Handle error.
      		}
      		// TODO: Use resp.
      		_ = resp
      
      		// If you need to access the underlying RPC response,
      		// you can do so by casting the `Response` as below.
      		// Otherwise, remove this line. Only populated after
      		// first call to Next(). Not safe for concurrent access.
      		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
      	}
      }
      

      Java

      Java

      Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      import com.google.cloud.dataplex.v1.DataScanJob;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;
      
      public class SyncListDataScanJobs {
      
        public static void main(String[] args) throws Exception {
          syncListDataScanJobs();
        }
      
        public static void syncListDataScanJobs() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            ListDataScanJobsRequest request =
                ListDataScanJobsRequest.newBuilder()
                    .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .setPageSize(883849137)
                    .setPageToken("pageToken873572522")
                    .setFilter("filter-1274492040")
                    .build();
            for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
              // doThingsWith(element);
            }
          }
        }
      }

      Python

      Python

      Antes de probar este ejemplo, sigue las Python instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Python Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_list_data_scan_jobs():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.ListDataScanJobsRequest(
              parent="parent_value",
          )
      
          # Make the request
          page_result = client.list_data_scan_jobs(request=request)
      
          # Handle the response
          for response in page_result:
              print(response)
      
      

      Ruby

      Ruby

      Antes de probar este ejemplo, sigue las Ruby instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Ruby Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the list_data_scan_jobs call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
      #
      def list_data_scan_jobs
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new
      
        # Call the list_data_scan_jobs method.
        result = client.list_data_scan_jobs request
      
        # The returned object is of type Gapic::PagedEnumerable. You can iterate
        # over elements, and API calls will be issued to fetch pages as needed.
        result.each do |item|
          # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
          p item
        end
      end

      REST

      Para ver el historial de trabajos de análisis de perfiles de datos, usa el método dataScans.jobs.list.

      Ver los análisis de perfil de datos de una tabla

      Para ver los análisis de perfil de datos que se aplican a una tabla específica, siga estos pasos:

      1. En la Google Cloud consola, en la página Curación de metadatos de BigQuery, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Filtra la lista por nombre de tabla y tipo de análisis.

      Conceder acceso a los resultados de análisis de perfiles de datos

      Para que los usuarios de tu organización puedan ver los resultados del análisis, haz lo siguiente:

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haz clic en el análisis de calidad de los datos cuyos resultados quieras compartir.

      3. Haz clic en la pestaña Permisos.

      4. Sigue estos pasos:

        • Para conceder acceso a un principal, haz clic en Conceder acceso. Concede el rol Dataplex DataScan DataViewer al principal asociado.
        • Para quitar el acceso a un principal, seleccione el principal al que quiera quitarle el rol Dataplex DataScan DataViewer. Haz clic en Quitar acceso y, a continuación, confirma la acción cuando se te pida.

      Gestionar análisis de perfil de datos de una tabla específica

      En este documento se explica cómo gestionar los análisis de perfil de datos en tu proyecto mediante la página Curación de metadatos > Perfil y calidad de los datos de BigQuery en laGoogle Cloud consola.

      También puedes crear y gestionar análisis de perfil de datos cuando trabajes con una tabla específica. En la Google Cloud consola, en la página de BigQuery de la tabla, usa la pestaña Perfil de datos. Sigue estos pasos:

      1. En la Google Cloud consola, ve a la página BigQuery.

        Ir a BigQuery

        En el panel Explorador (en el panel de la izquierda), haz clic en Conjuntos de datos y, a continuación, en el conjunto de datos que quieras. Ahora, haga clic en Resumen > Tablas y seleccione la tabla cuyos resultados del análisis del perfil de datos quiera ver.

      2. Haga clic en la pestaña Perfil de datos.

      3. En función de si la tabla tiene un análisis de perfil de datos cuyos resultados se han publicado, puedes trabajar con los análisis de perfil de datos de la tabla de las siguientes formas:

        • Se publican los resultados del análisis del perfil de datos: en la página se muestran los resultados del análisis publicado más reciente.

          Para gestionar los análisis de perfil de datos de esta tabla, haga clic en Análisis de perfil de datos y, a continuación, seleccione una de las siguientes opciones:

          • Crear análisis: crea un análisis de perfil de datos. Para obtener más información, consulta la sección Crear un análisis de perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se selecciona automáticamente.

          • Ejecutar ahora: ejecuta el análisis.

          • Editar configuración de análisis: edita los ajustes, como el nombre visible, los filtros, el tamaño de la muestra y la programación.

          • Gestionar permisos de análisis: controla quién puede acceder a los resultados de los análisis. Para obtener más información, consulta la sección Conceder acceso a los resultados del análisis de perfiles de datos de este documento.

          • Ver resultados históricos: consulta información detallada sobre los análisis de perfil de datos anteriores. Para obtener más información, consulta las secciones Ver los resultados del análisis de perfil de datos y Ver el historial de resultados de análisis de este documento.

          • Ver todos los análisis: consulta una lista de análisis de perfil de datos que se aplican a esta tabla.

        • Los resultados del análisis del perfil de datos no se publican: haz clic en el menú situado junto a Perfil de datos rápido y, a continuación, selecciona una de las siguientes opciones:

          • Personalizar la elaboración de perfiles de datos: crea un nuevo análisis de perfil de datos. Para obtener más información, consulta la sección Crear un análisis de perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se selecciona automáticamente.

          • Ver perfiles anteriores: consulta una lista de análisis de perfil de datos que se aplican a esta tabla.

      Actualizar un análisis de perfil de datos

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haga clic en el nombre de un análisis de perfil de datos.

      3. Haga clic en Editar y, a continuación, edite los valores.

      4. Haz clic en Guardar.

      gcloud

      Para actualizar un análisis de perfil de datos, usa el comando gcloud dataplex datascans update data-profile:

      gcloud dataplex datascans update data-profile DATASCAN \
      --location=LOCATION \
      --description=DESCRIPTION
      

      Sustituye las siguientes variables:

      • DATASCAN: nombre del análisis de perfil de datos que se va a actualizar.
      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
      • DESCRIPTION: la nueva descripción del análisis del perfil de datos.

      C#

      C#

      Antes de probar este ejemplo, sigue las C# instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API C# Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      using Google.Protobuf.WellKnownTypes;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for UpdateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void UpdateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              UpdateDataScanRequest request = new UpdateDataScanRequest
              {
                  DataScan = new DataScan(),
                  UpdateMask = new FieldMask(),
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Go

      Go

      Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.UpdateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
      	}
      	op, err := c.UpdateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
      import com.google.protobuf.FieldMask;
      
      public class SyncUpdateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncUpdateDataScan();
        }
      
        public static void syncUpdateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            UpdateDataScanRequest request =
                UpdateDataScanRequest.newBuilder()
                    .setDataScan(DataScan.newBuilder().build())
                    .setUpdateMask(FieldMask.newBuilder().build())
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Antes de probar este ejemplo, sigue las Python instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Python Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_update_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.UpdateDataScanRequest(
              data_scan=data_scan,
          )
      
          # Make the request
          operation = client.update_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de probar este ejemplo, sigue las Ruby instrucciones de configuración de la guía de inicio rápido de Dataplex Universal Catalog con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Ruby Universal Catalog de Dataplex.

      Para autenticarte en Dataplex Universal Catalog, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the update_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
      #
      def update_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new
      
        # Call the update_data_scan method.
        result = client.update_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Para editar un análisis de perfil de datos, usa el método dataScans.patch.

      Eliminar un análisis de perfil de datos

      Consola

      1. En la Google Cloud consola, en la página de BigQuery Curación de metadatos, ve a la pestaña Elaboración de perfiles y calidad de los datos.

        Ir a Creación de perfiles y calidad de datos

      2. Haz clic en el análisis que quieras eliminar.

      3. Haz clic en Eliminar y, a continuación, confirma la acción cuando se te pida.

      gcloud

      Para eliminar un análisis de perfil de datos, usa el comando gcloud dataplex datascans delete:

      gcloud dataplex datascans delete DATASCAN \
      --location=LOCATION --async
      

      Sustituye las siguientes variables:

      • DATASCAN: nombre del análisis de perfil de datos que se va a eliminar.
      • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.

      REST

      Para eliminar un análisis de perfil de datos, usa el método dataScans.delete.

      Siguientes pasos