Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Datenprofil erstellen:

In diesem Dokument wird erläutert, wie Sie Datenprofilscans verwenden, um Ihre Daten besser zu verstehen. BigQuery verwendet Knowledge Catalog, um die statistischen Merkmale Ihrer Daten zu analysieren, z. B. Durchschnittswerte, eindeutige Werte und Höchstwerte. Knowledge Catalog verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Weitere Informationen zur Datenprofilerstellung finden Sie unter Datenprofilerstellung.

Hinweis

Dataplex API aktivieren

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die Berechtigung serviceusage.services.enable. Wenn Sie das Projekt erstellt haben, haben Sie diese Berechtigung wahrscheinlich bereits über die Rolle „Inhaber“ (roles/owner). Andernfalls können Sie diese Berechtigung über die Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin) erhalten. Informationen zum Zuweisen von Rollen

API aktivieren

Erforderliche Rollen

In diesem Abschnitt werden die IAM-Rollen und -Berechtigungen beschrieben, die für die Verwendung von Knowledge Catalog-Datenprofilscans erforderlich sind.

Nutzerrollen und Berechtigungen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Datenprofil-Scans benötigen:

Datenprofilscans erstellen, ausführen, aktualisieren und löschen: Dataplex DataScan Editor (roles/dataplex.dataScanEditor) für das Projekt, das den Datenscan enthält
Ergebnisse, Jobs und Verlauf von Datenprofilscans ansehen: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer) für das Projekt, das den Datenscan enthält
Ergebnisse von Datenprofilscans im Knowledge Catalog veröffentlichen: Dataplex Catalog-Bearbeiter (roles/dataplex.catalogEditor) für die @bigquery-Eintragsgruppe
So rufen Sie die veröffentlichten Ergebnisse von Datenscanprofilen in BigQuery auf dem Tab Datenprofil auf: BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für die Tabelle

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Datenprofilscans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenprofilscans zu erstellen und zu verwalten:

Datenprofilscans erstellen, ausführen, aktualisieren und löschen:
- dataplex.datascans.create für das Projekt
- dataplex.datascans.update für den Datenscan
- dataplex.datascans.delete für den Datenscan
- dataplex.datascans.run für den Datenscan
- dataplex.datascans.get für den Datenscan
- dataplex.datascans.list für das Projekt
- dataplex.dataScanJobs.get für den Datenscan-Job
- dataplex.dataScanJobs.list für den Datenscan
Ergebnisse, Jobs und Verlauf von Datenprofilscans ansehen:
- dataplex.datascans.getData für den Datenscan
- dataplex.datascans.list für das Projekt
- dataplex.dataScanJobs.get für den Datenscan-Job
- dataplex.dataScanJobs.list für den Datenscan
Datenprofilscanergebnisse in Knowledge Catalog veröffentlichen:
- dataplex.entryGroups.useDataProfileAspect für die Eintragsgruppe
- bigquery.tables.update in der Tabelle
- dataplex.entries.update bei der Einreise
So rufen Sie veröffentlichte Datenprofilergebnisse für eine Tabelle in BigQuery oder Knowledge Catalog auf:
- bigquery.tables.get in der Tabelle
- bigquery.tables.getData in der Tabelle

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Rollen und Berechtigungen für Knowledge Catalog-Dienstkonten

Damit das Knowledge Catalog-Dienstkonto die erforderlichen Berechtigungen zum Ausführen von Datenprofilscans und zum Exportieren von Ergebnissen hat, bitten Sie Ihren Administrator, dem Knowledge Catalog-Dienstkonto die folgenden IAM-Rollen zu gewähren:

Datenprofilscans für BigQuery-Daten ausführen:
- BigQuery-Jobnutzer (roles/bigquery.jobUser) für das Projekt, in dem der Scan ausgeführt wird
- BigQuery Data Viewer (roles/bigquery.dataViewer) für die gescannten Tabellen
Datenprofilscans für externe BigQuery-Tabellen ausführen, in denen Cloud Storage-Daten verwendet werden:
- Storage Object Viewer (roles/storage.objectViewer) für den Cloud Storage-Bucket
- Leser alter Storage-Buckets (roles/storage.legacyBucketReader) für den Cloud Storage-Bucket
Datenprofilscans für Iceberg-REST-Katalogtabellen in Google Cloud Lakehouse ausführen: BigLake-Betrachter (roles/biglake.viewer) für gescannte Iceberg-REST-Katalogtabellen
Ergebnisse von Datenprofilscans in eine BigQuery-Tabelle exportieren: BigQuery-Datenbearbeiter (roles/bigquery.dataEditor) für die Tabelle

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen von Datenprofilscans und zum Exportieren von Ergebnissen erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenprofilscans auszuführen und Ergebnisse zu exportieren:

Datenprofilscans für BigQuery-Daten ausführen:
- bigquery.jobs.create für das Projekt
- bigquery.tables.get in der Tabelle
- bigquery.tables.getData in der Tabelle
Datenprofilscans für externe BigQuery-Tabellen ausführen, in denen Cloud Storage-Daten verwendet werden:
- storage.buckets.get für Bucket
- storage.objects.get für das Objekt
Ergebnisse des Datenprofilscans in eine BigQuery-Tabelle exportieren:
- bigquery.tables.create für das Dataset
- bigquery.tables.updateData in der Tabelle

Ihr Administrator kann dem Dienstkonto des Knowledge Catalog möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Wenn für eine Tabelle die BigQuery-Sicherheit auf Zeilenebene verwendet wird, kann Knowledge Catalog nur Zeilen scannen, die für das Knowledge Catalog-Dienstkonto sichtbar sind. Damit Knowledge Catalog alle Zeilen scannen kann, fügen Sie das Dienstkonto in einen Zeilenfilter ein, in dem das Prädikat TRUE ist.

Wenn für eine Tabelle die BigQuery-Sicherheit auf Spaltenebene verwendet wird, muss Knowledge Catalog Zugriff haben, um geschützte Spalten zu scannen. Um Zugriff zu gewähren, weisen Sie dem Knowledge Catalog-Dienstkonto die Rolle Data Catalog: Detaillierter Lesezugriff (roles/datacatalog.fineGrainedReader) für alle in der Tabelle verwendeten Richtlinien-Tags zu. Zum Erstellen oder Aktualisieren von Datenscans sind ebenfalls Berechtigungen für geschützte Spalten erforderlich.

Dem Dienstkonto des Knowledge Catalog Rollen zuweisen

Für die Ausführung von Datenprofilscans verwendet Knowledge Catalog ein Dienstkonto, für das Berechtigungen zum Ausführen von BigQuery-Jobs und zum Lesen von BigQuery-Tabellendaten erforderlich sind. So weisen Sie die erforderlichen Rollen zu:

Rufen Sie die E‑Mail-Adresse des Dienstkontos für den Wissenskatalog ab. Wenn Sie in diesem Projekt noch keinen Datenprofil- oder Datenqualitätsscan erstellt haben, führen Sie den folgenden gcloud-Befehl aus, um die Dienstidentität zu generieren:
```
gcloud beta services identity create --service=dataplex.googleapis.com
```
Der Befehl gibt die E-Mail-Adresse des Dienstkontos im folgenden Format zurück: service-PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com.

Wenn das Dienstkonto bereits vorhanden ist, können Sie seine E-Mail-Adresse abrufen, indem Sie in der Google Cloud -Konsole auf der Seite IAM die Hauptkonten mit dem Namen Dataplex aufrufen.
Weisen Sie dem Dienstkonto die Rolle BigQuery-Jobnutzer (roles/bigquery.jobUser) für Ihr Projekt zu. Mit dieser Rolle kann das Dienstkonto BigQuery-Jobs für den Scan ausführen.
```
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
    --role="roles/bigquery.jobUser"
```
Ersetzen Sie Folgendes:
- PROJECT_ID: Projekt-ID in Google Cloud .
- service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: die E-Mail-Adresse des Dienstkontos für den Knowledge Catalog.
Weisen Sie dem Dienstkonto für jede Tabelle, die Sie profilieren möchten, die Rolle BigQuery-Datenbetrachter (roles/bigquery.dataViewer) zu. Diese Rolle gewährt Lesezugriff auf die Tabellen.
```
gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \
    --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
    --role="roles/bigquery.dataViewer"
```
Ersetzen Sie Folgendes:
- DATASET_ID: die ID des Datasets, das die Tabelle enthält.
- TABLE_ID: Die ID der Tabelle, für die ein Profil erstellt werden soll.
- service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: die E-Mail-Adresse des Dienstkontos für den Knowledge Catalog.

Datenprofilscan erstellen

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenprofilscan erstellen.
Optional: Geben Sie einen Anzeigenamen ein.
Geben Sie eine ID ein. Weitere Informationen finden Sie unter Konventionen für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen. Wählen Sie die Tabelle aus, die gescannt werden soll, und klicken Sie dann auf Auswählen. Es werden nur Standard-BigQuery- und Iceberg REST Catalog-Tabellen unterstützt.

Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.

Wenn Sie die Tabellen durchsuchen möchten, die in Knowledge Catalog-Lakes organisiert sind, klicken Sie auf In Knowledge Catalog-Lakes suchen.
Wählen Sie im Bereich Modus eine der folgenden Optionen aus:
- Standard: Ihre Daten werden mit anpassbaren Scaneinstellungen profiliert. Das ist der Standardmodus.
- Leichtgewichtig: Bietet schnelle Statistiken mit einem Scan mit niedriger Latenz und geringer Genauigkeit.
Wenn Sie den Modus Standard ausgewählt haben, konfigurieren Sie die folgenden Optionen. Diese Optionen werden nicht angezeigt, wenn Sie den Modus Lightweight auswählen.
1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  
  Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Spalte für Zeitstempel eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus. Knowledge Catalog verwendet diese Spalte, um neue Einträge zu identifizieren, wenn sie hinzugefügt werden. Für Tabellen, die auf Grundlage einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind, wird empfohlen, diese Spalte als Partitionsspalte zu verwenden.
2. Optional: So filtern Sie Ihre Daten:
  - Wenn Sie nach Zeilen filtern möchten, aktivieren Sie das Kästchen Zeilen filtern. Geben Sie einen gültigen SQL-Ausdruck ein, der in einer WHERE-Anweisung in GoogleSQL-Syntax verwendet werden kann. Beispiel: col1 >= 0.
    
    Der Filter kann eine Kombination aus SQL-Bedingungen für mehrere Spalten sein. Beispiel: col1 >= 0 AND col2 < 10.
  - Wenn Sie nach Spalten filtern möchten, aktivieren Sie das Kästchen Spalten filtern.
  - Wenn Sie Spalten in den Profilscan einbeziehen möchten, klicken Sie im Feld Spalten einschließen auf Durchsuchen. Wählen Sie die Spalten aus, die enthalten sein sollen, und klicken Sie dann auf Auswählen.
  - Wenn Sie Spalten vom Profilscan ausschließen möchten, klicken Sie im Feld Spalten ausschließen auf Durchsuchen. Wählen Sie die auszuschließenden Spalten aus und klicken Sie dann auf Auswählen.
  Hinweis: Sie können Spalten einschließen, Spalten ausschließen oder beides verwenden. Wenn Sie beide Felder verwenden, wählt der Datenprofilscan zuerst die Spalten basierend auf der Eingabe im Feld Spalten einschließen aus und schließt dann die Spalten basierend auf der Eingabe im Feld Spalten ausschließen aus.
3. Wenn Sie die Stichprobenerhebung auf Ihren Datenprofilscan anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus. Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
  - Wählen Sie bei größeren Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von 1 PB einen Wert zwischen 0,1% und 1, 0 % eingeben, werden im Datenprofil 1–10 TB an Daten als Stichprobe erhoben.
  - Die erhobenen Stichproben müssen mindestens 100 Einträge enthalten, damit ein Ergebnis zurückgegeben wird.
  - Bei Scans inkrementeller Daten wird die Stichprobe im Datenprofilscan aus dem neuesten Inkrement erhoben.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Knowledge Catalog-Seiten in derGoogle Cloud Console für die Quelltabelle. Klicken Sie das Kästchen Ergebnisse in Knowledge Catalog veröffentlichen an.

Sie können die neuesten Scanergebnisse auf den BigQuery- und Knowledge Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenprofilscan-Ergebnisse gewähren in diesem Dokument.

Die Veröffentlichungsoption ist in den folgenden Fällen möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Die Ergebnisse eines anderen Datenprofilscans sind veröffentlicht.
Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
- Wiederholen: Der Datenprofilscan wird nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
- On demand: Der Datenprofilscan wird auf Anfrage ausgeführt.
- Einmalige Ausführung: Der Datenprofilscan wird jetzt einmal ausgeführt und nach der automatischen Löschung entfernt. Diese Feature befindet sich im Vorschaumodus.
  - Automatisches Löschen von Ergebnissen nach dem Scan festlegen: Die Zeit für das automatische Löschen gibt an, wie lange ein Datenprofilscan nach der Ausführung aktiv bleibt. Ein Scan des Datenprofils ohne Angabe einer automatischen Löschzeit wird nach 24 Stunden automatisch entfernt. Der Zeitraum für das automatische Löschen kann zwischen 0 Sekunden (sofortiges Löschen) und 365 Tagen liegen.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenprofilscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenprofilscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Knowledge Catalog erstellt.
  
  Hinweis :Sie können dieselbe Ergebnistabelle für mehrere Datenprofilscans verwenden.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte miteinander oder mit anderen Google Cloud -Ressourcen gruppieren können.
Klicken Sie auf Erstellen, um den Scan zu erstellen.

Wenn Sie den Zeitplan auf „On-Demand“ festlegen, können Sie den Scan auch sofort ausführen, indem Sie auf Scan ausführen klicken.

gcloud

Verwenden Sie zum Erstellen eines Datenprofilscans den gcloud dataplex datascans create data-profile-Befehl.

Wenn die Quelldaten in einem Knowledge Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-entity ein:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Wenn die Quelldaten nicht in einem Knowledge Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-resource ein:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt werden soll.
DATA_SOURCE_ENTITY: Die Knowledge Catalog-Entität, die die Daten für den Datenprofilscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenprofilscan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

C#

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der C#-Einrichtungsanleitung in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery C# API.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

using Google.Api.Gax.ResourceNames;
using Google.Cloud.Dataplex.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for CreateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        CreateDataScanRequest request = new CreateDataScanRequest
        {
            ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            DataScan = new DataScan(),
            DataScanId = "",
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Go in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Go API.


//go:build examples

package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.CreateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
	}
	op, err := c.CreateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Java in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Java API.

import com.google.cloud.dataplex.v1.CreateDataScanRequest;
import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.LocationName;

public class SyncCreateDataScan {

  public static void main(String[] args) throws Exception {
    syncCreateDataScan();
  }

  public static void syncCreateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      CreateDataScanRequest request =
          CreateDataScanRequest.newBuilder()
              .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
              .setDataScan(DataScan.newBuilder().build())
              .setDataScanId("dataScanId1260787906")
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
    }
  }
}

Python

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Python in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Python API.

# Copyright 2026 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import google.api_core.exceptions
from google.cloud import dataplex_v1


def create_data_profile_scan_global(
    project_id: str,
    dataset_id: str,
    table_id: str,
    location: str,
) -> None:
    """Creates a Dataplex Data Profile Scan using global API endpoint routing.

    Args:
        project_id (str): Google Cloud project ID where the scan is created.
        dataset_id (str): Target BigQuery dataset ID.
        table_id (str): Target BigQuery table ID to scan.
        location (str): Google Cloud region where serverless compute runs.
    """
    client = dataplex_v1.DataScanServiceClient()

    parent = client.common_location_path(project=project_id, location=location)

    bigquery_table = (
        f"//bigquery.googleapis.com/projects/{project_id}"
        f"/datasets/{dataset_id}/tables/{table_id}"
    )

    data_profile_spec = dataplex_v1.DataProfileSpec(sampling_percent=100.0)

    data_scan = dataplex_v1.DataScan(
        display_name="Global Data Profile Scan",
        description="Regional data profile scan generating automated table statistics.",
        data=dataplex_v1.DataSource(resource=bigquery_table),
        data_profile_spec=data_profile_spec,
    )

    request = dataplex_v1.CreateDataScanRequest(
        parent=parent,
        data_scan=data_scan,
    )

    try:
        operation = client.create_data_scan(request=request)
        print(operation.result())

    except google.api_core.exceptions.AlreadyExists:
        print("A scan with this ID already exists.")
    except google.api_core.exceptions.InvalidArgument as e:
        print(f"Your scan configuration is invalid: {e}")
    except google.api_core.exceptions.GoogleAPIError as e:
        print(f"Unexpected exception: {e}")

Ruby

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Ruby in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Ruby API.

require "google/cloud/dataplex/v1"

##
# Snippet for the create_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
#
def create_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new

  # Call the create_data_scan method.
  result = client.create_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

Verwenden Sie die dataScans.create-Methode, um einen Datenprofilscan zu erstellen.

Mehrere Datenprofilscans erstellen

Sie können Datenprofilscans für mehrere Tabellen in einem BigQuery-Dataset gleichzeitig konfigurieren, indem Sie die Google Cloud Konsole verwenden.

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenprofilscan erstellen.
Wählen Sie die Option Mehrere Datenprofilscans aus.
Geben Sie ein ID Präfix ein. Im Knowledge Catalog werden Scan-IDs automatisch anhand des angegebenen Präfixes und eindeutiger Suffixe generiert.
Geben Sie eine Beschreibung für alle Datenprofilscans ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie ein Dataset aus, aus dem Sie Tabellen auswählen möchten. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenprofilscans erstellt werden sollen.
Wählen Sie im Bereich Modus eine der folgenden Optionen aus:
- Standard: Ihre Daten werden mit anpassbaren Scaneinstellungen profiliert. Das ist der Standardmodus.
- Leichtgewichtig: Bietet schnelle Erkenntnisse mit einem Scan mit niedriger Latenz und geringer Genauigkeit. Diese Feature befindet sich im Vorschaumodus.
Wenn Sie den Modus Standard ausgewählt haben, konfigurieren Sie die folgenden Einstellungen für die Scans. Diese Einstellungen werden nicht angezeigt, wenn der Modus Lightweight ausgewählt ist.
1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  
  Wenn Sie Inkrementell auswählen, können Sie nur Tabellen verwenden, die auf Grundlage einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind.
2. Wenn Sie die Stichprobenerhebung auf die Datenprofilscans anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus.
  
  Wählen Sie einen Prozentwert zwischen 0,0 % und 100,0 % mit bis zu drei Dezimalstellen aus.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Knowledge Catalog-Seiten in derGoogle Cloud Console für die Quelltabelle. Klicken Sie das Kästchen Ergebnisse in Knowledge Catalog veröffentlichen an.

Sie können die neuesten Scanergebnisse auf den BigQuery- und Knowledge Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenprofilscanergebnisse gewähren in diesem Dokument.

Hinweis :Sie müssen Tabellen auswählen, für die noch keine Scans mit veröffentlichten Ergebnissen vorhanden sind.
Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
- Wiederholen: Die Datenprofilscans werden nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit die Scans ausgeführt werden sollen. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
- On demand: Die Datenprofilscans werden auf Anfrage ausgeführt.
  - Einmalige Ausführung: Der Datenprofilscan wird jetzt einmal ausgeführt und nach der automatischen Löschzeit entfernt. Dieses Feature befindet sich im Vorschaumodus.
    - Automatisches Löschen von Ergebnissen nach dem Scan festlegen: Mit der Zeit für das automatische Löschen wird festgelegt, wie lange ein Datenprofilscan nach der Ausführung aktiv bleibt. Ein Scan des Datenprofils ohne angegebene automatische Löschzeit wird nach 24 Stunden automatisch entfernt. Der Zeitraum für das automatische Löschen kann zwischen 0 Sekunden (sofortiges Löschen) und 365 Tagen liegen.
Klicken Sie auf Weiter.
Klicken Sie im Feld Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere Tabellen aus, die gescannt werden sollen, und klicken Sie auf Auswählen.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenprofilscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenprofilscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Knowledge Catalog erstellt.
  
  Im Knowledge Catalog wird für alle Datenprofilscans dieselbe Ergebnistabelle verwendet.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud -Ressourcen gruppieren können.
Klicken Sie auf Erstellen, um die Scans zu erstellen.

Wenn Sie den Zeitplan auf „On-Demand“ festlegen, können Sie die Scans auch jetzt ausführen, indem Sie auf Scan ausführen klicken.

Datenprofilscan ausführen

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenprofilscan, der ausgeführt werden soll.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Datenprofilscan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.

C#

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for RunDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void RunDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        RunDataScanRequest request = new RunDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
        };
        // Make the request
        RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
    }
}

Go


//go:build examples

package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.RunDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
	}
	resp, err := c.RunDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.RunDataScanRequest;
import com.google.cloud.dataplex.v1.RunDataScanResponse;

public class SyncRunDataScan {

  public static void main(String[] args) throws Exception {
    syncRunDataScan();
  }

  public static void syncRunDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      RunDataScanRequest request =
          RunDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_run_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.RunDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.run_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the run_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
#
def run_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new

  # Call the run_data_scan method.
  result = client.run_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
  p result
end

REST

Verwenden Sie die dataScans.run-Methode, um einen Datenprofilscan auszuführen.

Ergebnisse des Datenprofilscans ansehen

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
- Im Bereich Übersicht werden Informationen zu den letzten Jobs angezeigt, z. B. wann der Scan ausgeführt wurde, die Anzahl der gescannten Tabelleneinträge und der Jobstatus.
- Im Bereich Konfiguration für Datenprofilscan werden Details zum Scan angezeigt.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, z. B. die Spalten der gescannten Tabelle, Statistiken zu den im Scan gefundenen Spalten und die Joblogs, klicken Sie auf den Tab Jobverlauf. Klicken Sie dann auf eine Job-ID.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans jobs describe, um die Ergebnisse eines Datenprofilscan-Jobs aufzurufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Datenprofilscan-Jobs.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DATASCAN: Der Name des Datenprofilscans, zu dem der Job gehört.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

C#

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for GetDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void GetDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        GetDataScanRequest request = new GetDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            View = GetDataScanRequest.Types.DataScanView.Unspecified,
        };
        // Make the request
        DataScan response = dataScanServiceClient.GetDataScan(request);
    }
}

Go


//go:build examples

package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.GetDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
	}
	resp, err := c.GetDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.GetDataScanRequest;

public class SyncGetDataScan {

  public static void main(String[] args) throws Exception {
    syncGetDataScan();
  }

  public static void syncGetDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      GetDataScanRequest request =
          GetDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      DataScan response = dataScanServiceClient.getDataScan(request);
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_get_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.GetDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.get_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the get_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
#
def get_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new

  # Call the get_data_scan method.
  result = client.get_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
  p result
end

REST

Verwenden Sie die Methode dataScans.get, um die Ergebnisse eines Datenprofilscans anzusehen.

Veröffentlichte Ergebnisse ansehen

Wenn die Ergebnisse des Datenprofilscans auf den BigQuery- und Knowledge Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie die neuesten Scanergebnisse auf dem Tab Datenprofil der Quelltabelle ansehen.

Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

BigQuery aufrufen
Klicken Sie im linken Bereich auf Explorer:

Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf Linkes Steuerfeld maximieren, um es zu öffnen.
Klicken Sie im Bereich Explorer auf Datasets und dann auf Ihr Dataset.
Klicken Sie auf Übersicht> „Tabellen“ und wählen Sie dann die Tabelle aus, deren Ergebnisse des Datenprofilscans Sie sehen möchten.
Klicken Sie auf den Tab Datenprofil.

Die zuletzt veröffentlichten Ergebnisse werden angezeigt.

Hinweis :Veröffentlichte Ergebnisse sind möglicherweise nicht verfügbar, wenn ein Scan zum ersten Mal ausgeführt wird.

Letzten Datenprofilscan-Job ansehen

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf den Tab Letzte Job-Ergebnisse.

Auf dem Tab Letzte Jobergebnisse finden Sie Informationen zum letzten Job, sofern mindestens ein Lauf erfolgreich abgeschlossen wurde. Dort werden die Spalten der gescannten Tabelle und Statistiken zu den Spalten aufgeführt, die beim Scan gefunden wurden.

gcloud

Wenn Sie den letzten erfolgreichen Datenprofilscan aufrufen möchten, verwenden Sie den gcloud dataplex datascans describe-Befehl:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans, für den Sie den letzten Job aufrufen möchten.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

REST

Verwenden Sie die Methode dataScans.get, um den letzten Scanjob anzusehen.

Historische Scanergebnisse ansehen

Im Knowledge Catalog wird der Verlauf der Datenprofilscans der letzten 300 Jobs oder des letzten Jahres gespeichert (der kürzere Zeitraum gilt).

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf den Tab Jobverlauf.

Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs, z. B. die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus und die Ausführungszeit des Jobs.
Wenn Sie die Details zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf einen der Jobs.

gcloud

Wenn Sie historische Datenprofilscan-Jobs aufrufen möchten, verwenden Sie den gcloud dataplex datascans jobs list-Befehl:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DATASCAN: Der Name des Datenprofilscans, für den Sie Jobs ansehen möchten.

C#

using Google.Api.Gax;
using Google.Cloud.Dataplex.V1;
using System;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for ListDataScanJobs</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ListDataScanJobsRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        ListDataScanJobsRequest request = new ListDataScanJobsRequest
        {
            ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            Filter = "",
        };
        // Make the request
        PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);

        // Iterate over all response items, lazily performing RPCs as required
        foreach (DataScanJob item in response)
        {
            // Do something with each item
            Console.WriteLine(item);
        }

        // Or iterate over pages (of server-defined size), performing one RPC per page
        foreach (ListDataScanJobsResponse page in response.AsRawResponses())
        {
            // Do something with each page of items
            Console.WriteLine("A page of results:");
            foreach (DataScanJob item in page)
            {
                // Do something with each item
                Console.WriteLine(item);
            }
        }

        // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
        int pageSize = 10;
        Page<DataScanJob> singlePage = response.ReadPage(pageSize);
        // Do something with the page of items
        Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
        foreach (DataScanJob item in singlePage)
        {
            // Do something with each item
            Console.WriteLine(item);
        }
        // Store the pageToken, for when the next page is required.
        string nextPageToken = singlePage.NextPageToken;
    }
}

Go


//go:build examples

package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
	"google.golang.org/api/iterator"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.ListDataScanJobsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
	}
	it := c.ListDataScanJobs(ctx, req)
	for {
		resp, err := it.Next()
		if err == iterator.Done {
			break
		}
		if err != nil {
			// TODO: Handle error.
		}
		// TODO: Use resp.
		_ = resp

		// If you need to access the underlying RPC response,
		// you can do so by casting the `Response` as below.
		// Otherwise, remove this line. Only populated after
		// first call to Next(). Not safe for concurrent access.
		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
	}
}

Java

import com.google.cloud.dataplex.v1.DataScanJob;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;

public class SyncListDataScanJobs {

  public static void main(String[] args) throws Exception {
    syncListDataScanJobs();
  }

  public static void syncListDataScanJobs() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      ListDataScanJobsRequest request =
          ListDataScanJobsRequest.newBuilder()
              .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .setPageSize(883849137)
              .setPageToken("pageToken873572522")
              .setFilter("filter-1274492040")
              .build();
      for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
        // doThingsWith(element);
      }
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_list_data_scan_jobs():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.ListDataScanJobsRequest(
        parent="parent_value",
    )

    # Make the request
    page_result = client.list_data_scan_jobs(request=request)

    # Handle the response
    for response in page_result:
        print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the list_data_scan_jobs call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
#
def list_data_scan_jobs
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new

  # Call the list_data_scan_jobs method.
  result = client.list_data_scan_jobs request

  # The returned object is of type Gapic::PagedEnumerable. You can iterate
  # over elements, and API calls will be issued to fetch pages as needed.
  result.each do |item|
    # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
    p item
  end
end

REST

Wenn Sie historische Datenprofilscan-Jobs ansehen möchten, verwenden Sie die Methode dataScans.jobs.list.

Scans von Datenprofilen für eine Tabelle ansehen

So rufen Sie die Datenprofilscans auf, die für eine bestimmte Tabelle gelten:

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Filtern Sie die Liste nach Tabellennamen und Scantyp.

Zugriff auf Ergebnisse von Datenprofilscans gewähren

So gewähren Sie den Nutzern in Ihrer Organisation Zugriff auf die Scanergebnisse:

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.
Klicken Sie auf den Tab Berechtigungen.
Gehen Sie dazu so vor:
- Wenn Sie einem Hauptkonto Zugriff gewähren möchten, klicken Sie auf Zugriff gewähren. Weisen Sie dem zugehörigen Hauptkonto die Rolle Dataplex DataScan DataViewer zu.
- Wenn Sie den Zugriff von einem Hauptkonto entfernen möchten, wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten. Klicken Sie auf Zugriff entfernen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

Scans von Datenprofilen für eine bestimmte Tabelle verwalten

In diesem Dokument wird beschrieben, wie Sie Datenprofilscans in Ihrem Projekt über BigQuery Metadatenverwaltung> Datenprofilerstellung und ‑qualität in derGoogle Cloud Console verwalten.

Sie können auch Scans für Datenprofile erstellen und verwalten, wenn Sie mit einer bestimmten Tabelle arbeiten. Verwenden Sie in der Google Cloud Console auf der BigQuery-Seite für die Tabelle den Tab Datenprofil. Gehen Sie dazu so vor:

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen

Klicken Sie im Bereich Explorer (im linken Bereich) auf Datasets und dann auf Ihr Dataset. Klicken Sie nun auf Übersicht>Tabellen und wählen Sie die Tabelle aus, deren Ergebnisse des Datenprofilscans Sie sehen möchten.
Klicken Sie auf den Tab Datenprofil.
Je nachdem, ob für die Tabelle ein Datenprofilscan mit veröffentlichten Ergebnissen vorhanden ist, haben Sie folgende Möglichkeiten, mit den Datenprofilscans der Tabelle zu arbeiten:
- Ergebnisse des Datenprofilscans werden veröffentlicht: Die neuesten veröffentlichten Scanergebnisse werden auf der Seite angezeigt.
  
  Wenn Sie die Datenprofilscans für diese Tabelle verwalten möchten, klicken Sie auf Datenprofilscan und wählen Sie dann eine der folgenden Optionen aus:
  - Neuen Scan erstellen: Erstellen Sie einen neuen Datenprofilscan. Weitere Informationen finden Sie in diesem Dokument im Abschnitt Datenprofilscan erstellen. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Jetzt ausführen: Der Scan wird ausgeführt.
  - Scankonfiguration bearbeiten: Bearbeiten Sie Einstellungen wie den Anzeigenamen, Filter, die Stichprobengröße und den Zeitplan.
  - Scanberechtigungen verwalten: Sie können festlegen, wer auf die Scanergebnisse zugreifen darf. Weitere Informationen finden Sie im Abschnitt Zugriff auf Ergebnisse von Datenprofilscans gewähren in diesem Dokument.
  - Historische Ergebnisse ansehen: Hier können Sie detaillierte Informationen zu früheren Datenprofilscan-Jobs aufrufen. Weitere Informationen finden Sie in den Abschnitten Ergebnisse des Datenprofilscans ansehen und Verlaufsergebnisse von Scans ansehen in diesem Dokument.
  - Alle Scans ansehen: Hier sehen Sie eine Liste der Datenprofilscans, die für diese Tabelle gelten.
- Ergebnisse des Datenprofilscans werden nicht veröffentlicht: Klicken Sie auf das Menü neben Schnelles Datenprofil und wählen Sie eine der folgenden Optionen aus:
  - Datenprofilerstellung anpassen: Erstellen Sie einen neuen Datenprofilscan. Weitere Informationen finden Sie in diesem Dokument im Abschnitt Datenprofilscan erstellen. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Vorherige Profile ansehen: Hier sehen Sie eine Liste der Datenprofilscans, die für diese Tabelle gelten.

Datenprofilscan aktualisieren

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf Bearbeiten und bearbeiten Sie dann die Werte.
Klicken Sie auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-profile, um einen Datenprofilscan zu aktualisieren:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu aktualisierenden Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenprofilscan.

C#

using Google.Cloud.Dataplex.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for UpdateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void UpdateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        UpdateDataScanRequest request = new UpdateDataScanRequest
        {
            DataScan = new DataScan(),
            UpdateMask = new FieldMask(),
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go


//go:build examples

package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.UpdateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
	}
	op, err := c.UpdateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
import com.google.protobuf.FieldMask;

public class SyncUpdateDataScan {

  public static void main(String[] args) throws Exception {
    syncUpdateDataScan();
  }

  public static void syncUpdateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      UpdateDataScanRequest request =
          UpdateDataScanRequest.newBuilder()
              .setDataScan(DataScan.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_update_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    data_scan = dataplex_v1.DataScan()
    data_scan.data.entity = "entity_value"

    request = dataplex_v1.UpdateDataScanRequest(
        data_scan=data_scan,
    )

    # Make the request
    operation = client.update_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the update_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
#
def update_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new

  # Call the update_data_scan method.
  result = client.update_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

Verwenden Sie die dataScans.patch-Methode, um einen Datenprofilscan zu bearbeiten.

Datenprofilscan löschen

Console

Rufen Sie in der Google Cloud Console auf der BigQuery-Seite Metadaten-Curation den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

gcloud

Verwenden Sie zum Löschen eines Datenprofilscans den gcloud dataplex datascans delete-Befehl:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu löschenden Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Datenprofilscans die Methode dataScans.delete.