Automatische Datenqualität verwenden

In diesem Dokument wird beschrieben, wie Sie Datenqualitätsscans von Dataplex Universal Catalog verwenden, um die Qualität Ihrer Daten zu messen, zu überwachen und zu verwalten. Mit Datenqualitätsprüfungen können Sie den Prozess der Validierung Ihrer Daten auf Vollständigkeit, Gültigkeit und Konsistenz automatisieren.

Mit Datenqualitätsprüfungen können Sie Regeln definieren, um nach fehlenden Werten zu suchen, dafür zu sorgen, dass Werte mit einem regulären Ausdruck übereinstimmen oder zu einer Gruppe gehören, die Eindeutigkeit zu prüfen oder benutzerdefiniertes SQL für komplexere Validierungen wie die Anomalieerkennung zu verwenden. In diesem Dokument wird beschrieben, wie Sie Scans zur Datenqualität erstellen und verwalten.

Weitere Informationen zu Datenqualitätsscans finden Sie unter Automatische Datenqualität.

Hinweis

Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API
Optional: Wenn Sie möchten, dass Dataplex Universal Catalog auf Grundlage der Ergebnisse eines Datenprofilscans Empfehlungen für Datenqualitätsregeln generiert, erstellen und führen Sie den Datenprofilscan aus.

Erforderliche Rollen und Berechtigungen

In diesem Abschnitt werden die IAM-Rollen und -Berechtigungen beschrieben, die für die Verwendung von Dataplex Universal Catalog-Scans zur Datenqualität erforderlich sind.

Nutzerrollen und Berechtigungen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, damit Sie die nötigen Berechtigungen zum Ausführen und Verwalten von Datenqualitätsprüfungen haben:

So führen Sie einen Datenqualitäts-Scan für eine BigQuery-Tabelle aus:
- BigQuery Job User (roles/bigquery.jobUser) für das Projekt, um Scanjobs auszuführen
- BigQuery Data Viewer (roles/bigquery.dataViewer) für die zu scannende BigQuery-Tabelle
Ergebnisse von Datenqualitätsscans in Dataplex Universal Catalog veröffentlichen:
- BigQuery Data Editor (roles/bigquery.dataEditor) für die gescannte Tabelle
- Dataplex Catalog Editor (roles/dataplex.catalogEditor) für die Eintragsgruppe @bigquery am selben Speicherort wie die Tabelle
Bestimmte Aufgaben für DataScan-Ressourcen ausführen:
- Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt für vollständigen Zugriff
- Dataplex DataScan Creator (roles/dataplex.dataScanCreator) für das Projekt, um Scans zu erstellen
- Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) für das Projekt für Schreibzugriff
- Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer) für das Projekt, um Scanmetadaten zu lesen
- Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) für das Projekt, um Scandaten einschließlich Regeln und Ergebnissen zu lesen

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen und Verwalten von Datenqualitätsscans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenqualitätsscans auszuführen und zu verwalten:

So führen Sie einen Datenqualitäts-Scan für eine BigQuery-Tabelle aus:
- bigquery.jobs.create für das Projekt, um Scanjobs auszuführen
- bigquery.tables.get für die zu scannende BigQuery-Tabelle
- bigquery.tables.getData für die zu scannende BigQuery-Tabelle
Ergebnisse von Datenqualitätsscans in Dataplex Universal Catalog veröffentlichen:
- bigquery.tables.update für die gescannte Tabelle
- dataplex.entryGroups.useDataQualityScorecardAspect in der Eintragsgruppe @bigquery am selben Speicherort wie die Tabelle
So erstellen Sie ein DataScan: dataplex.datascans.create für das Projekt
DataScan löschen: dataplex.datascans.delete für das Projekt
DataScan-Metadaten ansehen: dataplex.datascans.get für das Projekt
So rufen Sie die DataScan-Details einschließlich Regeln und Ergebnissen auf: dataplex.datascans.getData für das Projekt
DataScan auflisten: dataplex.datascans.list im Projekt
Führen Sie eine DataScan aus: dataplex.datascans.run für das Projekt
DataScan aktualisieren: dataplex.datascans.update für das Projekt
IAM-Richtlinie für ein DataScan abrufen oder festlegen:
- dataplex.datascans.getIamPolicy für das Projekt
- dataplex.datascans.setIamPolicy für das Projekt

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, benötigen Sie auch Berechtigungen für diese Spalten.

Rollen und Berechtigungen für das Dataplex Universal Catalog-Dienstkonto

Wenn Sie noch keine Datenqualitäts- oder Datenprofilscans erstellt haben oder das Projekt keinen Dataplex Universal Catalog-Lake enthält, erstellen Sie eine Dienstkennung, indem Sie Folgendes ausführen: gcloud beta services identity create --service=dataplex.googleapis.com. Dieser Befehl gibt eine Dataplex Universal Catalog-Dienstkennung zurück, sofern sie vorhanden ist.

Damit das Dataplex Universal Catalog-Dienstkonto des Projekts, das den Datenqualitätsscan enthält, die erforderlichen Berechtigungen zum Lesen von Daten aus verschiedenen Quellen und zum Exportieren von Ergebnissen hat, bitten Sie Ihren Administrator, dem Dataplex Universal Catalog-Dienstkonto des Projekts, das den Datenqualitätsscan enthält, die folgenden IAM-Rollen zu gewähren:

BigQuery-Tabellendaten lesen: BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für zu scannende BigQuery-Tabellen und alle anderen Tabellen, auf die in Regeln verwiesen wird
Scanergebnisse in eine BigQuery-Tabelle exportieren: BigQuery Data Editor (roles/bigquery.dataEditor) für das Ergebnis-Dataset und die ‑Tabelle
BigQuery-Daten scannen, die in einem Dataplex Universal Catalog-Lake organisiert sind:
- Dataplex Metadata Reader (roles/dataplex.metadataReader) für Dataplex-Ressourcen
- Dataplex-Betrachter (roles/dataplex.viewer) für Dataplex-Ressourcen
Scannen einer externen BigQuery-Tabelle aus Cloud Storage: Storage-Objekt-Betrachter (roles/storage.objectViewer) für den Cloud Storage-Bucket

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Lesen von Daten aus verschiedenen Quellen und zum Exportieren von Ergebnissen erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Daten aus verschiedenen Quellen zu lesen und Ergebnisse zu exportieren:

BigQuery-Tabellendaten lesen:
- bigquery.tables.get für BigQuery-Tabellen
- bigquery.tables.getData für BigQuery-Tabellen
Scanergebnisse in eine BigQuery-Tabelle exportieren:
- bigquery.datasets.get für das Ergebnis-Dataset und die Ergebnis-Tabelle
- bigquery.tables.create für das Ergebnis-Dataset und die Ergebnis-Tabelle
- bigquery.tables.get für das Ergebnis-Dataset und die Ergebnis-Tabelle
- bigquery.tables.getData für das Ergebnis-Dataset und die Ergebnis-Tabelle
- bigquery.tables.update für das Ergebnis-Dataset und die Ergebnis-Tabelle
- bigquery.tables.updateData für das Ergebnis-Dataset und die Ergebnis-Tabelle
BigQuery-Daten scannen, die in einem Dataplex Universal Catalog-Lake organisiert sind:
- dataplex.lakes.list für Dataplex-Ressourcen
- dataplex.lakes.get für Dataplex-Ressourcen
- dataplex.zones.list für Dataplex-Ressourcen
- dataplex.zones.get für Dataplex-Ressourcen
- dataplex.entities.list für Dataplex-Ressourcen
- dataplex.entities.get für Dataplex-Ressourcen
- dataplex.operations.get für Dataplex-Ressourcen
Externe BigQuery-Tabelle aus Cloud Storage scannen:
- storage.buckets.get für den Cloud Storage-Bucket
- storage.objects.get für den Cloud Storage-Bucket

Ihr Administrator kann dem Dataplex Universal Catalog-Dienstkonto des Projekts, das den Datenqualitäts-Scan enthält, möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto Berechtigungen für diese Spalten zu.

Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex Universal Catalog-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden bei Richtlinien auf Zeilenebene nicht berücksichtigt.

Regeln für die Datenqualität definieren

Sie können Datenqualitätsregeln mit integrierten Regeln oder benutzerdefinierten SQL-Prüfungen definieren. Wenn Sie die Google Cloud CLI verwenden, können Sie diese Regeln in einer JSON- oder YAML-Datei definieren.

Die Beispiele in den folgenden Abschnitten zeigen, wie verschiedene Regeln für die Datenqualität definiert werden. Mit den Regeln wird eine Beispieltabelle mit Daten zu Kundentransaktionen validiert. Angenommen, die Tabelle hat das folgende Schema:

Spaltenname	Spaltentyp	Spaltenbeschreibung
transaction_timestamp	Zeitstempel	Zeitstempel der Transaktion. Die Tabelle ist nach diesem Feld partitioniert.
customer_id	String	Eine Kundennummer im Format „8 Buchstaben gefolgt von 16 Ziffern“.
transaction_id	String	Die Transaktions-ID muss in der Tabelle eindeutig sein.
currency_id	String	Eine der unterstützten Währungen.Der Währungstyp muss mit einer der verfügbaren Währungen in der Dimensionstabelle `dim_currency` übereinstimmen.
Menge	float	Transaktionsbetrag
discount_pct	float	Rabattprozentsatz Dieser Wert muss zwischen 0 und 100 liegen.

Datenqualitätsregeln mit integrierten Regeltypen definieren

Die folgenden Beispielregeln basieren auf integrierten Regeltypen. Sie können Regeln basierend auf integrierten Regeltypen über die Google Cloud -Console oder die API erstellen. Dataplex Universal Catalog empfiehlt möglicherweise einige dieser Regeln.

Spaltenname	Regeltyp	Vorgeschlagene Dimension	Regelparameter
`transaction_id`	Eindeutigkeitsprüfung	Eindeutigkeit	Threshold: `Not Applicable` (Grenzwert: 500)
`amount`	NULL-Prüfung	Vollständigkeit	Threshold: `100%` (Grenzwert: 500)
`customer_id`	Regex-Prüfung (regulärer Ausdruck)	Gültigkeit	Regulärer Ausdruck: `^[0-9]{8}[a-zA-Z]{16}$` Schwellenwert: `100%`
`currency_id`	Wertesatzprüfung	Gültigkeit	Gruppe: `USD,JPY,INR,GBP,CAN` Grenzwert: `100%`

Datenqualitätsregeln mit benutzerdefinierten SQL-Regeln definieren

Verwenden Sie das folgende Framework, um benutzerdefinierte SQL-Regeln zu erstellen:

Wenn Sie eine Regel erstellen, die jeweils eine Zeile auswertet, erstellen Sie einen Ausdruck, der die Anzahl der erfolgreichen Zeilen generiert, wenn Dataplex Universal Catalog die Abfrage SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE auswertet. Dataplex Universal Catalog vergleicht die Anzahl der erfolgreichen Zeilen mit dem Schwellenwert.
Wenn Sie eine Regel erstellen, die zeilenübergreifend ausgewertet wird oder eine Tabellenbedingung verwendet, erstellen Sie einen Ausdruck, der „Erfolg“ oder „Fehler“ zurückgibt, wenn Dataplex Universal Catalog die Abfrage SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE auswertet.
Wenn Sie eine Regel erstellen, mit der der ungültige Status eines Datasets ausgewertet wird, geben Sie eine Anweisung an, die ungültige Zeilen zurückgibt. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon in der SQL-Anweisung weg.
Sie können in einer Regel mit dem Datenreferenzparameter ${data()} auf eine Datenquellentabelle und alle zugehörigen Vorbedingungsfilter verweisen, anstatt die Quellentabelle und ihre Filter explizit zu erwähnen. Beispiele für Precondition-Filter sind Zeilenfilter, Stichprobenprozentsätze und inkrementelle Filter. Beim Parameter ${data()} wird zwischen Groß- und Kleinschreibung unterschieden.

Die folgenden Beispielregeln basieren auf benutzerdefinierten SQL-Regeln.

Regeltyp	Regelbeschreibung	SQL-Ausdruck
Zeilenbedingung	Prüft, ob der Wert von `discount_pct` zwischen 0 und 100 liegt.	`0` < `discount_pct` UND `discount_pct` < `100`
Zeilenbedingung	Prüfen Sie, ob `currency_id` eine der unterstützten Währungen ist.	`currency_id in (select id from my_project_id.dim_dataset.dim_currency)`
Tabellenbedingung	Aggregierter SQL-Ausdruck, mit dem geprüft wird, ob der durchschnittliche `discount_pct` zwischen 30% und 50 % liegt.	`30<avg(discount) AND avg(discount) <50`
Zeilenbedingung	Prüft, ob ein Datum nicht in der Zukunft liegt.	`TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()`
Tabellenbedingung	Eine benutzerdefinierte BigQuery-Funktion (UDF), um zu prüfen, ob der durchschnittliche Transaktionsbetrag pro Land unter einem vordefinierten Wert liegt. Erstellen Sie die (JavaScript-)UDF mit dem folgenden Befehl: CREATE OR REPLACE FUNCTION myProject.myDataset.average_by_country ( country STRING, average FLOAT64) RETURNS BOOL LANGUAGE js AS R""" if (country = "CAN" && average < 5000){ return 1 } else if (country = "IND" && average < 1000){ return 1 } else { return 0 } """;	Beispielregel zum Prüfen des durchschnittlichen Transaktionsbetrags für `country=CAN`. myProject.myDataset.average_by_country( "CAN", (SELECT avg(amount) FROM myProject.myDataset.transactions_table WHERE currency_id = 'CAN' ))
Tabellenbedingung	Eine BigQuery ML-PREDICT-Klausel zum Erkennen von Anomalien in `discount_pct`. Es wird geprüft, ob ein Rabatt basierend auf `customer`, `currency` und `transaction` angewendet werden soll. Die Regel prüft, ob die Vorhersage mindestens 99% der Zeit mit dem tatsächlichen Wert übereinstimmt. Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	Mit der folgenden Regel wird geprüft, ob die Vorhersagegenauigkeit über 99 % liegt. SELECT accuracy > 0.99 FROM ML.EVALUATE (MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names WHERE transaction_timestamp > '2022-01-01'; ) )
Zeilenbedingung	Eine BigQuery ML-Vorhersagefunktion zum Erkennen von Anomalien in `discount_pct`. Die Funktion prüft anhand von `customer`, `currency` und `transaction`, ob ein Rabatt angewendet werden soll. Mit der Regel werden alle Fälle ermittelt, in denen die Vorhersage nicht übereinstimmte. Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl: CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01';	Mit der folgenden Regel wird geprüft, ob die Rabattvorhersage für jede Zeile mit dem tatsächlichen Rabatt übereinstimmt. IF(discount_pct > 0, 1, 0) =(SELECT predicted_label FROM ML.PREDICT( MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names AS t WHERE t.transaction_timestamp = transaction_timestamp LIMIT 1 ) ) )
SQL-Assertion	Prüft, ob der `discount_pct` für heute größer als 30% ist, indem geprüft wird, ob Zeilen mit einem Rabattprozentsatz kleiner oder gleich 30 vorhanden sind.	`SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date()`
SQL-Assertion (mit Parameter für Datenreferenz)	Prüft, ob der `discount_pct` für alle unterstützten Währungen heute über 30% liegt. Der Datumsfilter `transaction_timestamp >= current_date()` wird als Zeilenfilter auf die Datenquellentabelle angewendet. Der Datenreferenzparameter `${data()}` dient als Platzhalter für `my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date()` und wendet den Zeilenfilter an.	`SELECT * FROM ${data()} WHERE discount_pct > 30`

Datenqualitätsregeln mit der gcloud CLI definieren

In der folgenden YAML-Beispieldatei werden einige der Regeln aus den Beispielregeln mit integrierten Typen und den benutzerdefinierten SQL-Beispielregeln verwendet. Diese YAML-Datei enthält auch andere Spezifikationen für den Datenqualitäts-Scan, z. B. Filter und den Prozentsatz für das Sampling. Wenn Sie die gcloud CLI zum Erstellen oder Aktualisieren eines Datenqualitäts-Scans verwenden, können Sie eine YAML-Datei wie diese als Eingabe für das Argument --data-quality-spec-file verwenden.

rules:
- uniquenessExpectation: {}
  column: transaction_id
  dimension: UNIQUENESS
- nonNullExpectation: {}
  column: amount
  dimension: COMPLETENESS
  threshold: 1
- regexExpectation:
    regex: '^[0-9]{8}[a-zA-Z]{16}$'
  column : customer_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- setExpectation :
    values :
    - 'USD'
    - 'JPY'
    - 'INR'
    - 'GBP'
    - 'CAN'
  column : currency_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rangeExpectation:
    minValue : '0'
    maxValue : '100'
  column : discount_pct
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rowConditionExpectation:
    sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
  column: discount_pct
  dimension: VALIDITY
  threshold: 1
- rowConditionExpectation:
    sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
  column: currency_id
  dimension: VALIDITY
  threshold: 1
- tableConditionExpectation:
    sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
  dimension: VALIDITY
- rowConditionExpectation:
    sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
  column: transaction_timestamp
  dimension: VALIDITY
  threshold: 1
- sqlAssertion:
    sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
  dimension: VALIDITY
  debugQueries:
  - sqlStatement: SELECT MAX(discount_pct) FROM `my_project_id.dim_dataset.dim_currency`
samplingPercent: 50
rowFilter: discount_pct > 100
postScanActions:
  bigqueryExport:
    resultsTable: projects/my_project_id/datasets/dim_dataset/tables/dim_currency
  notificationReport:
    recipients:
      emails:
      - '222larabrown@gmail.com'
      - 'cloudysanfrancisco@gmail.com'
    scoreThresholdTrigger:
      scoreThreshold: 50
    jobFailureTrigger: {}
    jobEndTrigger: {}
catalogPublishingEnabled: true

Datenqualitätsscan erstellen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenqualitätsscan erstellen.
Füllen Sie im Fenster Scan definieren die folgenden Felder aus:
1. Optional: Geben Sie einen Anzeigenamen ein.
2. Geben Sie eine ID ein. Weitere Informationen finden Sie unter Konventionen für Ressourcennamen.
3. Optional: Geben Sie eine Beschreibung ein.
4. Klicken Sie im Feld Tabelle auf Durchsuchen. Wählen Sie die Tabelle aus, die gescannt werden soll, und klicken Sie dann auf Auswählen. Es werden nur Standard-BigQuery-Tabellen unterstützt.
  
  Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.
  
  Wenn Sie die Tabellen durchsuchen möchten, die in Dataplex Universal Catalog-Lakes organisiert sind, klicken Sie auf In Dataplex-Lakes suchen.
5. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  - Wenn Sie Inkrementell auswählen, wählen Sie im Feld Spalte für Zeitstempel eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus, die mit jedem neuen Eintrag zunimmt und zum Identifizieren neuer Einträge verwendet werden kann. Das kann eine Spalte sein, mit der die Tabelle partitioniert wird.
6. Wenn Sie Ihre Daten filtern möchten, aktivieren Sie das Kästchen Zeilen filtern. Geben Sie einen Zeilenfilter an, der aus einem gültigen SQL-Ausdruck besteht, der als Teil einer WHERE-Anweisung in GoogleSQL-Syntax verwendet werden kann. Beispiel: col1 >= 0 Der Filter kann eine Kombination aus mehreren Spaltenbedingungen sein. Beispiel: col1 >= 0 AND col2 < 10.
7. Wenn Sie die Stichprobenerhebung auf Ihre Daten anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus. Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus. Wählen Sie bei größeren Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von 1 PB einen Wert zwischen 0, 1% und 1, 0 % eingeben, werden beim Datenqualitäts-Scan 1–10 TB an Daten als Stichprobe erhoben. Bei Scans inkrementeller Daten wird die Stichprobe für den Datenqualitätsscan aus dem neuesten Inkrement erhoben.
8. Wenn Sie die Ergebnisse des Datenqualitätsscans als Metadaten im Dataplex Universal Catalog veröffentlichen möchten, aktivieren Sie das Kästchen Ergebnisse im Dataplex-Katalog veröffentlichen.
  
  Sie können die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle auf dem Tab Datenqualität ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenqualitätsscan-Ergebnisse gewähren in diesem Dokument.
9. Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
  - Wiederholen: Der Datenqualitätsscan wird nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
  - On-Demand: Führen Sie den Datenqualitätsscan bei Bedarf aus.
  - Einmalige Ausführung: Führen Sie den Datenqualitätsscan jetzt einmal aus und entfernen Sie ihn nach dem Ablauf des TTL-Zeitraums. Diese Feature befindet sich im Vorschaumodus.
  - Gültigkeitsdauer: Die Gültigkeitsdauer ist der Zeitraum zwischen der Ausführung und dem Löschen des Scans. Ein Scan zur Datenqualität ohne angegebene Gültigkeitsdauer wird 24 Stunden nach der Ausführung automatisch gelöscht. Die Gültigkeitsdauer kann zwischen 0 Sekunden (sofortiges Löschen) und 365 Tagen liegen.
10. Klicken Sie auf Weiter.
Definieren Sie im Fenster Regeln für Datenqualität die Regeln, die für diesen Datenqualitätsscan konfiguriert werden sollen.
1. Klicken Sie auf Regeln hinzufügen und wählen Sie eine der folgenden Optionen aus.
  - Profilbasierte Empfehlungen: Erstellen Sie Regeln anhand der Empfehlungen, die auf einem vorhandenen Datenprofilscan basieren.
    1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie empfohlene Regeln erhalten möchten.
    2. Scanprojekt auswählen: Wenn sich der Datenprofilscan in einem anderen Projekt als dem Projekt befindet, in dem Sie den Datenqualitätsscan erstellen, wählen Sie das Projekt aus, aus dem Profilscans abgerufen werden sollen.
    3. Profilergebnisse auswählen: Wählen Sie ein oder mehrere Profilergebnisse aus und klicken Sie dann auf OK. Dadurch wird eine Liste mit vorgeschlagenen Regeln erstellt, die Sie als Ausgangspunkt verwenden können.
    4. Klicken Sie das Kästchen für die Regeln an, die Sie hinzufügen möchten, und dann auf Auswählen. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
  - Integrierte Regeltypen: Erstellen Sie Regeln aus vordefinierten Regeln. Liste der vordefinierten Regeln
    1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie Regeln auswählen möchten.
    2. Regeltypen auswählen: Wählen Sie die Regeltypen aus, die Sie verwenden möchten, und klicken Sie dann auf OK. Welche Regeltypen angezeigt werden, hängt von den ausgewählten Spalten ab.
    3. Klicken Sie das Kästchen für die Regeln an, die Sie hinzufügen möchten, und dann auf Auswählen. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
  - Prüfregel für SQL-Zeilen: Erstellen Sie eine benutzerdefinierte SQL-Regel, die auf jede Zeile angewendet wird.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Wählen Sie unter Bestandene Mindestanzahl einen Prozentsatz der Datensätze aus, die die Prüfung bestehen müssen.
    3. Wählen Sie unter Spaltenname eine Spalte aus.
    4. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Regeln für die Datenqualität definieren.
    5. Klicken Sie auf Hinzufügen.
  - Prüfregel für SQL-Aggregate: Erstellen Sie eine benutzerdefinierte SQL-Regel für Tabellenbedingungen.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Wählen Sie unter Spaltenname eine Spalte aus.
    3. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Regeln für die Datenqualität definieren.
    4. Klicken Sie auf Hinzufügen.
  - SQL-Assertion-Regel: Erstellen Sie eine benutzerdefinierte SQL-Assertion-Regel, um den ungültigen Status der Daten zu prüfen.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Optional: Wählen Sie unter Spaltenname eine Spalte aus.
    3. Geben Sie im Feld SQL-Anweisung angeben eine SQL-Anweisung ein, die Zeilen zurückgibt, die dem ungültigen Status entsprechen. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon in der SQL-Anweisung weg. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Datenqualitätsregeln definieren.
    4. Klicken Sie auf Hinzufügen.
2. Optional: Sie können jeder Datenqualitätsregel einen benutzerdefinierten Namen zuweisen, der für Monitoring und Benachrichtigungen verwendet wird, sowie eine Beschreibung. Bearbeiten Sie dazu eine Regel und geben Sie die folgenden Details an:
  - Regelname: Geben Sie einen benutzerdefinierten Regelnamen mit bis zu 63 Zeichen ein. Der Name der Regel kann Buchstaben (a–z, A–Z), Ziffern (0–9) und Bindestriche (-) enthalten. Er muss mit einem Buchstaben beginnen und mit einer Ziffer oder einem Buchstaben enden.
  - Beschreibung: Geben Sie eine Regelbeschreibung mit maximal 1.024 Zeichen ein.
3. Wiederholen Sie die vorherigen Schritte, um dem Datenqualitätsscan weitere Regeln hinzuzufügen. Klicken Sie anschließend auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenqualitätsscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenqualitätsscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
  
  Hinweis: Sie können dieselbe Ergebnistabelle für mehrere Datenqualitätsscans verwenden.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte miteinander oder mit anderen Google Cloud -Ressourcen gruppieren können.
Optional: Richten Sie E-Mail-Benachrichtigungsberichte ein, um Personen über den Status und die Ergebnisse eines Datenqualitätsscan-Jobs zu informieren. Klicken Sie im Bereich Benachrichtigungsbericht auf E‑Mail-ID hinzufügen und geben Sie bis zu fünf E‑Mail-Adressen ein. Wählen Sie dann die Szenarien aus, für die Sie Berichte senden möchten:
- Wert für Qualität (<=): Ein Bericht wird gesendet, wenn ein Job mit einem Datenqualitätsfaktor abgeschlossen wird, der niedriger als der angegebene Zielwert ist. Geben Sie einen Ziel-Qualitätsfaktor zwischen 0 und 100 ein.
- Job failures (Jobfehler): sendet einen Bericht, wenn der Job selbst fehlschlägt, unabhängig von den Ergebnissen der Datenqualitätsprüfung.
- Jobabschluss (Erfolg oder Fehler): Sendet einen Bericht, wenn der Job beendet wird, unabhängig von den Ergebnissen zur Datenqualität.
Klicken Sie auf Erstellen.

Nachdem Sie den Scan erstellt haben, können Sie ihn jederzeit ausführen, indem Sie auf Run now (Jetzt ausführen) klicken.

gcloud

Verwenden Sie zum Erstellen eines Datenqualitätsscans den Befehl gcloud dataplex datascans create data-quality.

Wenn die Quelldaten in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-entity ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Wenn die Quelldaten nicht in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-resource ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenqualitäts-Scans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt werden soll.
DATA_QUALITY_SPEC_FILE: Der Pfad zur JSON- oder YAML-Datei, die die Spezifikationen für den Datenqualitäts-Scan enthält. Die Datei kann eine lokale Datei oder ein Cloud Storage-Pfad mit dem Präfix gs:// sein. Mit dieser Datei geben Sie die Datenqualitätsregeln für den Scan an. Sie können in dieser Datei auch zusätzliche Details angeben, z. B. Filter, den Prozentsatz für das Sampling und Aktionen nach dem Scan, z. B. den Export nach BigQuery oder das Senden von E‑Mail-Benachrichtigungsberichten. Weitere Informationen finden Sie in der Dokumentation zur JSON-Darstellung und in der YAML-Beispieldarstellung.
DATA_SOURCE_ENTITY: Die Dataplex Universal Catalog-Entität, die die Daten für den Datenqualitätsscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenqualitäts-Scan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

C#

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für C# in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog C# API.

Richten Sie zur Authentifizierung bei Dataplex Universal Catalog die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

using Google.Api.Gax.ResourceNames;
using Google.Cloud.Dataplex.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for CreateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        CreateDataScanRequest request = new CreateDataScanRequest
        {
            ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            DataScan = new DataScan(),
            DataScanId = "",
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Go in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog Go API.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.CreateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
	}
	op, err := c.CreateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Java in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog Java API.

import com.google.cloud.dataplex.v1.CreateDataScanRequest;
import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.LocationName;

public class SyncCreateDataScan {

  public static void main(String[] args) throws Exception {
    syncCreateDataScan();
  }

  public static void syncCreateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      CreateDataScanRequest request =
          CreateDataScanRequest.newBuilder()
              .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
              .setDataScan(DataScan.newBuilder().build())
              .setDataScanId("dataScanId1260787906")
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
    }
  }
}

Node.js

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Node.js in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog Node.js API.

// Copyright 2026 Google LLC
//
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this file except in compliance with the License.
// You may obtain a copy of the License at
//
//     https://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.
//
// ** This file is automatically generated by gapic-generator-typescript. **
// ** https://github.com/googleapis/gapic-generator-typescript **
// ** All changes to this file may be overwritten. **



'use strict';

function main(parent, dataScan, dataScanId) {
  /**
   * This snippet has been automatically generated and should be regarded as a code template only.
   * It will require modifications to work.
   * It may require correct/in-range values for request initialization.
   * TODO(developer): Uncomment these variables before running the sample.
   */
  /**
   *  Required. The resource name of the parent location:
   *  `projects/{project}/locations/{location_id}`
   *  where `project` refers to a *project_id* or *project_number* and
   *  `location_id` refers to a Google Cloud region.
   */
  // const parent = 'abc123'
  /**
   *  Required. DataScan resource.
   */
  // const dataScan = {}
  /**
   *  Required. DataScan identifier.
   *  * Must contain only lowercase letters, numbers and hyphens.
   *  * Must start with a letter.
   *  * Must end with a number or a letter.
   *  * Must be between 1-63 characters.
   *  * Must be unique within the customer project / location.
   */
  // const dataScanId = 'abc123'
  /**
   *  Optional. Only validate the request, but do not perform mutations.
   *  The default is `false`.
   */
  // const validateOnly = true

  // Imports the Dataplex library
  const {DataScanServiceClient} = require('@google-cloud/dataplex').v1;

  // Instantiates a client
  const dataplexClient = new DataScanServiceClient();

  async function callCreateDataScan() {
    // Construct request
    const request = {
      parent,
      dataScan,
      dataScanId,
    };

    // Run request
    const [operation] = await dataplexClient.createDataScan(request);
    const [response] = await operation.promise();
    console.log(response);
  }

  callCreateDataScan();
}

process.on('unhandledRejection', err => {
  console.error(err.message);
  process.exitCode = 1;
});
main(...process.argv.slice(2));

Python

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Python in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog Python API.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_create_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    data_scan = dataplex_v1.DataScan()
    data_scan.data_quality_spec.rules.dimension = "dimension_value"
    data_scan.data.entity = "entity_value"

    request = dataplex_v1.CreateDataScanRequest(
        parent="parent_value",
        data_scan=data_scan,
        data_scan_id="data_scan_id_value",
    )

    # Make the request
    operation = client.create_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Ruby in der Dataplex Universal Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Dataplex Universal Catalog Ruby API.

require "google/cloud/dataplex/v1"

##
# Snippet for the create_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
#
def create_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new

  # Call the create_data_scan method.
  result = client.create_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

Verwenden Sie die dataScans.create-Methode, um einen Datenqualitätsscan zu erstellen.

Mit der folgenden Anfrage wird ein einmaliger Datenqualitätsscan erstellt:

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?data_scan_id=DATASCAN_ID

{
"data": {
  "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
},
"type": "DATA_QUALITY",
"executionSpec": {
  "trigger": {
    "oneTime": {
      "ttl_after_scan_completion": "120s"
    }
  }
},
"dataQualitySpec": {
  "rules": [
    {
      "nonNullExpectation": {},
      "column": "COLUMN_NAME",
      "dimension": "DIMENSION",
      "threshold": 1
    }
  ]
}
}

Ersetzen Sie Folgendes:

PROJECT_ID: Ihre Projekt-ID.
LOCATION: Die Region, in der der Datenqualitätsscan erstellt werden soll.
DATASCAN_ID: Die ID des Datenqualitätsscans.
DATASET_ID: Die ID des BigQuery-Datasets.
TABLE_ID: Die ID der BigQuery-Tabelle.
COLUMN_NAME: Der Spaltenname für die Regel.
DIMENSION: Die Dimension für die Regel, z. B. VALIDITY.

Wenn Sie Regeln für den Datenqualitätsscan anhand von Regelempfehlungen erstellen möchten, die auf den Ergebnissen eines Datenprofilscans basieren, rufen Sie die Empfehlungen auf, indem Sie die dataScans.jobs.generateDataQualityRules-Methode für den Datenprofilscan aufrufen.

Hinweis:Wenn für Ihre BigQuery-Tabelle die Einstellung Partitionsfilter erforderlich auf true gesetzt ist, verwenden Sie die BigQuery-Partitionsspalte als Zeilenfilter oder Zeitstempelspalte für den Datenqualitätsscan.

Tabellenschema exportieren

Wenn Sie die Ergebnisse des Datenqualitätsscans in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:

Spaltenname	Datentyp der Spalte	Name des Unterfelds (falls zutreffend)	Datentyp des Unterfelds	Modus	Beispiel
data_quality_scan	`struct/record`	`resource_name`	`string`	nullable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	nullable	`dataplex-back-end-dev-project`
		`location`	`string`	nullable	`us-central1`
		`data_scan_id`	`string`	nullable	`test-datascan`
		`display_name`	`string`	nullable	`datascan-display-name`
data_source	`struct/record`	`resource_name`	`string`	nullable	Entität: `//dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1` Tabelle: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`dataplex-back-end-dev-project`
		`dataplex_entity_project_number`	`integer`	nullable	`123456789`
		`dataplex_lake_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-lake`
		`dataplex_zone_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-zone`
		`dataplex_entity_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-entity`
		`table_project_id`	`string`	nullable	`test-project`
		`table_project_number`	`integer`	nullable	`987654321`
		`dataset_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-dataset`
		`table_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-table`
data_quality_job_id	`string`			nullable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_quality_job_configuration	`json`	`trigger`	`string`	nullable	`ondemand`/`schedule`
		`incremental`	`boolean`	nullable	`true`/`false`
		`sampling_percent`	`float`	nullable	(0–100) `20.0` (entspricht 20 %)
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
		`incremental_column`	`string`	nullable	`column_name`
job_labels	`json`			nullable	`{"key1":value1}`
job_start_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_quality_result	`struct/record`	`passed`	`boolean`	nullable	`true`/`false`
		`score`	`float`	nullable	`90.8`
		`incremental_start`	`string`	nullable	`2023-01-01T00:00:00`
		`incremental_end`	`string`	nullable	`2024-01-01T00:00:00`
job_dimension_result	`json`			nullable	`{"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}`
job_rows_scanned	`integer`			nullable	`7500`
rule_name	`string`			nullable	`test-rule`
rule_description	`string`			nullable	`Test rule description`
rule_type	`string`			nullable	`Range Check`
rule_evaluation_type	`string`			nullable	`Per row`
rule_column	`string`			nullable	`Rule only attached to a certain column`
rule_dimension	`string`			nullable	`UNIQUENESS`
rule_threshold_percent	`float`			nullable	(0.0–100.0) `Rule-threshold-pct in API * 100`
rule_parameters	`json`			nullable	`{min: 24, max:5345}`
rule_passed	`boolean`			nullable	`true`
rule_rows_evaluated	`integer`			nullable	`7400`
rule_rows_passed	`integer`			nullable	`3`
rule_rows_null	`integer`			nullable	`4`
rule_failed_records_query	`string`			nullable	"SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));"
created_on	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
last_updated	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
rule_assertion_row_count	`integer`			nullable	`10`
debug_queries	`struct/record`	`description`	`string`	nullable	`Test debug query description`
		`sql_statement`	`string`	nullable	`SELECT MIN(col1) AS min_col1, AVG(col1) FROM ${data()}`
		`debug_query_results`	`struct/record`	repeated	`[{"name": "min_col1", "type": "INTEGER", "value": "5"}, {"type": "FLOAT", "value": "7"}]`
		↳ `name`	`string`	nullable	Der Name der Spalte mit dem Abfrageergebnis, z. B. `min_col1`
		↳ `type`	`string`	nullable	Der Typ der Spalte mit dem Abfrageergebnis, z. B. `INTEGER`
		↳ `value`	`string`	nullable	Der Wert der Spalte mit dem Abfrageergebnis, z. B. `5`

Wenn Sie BigQueryExport für einen Job zum Scannen der Datenqualität konfigurieren, sollten Sie die folgenden Richtlinien beachten:

Verwenden Sie für das Feld resultsTable folgendes Format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
Verwenden Sie eine BigQuery-Standardtabelle.
Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
Standardmäßig wird die Tabelle täglich auf Grundlage der Spalte job_start_time partitioniert.
Wenn Sie möchten, dass die Tabelle anders partitioniert wird, oder wenn Sie keine Partition möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie diese vorab erstellte Tabelle dann als Ergebnistabelle an.
Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
Wenn die Tabelle während der Ausführung des Scans geändert wird, werden die Daten des aktuell ausgeführten Jobs in die vorherige Ergebnistabelle exportiert. Die Tabellenänderung wird erst beim nächsten Scanjob berücksichtigt.
Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht für die Tabelle.
Um Kosten zu senken, legen Sie je nach Anwendungsfall ein Ablaufdatum für die Partition fest. Weitere Informationen finden Sie unter Partitionsablauf festlegen.

Datenqualitätsscan ausführen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenqualitätsscan, der ausgeführt werden soll.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans run, um einen Datenqualitäts-Scan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitäts-Scans.

C#

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for RunDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void RunDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        RunDataScanRequest request = new RunDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
        };
        // Make the request
        RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
    }
}

Go


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.RunDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
	}
	resp, err := c.RunDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.RunDataScanRequest;
import com.google.cloud.dataplex.v1.RunDataScanResponse;

public class SyncRunDataScan {

  public static void main(String[] args) throws Exception {
    syncRunDataScan();
  }

  public static void syncRunDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      RunDataScanRequest request =
          RunDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_run_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.RunDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.run_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the run_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
#
def run_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new

  # Call the run_data_scan method.
  result = client.run_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
  p result
end

REST

Verwenden Sie die Methode dataScans.run, um einen Datenqualitäts-Scan auszuführen.

Ergebnisse des Datenqualitätsscans ansehen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
- Im Bereich Übersicht werden Informationen zu den letzten Jobs angezeigt, z. B. wann der Scan ausgeführt wurde, die Anzahl der in jedem Job gescannten Datensätze, ob alle Datenqualitätsprüfungen bestanden wurden und, falls Fehler aufgetreten sind, die Anzahl der fehlgeschlagenen Datenqualitätsprüfungen.
- Im Bereich Konfiguration für Datenqualitätsscan werden Details zum Scan angezeigt.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, z. B. Datenqualitätswerte, die den Prozentsatz der bestandenen Regeln angeben, fehlgeschlagene Regeln und die Joblogs, klicken Sie auf den Tab Jobverlauf. Klicken Sie dann auf eine Job-ID.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans jobs describe, um die Ergebnisse eines Datenqualitätsscan-Jobs aufzurufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Datenqualitätsscan-Jobs.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans, zu dem der Job gehört.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

C#

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for GetDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void GetDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        GetDataScanRequest request = new GetDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            View = GetDataScanRequest.Types.DataScanView.Unspecified,
        };
        // Make the request
        DataScan response = dataScanServiceClient.GetDataScan(request);
    }
}

Go


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.GetDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
	}
	resp, err := c.GetDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.GetDataScanRequest;

public class SyncGetDataScan {

  public static void main(String[] args) throws Exception {
    syncGetDataScan();
  }

  public static void syncGetDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      GetDataScanRequest request =
          GetDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      DataScan response = dataScanServiceClient.getDataScan(request);
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_get_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.GetDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.get_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the get_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
#
def get_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new

  # Call the get_data_scan method.
  result = client.get_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
  p result
end

REST

Verwenden Sie die Methode dataScans.get, um die Ergebnisse eines Datenqualitätsscans aufzurufen.

Veröffentlichte Ergebnisse ansehen

Wenn die Ergebnisse des Datenqualitätsscans als Dataplex Universal Catalog-Metadaten veröffentlicht werden, können Sie die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten in derGoogle Cloud Console auf dem Tab Datenqualität der Quelltabelle ansehen.

Rufen Sie in der Google Cloud -Console die Dataplex Universal Catalog-Seite Verarbeiten auf.

Zur Suche
Suchen Sie nach der Tabelle und wählen Sie sie aus.
Klicken Sie auf den Tab Datenqualität.

Die zuletzt veröffentlichten Ergebnisse werden angezeigt.

Hinweis :Veröffentlichte Ergebnisse sind möglicherweise nicht verfügbar, wenn ein Scan zum ersten Mal ausgeführt wird.

Historische Scanergebnisse ansehen

In Dataplex Universal Catalog wird der Verlauf der Datenqualitätsscans der letzten 300 Jobs oder des letzten Jahres gespeichert (der kürzere Zeitraum gilt).

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
Klicken Sie auf den Tab Jobverlauf.

Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs, z. B. die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus, die Ausführungszeit des Jobs und ob jede Regel bestanden oder fehlgeschlagen ist.
Wenn Sie die Details zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf einen der Jobs.

gcloud

Verwenden Sie den gcloud dataplex datascans jobs list-Befehl, um frühere Jobs für Datenqualitätsscans aufzurufen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitäts-Scans, für den Sie frühere Jobs ansehen möchten.

C#

using Google.Api.Gax;
using Google.Cloud.Dataplex.V1;
using System;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for ListDataScanJobs</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ListDataScanJobsRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        ListDataScanJobsRequest request = new ListDataScanJobsRequest
        {
            ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            Filter = "",
        };
        // Make the request
        PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);

        // Iterate over all response items, lazily performing RPCs as required
        foreach (DataScanJob item in response)
        {
            // Do something with each item
            Console.WriteLine(item);
        }

        // Or iterate over pages (of server-defined size), performing one RPC per page
        foreach (ListDataScanJobsResponse page in response.AsRawResponses())
        {
            // Do something with each page of items
            Console.WriteLine("A page of results:");
            foreach (DataScanJob item in page)
            {
                // Do something with each item
                Console.WriteLine(item);
            }
        }

        // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
        int pageSize = 10;
        Page<DataScanJob> singlePage = response.ReadPage(pageSize);
        // Do something with the page of items
        Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
        foreach (DataScanJob item in singlePage)
        {
            // Do something with each item
            Console.WriteLine(item);
        }
        // Store the pageToken, for when the next page is required.
        string nextPageToken = singlePage.NextPageToken;
    }
}

Go


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
	"google.golang.org/api/iterator"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.ListDataScanJobsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
	}
	it := c.ListDataScanJobs(ctx, req)
	for {
		resp, err := it.Next()
		if err == iterator.Done {
			break
		}
		if err != nil {
			// TODO: Handle error.
		}
		// TODO: Use resp.
		_ = resp

		// If you need to access the underlying RPC response,
		// you can do so by casting the `Response` as below.
		// Otherwise, remove this line. Only populated after
		// first call to Next(). Not safe for concurrent access.
		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
	}
}

Java

import com.google.cloud.dataplex.v1.DataScanJob;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;

public class SyncListDataScanJobs {

  public static void main(String[] args) throws Exception {
    syncListDataScanJobs();
  }

  public static void syncListDataScanJobs() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      ListDataScanJobsRequest request =
          ListDataScanJobsRequest.newBuilder()
              .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .setPageSize(883849137)
              .setPageToken("pageToken873572522")
              .setFilter("filter-1274492040")
              .build();
      for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
        // doThingsWith(element);
      }
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_list_data_scan_jobs():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.ListDataScanJobsRequest(
        parent="parent_value",
    )

    # Make the request
    page_result = client.list_data_scan_jobs(request=request)

    # Handle the response
    for response in page_result:
        print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the list_data_scan_jobs call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
#
def list_data_scan_jobs
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new

  # Call the list_data_scan_jobs method.
  result = client.list_data_scan_jobs request

  # The returned object is of type Gapic::PagedEnumerable. You can iterate
  # over elements, and API calls will be issued to fetch pages as needed.
  result.each do |item|
    # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
    p item
  end
end

REST

Verwenden Sie die Methode dataScans.jobs.list, um historische Datenqualitätsscan-Jobs aufzurufen.

So ermöglichen Sie den Nutzern in Ihrer Organisation, die Scanergebnisse aufzurufen:

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie freigeben möchten.
Klicken Sie auf den Tab Berechtigungen.
Gehen Sie dazu so vor:
- Wenn Sie einem Hauptkonto Zugriff gewähren möchten, klicken Sie auf Zugriff gewähren. Weisen Sie dem zugehörigen Hauptkonto die Rolle Dataplex DataScan DataViewer zu.
- Wenn Sie den Zugriff eines Hauptkontos entfernen möchten, wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten. Klicken Sie auf Zugriff entfernen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

Benachrichtigungen in Cloud Logging einrichten

So richten Sie Benachrichtigungen für Fehler bei der Datenqualität mithilfe der Logs in Cloud Logging ein:

Console

Rufen Sie in der Google Cloud Console den Cloud Logging-Log-Explorer auf.

Zum Log-Explorer
Geben Sie im Fenster Abfrage Ihre Abfrage ein. Beispielabfragen
Klicken Sie auf Abfrage ausführen.
Klicken Sie auf Benachrichtigung erstellen. Dadurch wird eine Seitenleiste geöffnet.
Geben Sie den Namen der Benachrichtigungsrichtlinie ein und klicken Sie auf Weiter.
Überprüfen Sie die Abfrage.
1. Klicken Sie auf die Schaltfläche Vorschauprotokolle, um die Abfrage zu testen. Hier werden Logs mit übereinstimmenden Bedingungen angezeigt.
2. Klicken Sie auf Weiter.
Legen Sie die Zeit zwischen Benachrichtigungen fest und klicken Sie auf Weiter.
Legen Sie fest, wer über die Benachrichtigung informiert werden soll, und klicken Sie auf Speichern, um die Benachrichtigungsrichtlinie zu erstellen.

Alternativ können Sie Ihre Benachrichtigungen konfigurieren und bearbeiten, indem Sie in derGoogle Cloud Console zu Monitoring > Alerting (Benachrichtigungen) navigieren.

gcloud

Nicht unterstützt.

REST

Weitere Informationen zum Einrichten von Benachrichtigungen in Cloud Logging finden Sie unter Logbasierte Benachrichtigungsrichtlinie mit der Monitoring API erstellen.

Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene

Beispielabfrage zum Festlegen von Benachrichtigungen zu allgemeinen Fehlern bei der Datenqualität für einen Datenqualitätsscan:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND NOT jsonPayload.dataQuality.passed=true

Ein Beispiel für eine Abfrage zum Festlegen von Benachrichtigungen zu Datenqualitätsfehlern für eine Dimension (z. B. Eindeutigkeit) eines bestimmten Datenqualitätsscans:

resource.type="dataplex.googleapis.com/DataScan"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND resource.labels.datascan_id="a0-test-dec6-dq-3"
AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false

Eine Beispielabfrage zum Festlegen von Benachrichtigungen zu Fehlern bei der Datenqualität für eine Tabelle.

So legen Sie Benachrichtigungen für Datenqualitätsfehler für eine BigQuery-Tabelle fest, die nicht in einem Dataplex Universal Catalog-Lake organisiert ist:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

So legen Sie Benachrichtigungen für Datenqualitätsfehler für eine BigQuery-Tabelle fest, die in einem Dataplex Universal Catalog-Lake organisiert ist:

resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
AND resource.labels.resource_container="projects/112233445566"
AND NOT jsonPayload.dataQuality.passed=true

Beispielabfragen zum Festlegen von Benachrichtigungen pro Regel

Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln mit dem angegebenen benutzerdefinierten Regelnamen für einen Datenqualitätsscan:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.ruleName="custom-name"
AND jsonPayload.result="FAILED"
```
Ein Beispiel für eine Abfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln eines bestimmten Auswertungstyps für einen Datenqualitätsscan:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.evalutionType="PER_ROW"
AND jsonPayload.result="FAILED"
```
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlerhaften Datenqualitätsregeln für eine Spalte in der Tabelle, die für einen Datenqualitätsscan verwendet wird:
```
resource.type="dataplex.googleapis.com/DataScan"
AND jsonPayload.column="CInteger"
AND jsonPayload.result="FAILED"
```

Fehler bei der Datenqualität beheben

Für jeden Job mit fehlgeschlagenen Regeln auf Zeilenebene stellt Dataplex Universal Catalog eine Abfrage zum Abrufen der fehlgeschlagenen Datensätze bereit. Führen Sie diese Abfrage aus, um die Datensätze zu sehen, die nicht mit Ihrer Regel übereinstimmen.

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen des Datenqualitäts-Scans, dessen Datensätze Sie untersuchen möchten.
Klicken Sie auf den Tab Jobverlauf.
Klicken Sie auf die Job-ID des Jobs, bei dem Datenqualitätsfehler festgestellt wurden.
Suchen Sie im Fenster mit den Job-Ergebnissen, das sich öffnet, im Bereich Regeln nach der Spalte Abfrage zum Abrufen fehlgeschlagener Datensätze. Klicken Sie für die fehlgeschlagene Regel auf Abfrage in die Zwischenablage kopieren.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Fehlschlagen des Jobs geführt haben.

gcloud

Nicht unterstützt.

REST

Verwenden Sie die dataScans.get-Methode, um den Job abzurufen, in dem die Datenqualitätsfehler erkannt wurden.

Im Antwortobjekt wird die Abfrage im Feld failingRowsQuery angezeigt.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Fehlschlagen des Jobs geführt haben.

In Dataplex Universal Catalog wird die Debug-Abfrage ebenfalls ausgeführt, sofern sie beim Erstellen der Regel angegeben wurde. Die Ergebnisse der Debugging-Abfrage sind in der Ausgabe jeder Regel enthalten. Dieses Feature befindet sich im Vorschaumodus.

Console

Nicht unterstützt.

gcloud

Nicht unterstützt.

REST

Verwenden Sie die dataScans.get-Methode, um den Job abzurufen, in dem die Datenqualitätsfehler erkannt wurden. Im Antwortobjekt enthält das Feld debugQueriesResultSets die Ergebnisse der Debugging-Abfragen.

Scans zur Datenqualität für eine bestimmte Tabelle verwalten

In diesem Dokument wird beschrieben, wie Sie Datenprofilscans in Ihrem Projekt über die Seite Datenprofilerstellung und ‑qualität im Dataplex Universal Catalog in der Google Cloud Console verwalten.

Sie können auch Datenprofilscans erstellen und verwalten, wenn Sie mit einer bestimmten Tabelle arbeiten. Rufen Sie in der Google Cloud Console auf der Dataplex Universal Catalog-Seite für die Tabelle den Tab Datenqualität auf. Gehen Sie dazu so vor:

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Suche auf.

Zur Suche

Suchen Sie nach der Tabelle und wählen Sie sie aus.
Klicken Sie auf den Tab Datenqualität.
Je nachdem, ob für die Tabelle ein Datenqualitätsscan vorhanden ist, dessen Ergebnisse als Dataplex Universal Catalog-Metadaten veröffentlicht werden, haben Sie folgende Möglichkeiten, mit den Datenqualitätsscans der Tabelle zu arbeiten:
- Ergebnisse des Datenqualitätsscans werden veröffentlicht: Die neuesten Scanergebnisse werden auf der Seite angezeigt.
  
  Wenn Sie die Datenqualitätsscans für diese Tabelle verwalten möchten, klicken Sie auf Datenqualitätsscan und wählen Sie dann eine der folgenden Optionen aus:
  - Neuen Scan erstellen: Erstellen Sie einen neuen Datenqualitätsscan. Weitere Informationen finden Sie im Abschnitt Datenqualitätsscan erstellen in diesem Dokument. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Jetzt ausführen: Scan ausführen
  - Scankonfiguration bearbeiten: Bearbeiten Sie Einstellungen wie den Anzeigenamen, Filter und den Zeitplan.
    
    Wenn Sie die Regeln zur Datenqualität bearbeiten möchten, klicken Sie auf dem Tab Datenqualität auf den Tab Regeln. Klicken Sie auf Regeln ändern. Aktualisieren Sie die Regeln und klicken Sie dann auf Speichern.
  - Scanberechtigungen verwalten: Sie können festlegen, wer auf die Scanergebnisse zugreifen darf. Weitere Informationen finden Sie im Abschnitt Zugriff auf Ergebnisse des Datenqualitätsscans gewähren in diesem Dokument.
  - Historische Ergebnisse ansehen: Hier können Sie detaillierte Informationen zu früheren Datenqualitätsscan-Jobs aufrufen. Weitere Informationen finden Sie in diesem Dokument in den Abschnitten Ergebnisse des Datenqualitätsscans ansehen und Verlaufsergebnisse des Scans ansehen.
  - Alle Scans ansehen: Hier sehen Sie eine Liste der Datenqualitätsscans, die für diese Tabelle gelten.
- Ergebnisse des Datenqualitätsscans werden nicht veröffentlicht: Wählen Sie eine der folgenden Optionen aus:
  - Datenqualitätsscan erstellen: Erstellen Sie einen neuen Datenqualitätsscan. Weitere Informationen finden Sie im Abschnitt Datenqualitätsscan erstellen in diesem Dokument. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Vorhandene Scans ansehen: Hier sehen Sie eine Liste der Datenqualitätsscans, die für diese Tabelle gelten.

Datenqualitätsscan aktualisieren

Sie können verschiedene Einstellungen für einen vorhandenen Scan zur Datenqualität bearbeiten, z. B. den Anzeigenamen, Filter, Zeitplan und die Regeln zur Datenqualität.

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
Wenn Sie Einstellungen wie den Anzeigenamen, Filter und den Zeitplan bearbeiten möchten, klicken Sie auf Bearbeiten. Bearbeiten Sie die Werte und klicken Sie dann auf Speichern.
Wenn Sie die Regeln zur Datenqualität bearbeiten möchten, klicken Sie auf der Seite mit den Scandetails auf den Tab Aktuelle Regeln. Klicken Sie auf Regeln ändern. Aktualisieren Sie die Regeln und klicken Sie dann auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-quality, um die Beschreibung eines Datenqualitäts-Scans zu aktualisieren:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie Folgendes:

DATASCAN: Der Name des zu aktualisierenden Datenqualitätsscans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenqualitäts-Scan.

C#

using Google.Cloud.Dataplex.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for UpdateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void UpdateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        UpdateDataScanRequest request = new UpdateDataScanRequest
        {
            DataScan = new DataScan(),
            UpdateMask = new FieldMask(),
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.UpdateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
	}
	op, err := c.UpdateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
import com.google.protobuf.FieldMask;

public class SyncUpdateDataScan {

  public static void main(String[] args) throws Exception {
    syncUpdateDataScan();
  }

  public static void syncUpdateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      UpdateDataScanRequest request =
          UpdateDataScanRequest.newBuilder()
              .setDataScan(DataScan.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_update_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    data_scan = dataplex_v1.DataScan()
    data_scan.data_quality_spec.rules.dimension = "dimension_value"
    data_scan.data.entity = "entity_value"

    request = dataplex_v1.UpdateDataScanRequest(
        data_scan=data_scan,
    )

    # Make the request
    operation = client.update_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the update_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
#
def update_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new

  # Call the update_data_scan method.
  result = client.update_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

Verwenden Sie die dataScans.patch-Methode, um einen Datenqualitätsscan zu bearbeiten.

Datenqualitätsscan löschen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans delete, um einen Datenqualitätsscan zu löschen:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu löschenden Datenqualitäts-Scans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.

C#

using Google.Cloud.Dataplex.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for DeleteDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void DeleteDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        DeleteDataScanRequest request = new DeleteDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            Force = false,
        };
        // Make the request
        Operation<Empty, OperationMetadata> response = dataScanServiceClient.DeleteDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<Empty, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        Empty result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<Empty, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceDeleteDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            Empty retrievedResult = retrievedResponse.Result;
        }
    }
}

Go


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.DeleteDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#DeleteDataScanRequest.
	}
	op, err := c.DeleteDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	err = op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
}

Java

import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.DeleteDataScanRequest;
import com.google.protobuf.Empty;

public class SyncDeleteDataScan {

  public static void main(String[] args) throws Exception {
    syncDeleteDataScan();
  }

  public static void syncDeleteDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      DeleteDataScanRequest request =
          DeleteDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .setForce(true)
              .build();
      dataScanServiceClient.deleteDataScanAsync(request).get();
    }
  }
}

Python

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_delete_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.DeleteDataScanRequest(
        name="name_value",
    )

    # Make the request
    operation = client.delete_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

require "google/cloud/dataplex/v1"

##
# Snippet for the delete_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#delete_data_scan.
#
def delete_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::DeleteDataScanRequest.new

  # Call the delete_data_scan method.
  result = client.delete_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

Verwenden Sie zum Löschen eines Datenqualitätsscans die Methode dataScans.delete.

Automatische Datenqualität verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

Erforderliche Rollen und Berechtigungen

Nutzerrollen und Berechtigungen

Erforderliche Berechtigungen

Rollen und Berechtigungen für das Dataplex Universal Catalog-Dienstkonto

Erforderliche Berechtigungen

Regeln für die Datenqualität definieren

Datenqualitätsregeln mit integrierten Regeltypen definieren

Datenqualitätsregeln mit benutzerdefinierten SQL-Regeln definieren

Datenqualitätsregeln mit der gcloud CLI definieren

Datenqualitätsscan erstellen

Console

gcloud

C#

C#

Go

Go

Java

Java

Node.js

Node.js

Python

Python

Ruby

Ruby

REST

Tabellenschema exportieren

Datenqualitätsscan ausführen

Console

gcloud

C#

C#

Go

Go

Java

Java

Python

Python

Ruby

Ruby

REST

Ergebnisse des Datenqualitätsscans ansehen

Console

gcloud

C#

C#

Go

Go

Java

Java

Python

Python

Ruby

Ruby

REST

Veröffentlichte Ergebnisse ansehen

Historische Scanergebnisse ansehen

Console

gcloud

C#

C#

Go

Go

Java

Java

Python

Python

Ruby

Ruby

REST

Zugriff auf Ergebnisse von Datenqualitätsscans gewähren

Benachrichtigungen in Cloud Logging einrichten

Console

gcloud

REST

Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene

Beispielabfragen zum Festlegen von Benachrichtigungen pro Regel

Fehler bei der Datenqualität beheben

Console

Automatische Datenqualität verwenden