Cloud Storage-Daten ermitteln und katalogisieren
In diesem Dokument wird beschrieben, wie Sie die automatische Ermittlung von Dataplex Universal Catalog verwenden. Mit dieser BigQuery-Funktion können Sie Daten in Cloud Storage-Buckets scannen, um Metadaten zu extrahieren und zu katalogisieren. Im Rahmen des Erkennungsscans werden durch die automatische Erkennung BigLake- oder externe Tabellen für strukturierte Daten und Objekttabellen für unstrukturierte Daten erstellt. Diese zentralisierten Tabellendaten erleichtern KI-basierte Datenanalysen, Datensicherheit und Governance.
Wenn Sie die automatische Erkennung von Cloud Storage-Daten verwenden möchten, erstellen Sie einen Erkennungsscan und führen ihn aus.
Die automatische Erkennung wird auch als eigenständige Erkennung bezeichnet.
Übersicht über Erkennungsscans
Bei einem Erkennungsscan wird Folgendes ausgeführt:
- Scannt die Daten im Cloud Storage-Bucket oder -Pfad.
- Gruppiert strukturierte und semistrukturierte Daten in Tabellen.
- Erfasst Metadaten wie den Tabellennamen, das Schema und die Partitionsdefinition.
- Erstellt und aktualisiert externe BigLake-, externe Nicht-BigLake- oder BigLake-Objekttabellen in BigQuery anhand der Schema- und Partitionsdefinition.
Bei unstrukturierten Daten wie Bildern und Videos werden beim Discovery-Scan Gruppen von Dateien mit demselben Datendateiformat erkannt und registriert. Dateien müssen sich in Ordnern mit demselben Dateiformat befinden. gs://images/group1 darf beispielsweise nur GIF-Bilder und gs://images/group2 nur JPEG-Bilder enthalten, damit beim Discovery-Scan zwei BigLake-Objekttabellen erkannt und registriert werden.
Bei strukturierten Daten wie Avro werden Gruppen von Dateien als externe BigLake-Tabellen registriert. Dateien werden nur erkannt, wenn sie sich in Ordnern mit demselben Datenformat und einem kompatiblen Schema befinden.
Der Discovery-Scan unterstützt die folgenden Formate:
Strukturiert und semistrukturiert
- Parquet
- Avro
- ORC
- JSON (nur das durch Zeilenumbruch getrennte Format)
- CSV (aber keine CSV-Dateien mit Kommentarzeilen)
- Bild (z. B. JPEG, PNG und BMP)
- Dokumente (z. B. PDF-Dateien, Präsentationen und Textberichte)
- Audio oder Video (z. B. WAV, MP3 und MP4)
Beim Discovery-Scan werden die folgenden Komprimierungsformate unterstützt:
Strukturierte und semistrukturierte Daten
Interne Komprimierung für die folgenden Formate:
Komprimierung Beispiel für Dateiendung Unterstütztes Format GZIP .gz.parquetParquet LZ4 .lz4.parquetParquet Snappy .snappy.parquetParquet, ORC, Avro lzo .lzo.parquetParquet, ORC Externe Komprimierung für JSON- und CSV-Dateien:
- GZIP
- bzip2
Unstrukturierte Daten
Bei Objekttabellen wird die Komprimierung hauptsächlich über Cloud Storage-Objektmetadaten und nicht über interne BigQuery-Einstellungen verwaltet.
- Standardmäßige Metadatenkomprimierung: BigQuery erkennt automatisch Dateien, die mit gzip und bzip2 komprimiert wurden, wenn sie die Standarderweiterungen .gz oder .bz2 verwenden.
- Content-Encoding: Sie können die Metadaten Content-Encoding gzip in Cloud Storage verwenden, um komprimierte Dateien bereitzustellen und gleichzeitig den ursprünglichen Inhaltstyp beizubehalten.
- Interne Medienkomprimierung: Formate, die von Natur aus komprimiert sind (z. B. JPEG für Bilder, MP3 für Audio und MP4 für Video), werden nativ unterstützt.
Das Limit für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden, finden Sie unter Kontingente und Limits.
Die erkannten Tabellen werden in BigQuery als externe BigLake-Tabellen, BigLake-Objekttabellen oder externe Tabellen registriert. Dadurch stehen die Daten zur Analyse in BigQuery zur Verfügung. Das Metadaten-Caching für BigLake-Tabellen und Objekttabellen ist ebenfalls aktiviert. Alle BigLake-Tabellen werden automatisch in Dataplex Universal Catalog aufgenommen, damit sie durchsucht und erkannt werden können.
Hinweise
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Erforderliche Rollen für das Dataplex Universal Catalog-Dienstkonto
Bevor Sie beginnen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto in Ihrem Projekt die IAM-Berechtigungen zu.
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
Ersetzen Sie PROJECT_NUMBER durch das Projekt, in dem die Dataplex API aktiviert ist.
Damit das Dataplex-Dienstkonto die erforderlichen Berechtigungen zum Erstellen und Ausführen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die folgenden IAM-Rollen zuzuweisen:
-
Dataplex Discovery Service Agent (
roles/dataplex.discoveryServiceAgent) für den Speicher-Bucket -
Dataplex Discovery Publishing Service Agent (
roles/dataplex.discoveryPublishingServiceAgent) für das Nutzerprojekt -
BigLake-Tabellen erstellen:
Dataplex Discovery BigLake Publishing Service Agent (
roles/dataplex.discoveryBigLakePublishingServiceAgent) für die BigQuery-Verbindung
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Ausführen eines Discovery-Scans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind zum Erstellen und Ausführen eines Erkennungsscans erforderlich:
-
bigquery.datasets.createfür das Datenquellenprojekt -
storage.buckets.getfür den Datenquellen-Bucket -
storage.objects.getfür den Datenquellen-Bucket -
storage.objects.listfür den Datenquellen-Bucket -
bigquery.datasets.getfür das Datenquellenprojekt -
Stellen Sie eine Verbindung her:
-
bigquery.connections.delegatefür die BigQuery-Verbindung -
bigquery.connections.usefür die BigQuery-Verbindung
-
Ihr Administrator kann dem Dataplex-Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Erforderliche Rollen für das Dienstkonto der BigQuery-Verbindung
Damit das Dienstkonto der BigQuery-Verbindung die erforderlichen Berechtigungen zum Erstellen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung die IAM-Rolle Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Cloud Storage-Bucket zuzuweisen.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen eines Discovery-Scans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind zum Erstellen eines Erkennungsscans erforderlich:
-
bigquery.datasets.createfür das Datenquellenprojekt -
storage.buckets.getfür den Datenquellen-Bucket -
storage.objects.getfür den Datenquellen-Bucket -
storage.objects.listfür den Datenquellen-Bucket -
bigquery.datasets.getfür das Datenquellenprojekt -
Stellen Sie eine Verbindung her:
-
bigquery.connections.delegatefür die BigQuery-Verbindung -
bigquery.connections.usefür die BigQuery-Verbindung
-
Ihr Administrator kann dem Dienstkonto für BigQuery-Verbindungen möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Erforderliche Rollen für Endnutzer
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Cloud Storage-Bucket zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Scans zur Datenermittlung benötigen:
-
Vollständiger Zugriff auf DataScan-Ressourcen:
Dataplex-DataScan-Administrator (
roles/dataplex.dataScanAdmin) – Ihr Projekt -
Schreibzugriff auf DataScan-Ressourcen:
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor) – Ihr Projekt -
Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse:
Dataplex DataScan-Betrachter (
roles/dataplex.dataScanViewer) – Ihr Projekt -
Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) – Ihr Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Scans zur Datenermittlung erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Datenerkennungsscans zu erstellen und zu verwalten:
-
So erstellen Sie einen DataScan:
dataplex.datascans.createfür Ihr Projekt -
So löschen Sie einen DataScan:
dataplex.datascans.deletefür Ihr Projekt oder eine DataScan-Ressource -
DataScan-Details ohne Ergebnisse ansehen:
dataplex.datascans.getfür eine DataScan-Ressource in Ihrem Projektor -
DataScan-Details einschließlich der Ergebnisse ansehen:
dataplex.datascans.getDatafür Ihr Projekt oder eine DataScan-Ressource -
DataScans auflisten:
dataplex.datascans.listfür Ihr Projekt oder eine DataScan-Ressource -
So führen Sie einen DataScan aus:
dataplex.datascans.runfür Ihr Projekt oder eine DataScan-Ressource -
So aktualisieren Sie die Beschreibung eines DataScans:
dataplex.datascans.updatefür Ihr Projekt oder eine DataScan-Ressource -
IAM-Berechtigungen des DataScan ansehen:
dataplex.datascans.getIamPolicyfür Ihr Projekt oder eine DataScan-Ressource -
IAM-Berechtigungen für den DataScan festlegen:
dataplex.datascans.setIamPolicyfür Ihr Projekt oder eine DataScan-Ressource
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Erkennungsscan erstellen
Um Daten zu ermitteln, müssen Sie einen Erkennungsscan erstellen und ausführen. Sie können einen Zeitplan für den Scan festlegen oder den Scan bei Bedarf ausführen.
Wenn der Discovery-Scan ausgeführt wird, wird in BigQuery ein neues Dataset erstellt, das dem gescannten Cloud Storage-Bucket entspricht. Der Name des BigQuery-Datasets ist derselbe wie der Name des Cloud Storage-Bucket. Ungültige Zeichen im Bucket-Namen werden durch einen Unterstrich ersetzt. Wenn der Datasetname nicht verfügbar ist, wird ein Suffix angehängt (z. B. _discovered_001). Das Dataset enthält die externen BigLake- oder Nicht-BigLake-Tabellen, die durch den Discovery-Scan für die weitere Analyse erstellt wurden.
Console
Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.
Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.
Konfigurieren Sie im Bereich Erkennungs-Scan erstellen die Details zu den zu scannenden Daten.
Geben Sie einen Namen für den Scan ein.
Geben Sie im Feld Scan-ID eine eindeutige ID ein, die den Konventionen für die Benennung von Ressourcen in Google Cloud entspricht. Wenn Sie keine ID angeben, wird die Scan-ID vom Erkennungsscan generiert.
Optional: Geben Sie eine Beschreibung des Scans ein.
Wenn Sie den Cloud Storage-Bucket angeben möchten, der die zu scannenden Dateien enthält, suchen Sie im Feld Bucket nach dem Bucket und wählen Sie ihn aus.
Optional: Definieren Sie die Daten, die in den Discovery-Scan einbezogen oder daraus ausgeschlossen werden sollen, indem Sie eine Liste von Glob-Mustern für die Dateifilterung angeben.
- Include: Wenn nur eine Teilmenge der Daten gescannt werden soll, geben Sie eine Liste von Glob-Mustern an, die mit den einzuschließenden Objekten übereinstimmen.
- Ausschließen: Geben Sie eine Liste von Glob-Mustern an, die mit den auszuschließenden Objekten übereinstimmen.
Wenn Sie beispielsweise
gs://test_bucket/foo/..aus dem Discovery-Scan ausschließen möchten, geben Sie**/foo/**als Ausschluss-Pfad ein. Anführungszeichen verursachen Fehler. Geben Sie**/foo/**anstelle von"**/foo/**"ein.Wenn Sie sowohl Einschluss- als auch Ausschlussmuster angeben, werden die Ausschlussmuster zuerst angewendet.
Optional: Wählen Sie unter Projekt das BigQuery-Dataset-Projekt aus, das die durch den Discovery-Scan erstellten externen BigLake- oder Nicht-BigLake-Tabellen enthält. Wenn nicht angegeben, wird das Dataset in dem Projekt erstellt, das den Cloud Storage-Bucket enthält.
Wählen Sie unter Typ des Standorts entweder Region oder Multi-Region (je nach Verfügbarkeit) für das BigQuery-Veröffentlichungs-Dataset aus.
Wenn Sie BigLake-Tabellen aus den gescannten Daten erstellen möchten, geben Sie im Feld Verbindungs-ID die ID Ihrer Google Cloud -Ressourcenverbindung an. Weitere Informationen finden Sie unter Google Cloud Ressourcenverbindungen in BigQuery.
Sie können eine neue Verbindungs-ID am selben Standort wie das BigQuery-Dataset erstellen, der mit dem Cloud Storage-Bucket-Standort kompatibel ist.
Wenn Sie keine Ressourcenverbindungs-ID angeben, werden beim Discovery-Scan externe Tabellen, die nicht von BigLake stammen, erstellt. Informationen zu den Unterschieden zwischen diesen externen Tabellentypen und dazu, warum der Discovery-Dienst einen Typ dem anderen vorziehen könnte, finden Sie im Vergleich der Verhaltensunterschiede.
Konfigurieren Sie im Abschnitt Erkennungshäufigkeit, wann der Erkennungsscan ausgeführt werden soll:
Wiederholen: Der Scan wird nach einem vordefinierten Zeitplan ausgeführt. Geben Sie die Startzeit, die Tage, an denen der Scan ausgeführt werden soll, und die Häufigkeit an, z. B. „stündlich“.
On-Demand: Der Scan wird auf Anfrage ausgeführt.
Optional: Geben Sie im Abschnitt JSON- oder CSV-Spezifikationen an, wie JSON- und CSV-Dateien bei der Überprüfung verarbeitet werden sollen. Klicken Sie auf JSON- oder CSV-Spezifikationen.
- Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
- Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für JSON-Daten deaktivieren, werden alle Spalten als ihre primitiven Typen registriert, z. B. als String, Zahl oder boolescher Wert.
- Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
- Wenn Sie CSV-Optionen konfigurieren möchten, aktivieren Sie CSV-Parsing-Optionen aktivieren.
- Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für CSV-Daten deaktivieren, werden alle Spalten als Strings registriert.
- Überschriftenzeilen: Die Anzahl der Überschriftenzeilen, entweder
0oder1. Wenn Sie den Wert0angeben, werden beim Discovery-Scan Überschriften abgeleitet und die Spaltennamen aus der Datei extrahiert. Der Standardwert ist0. - Spaltentrennzeichen: Das Zeichen, das zum Trennen von Werten verwendet wird. Geben Sie ein einzelnes Zeichen,
\r(Zeilenumbruch) oder\n(neue Zeile) an. Der Standardwert ist ein Komma (,). - Codierungsformat: die Zeichencodierung der Daten, z. B.
UTF-8,US-ASCIIoderISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
- Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
Klicken Sie auf Erstellen (für einen geplanten Scan), Jetzt ausführen (für einen On-Demand-Scan) oder Erstellen und ausführen (für einen einmaligen Scan).
Ein geplanter Scan wird gemäß dem von Ihnen festgelegten Zeitplan ausgeführt.
Ein On-Demand-Scan wird beim Erstellen einmal ausgeführt. Sie können ihn aber jederzeit starten. Es kann einige Minuten dauern, bis der Erkennungsscan ausgeführt wird.
Ein einmaliger Scan wird automatisch einmal ausgeführt. Sie wird automatisch gelöscht, wenn sie den definierten TTL-Schwellenwert (Time-to-Live) erreicht. Dieser Wert bestimmt, wie lange ein Discovery-Scan nach der Ausführung aktiv bleibt. Der TTL-Wert kann zwischen 0 Sekunden (sofortiges Löschen) und 365 Tagen liegen. Ein Discovery-Scan ohne angegebene TTL wird nach 24 Stunden automatisch gelöscht.
gcloud
Verwenden Sie zum Erstellen eines Discovery-Scans den Befehl gcloud dataplex datascans create data-discovery.
gcloud dataplex datascans create data-discovery --location=LOCATION --data-source-resource=BUCKET_PATH
Ersetzen Sie Folgendes:
LOCATION: der Speicherort, an dem Sie den Discovery-Scan erstellen möchtenBUCKET_PATH: der Cloud Storage-Pfad des Buckets, den Sie scannen möchten
REST
Verwenden Sie zum Erstellen eines Discovery-Scans die Methode dataScans.create.
Veröffentlichte BigLake-Tabellen abfragen
Nachdem Sie den Ermittlungsscan ausgeführt haben, werden BigLake-Tabellen in einem neuen Dataset in BigQuery veröffentlicht. Die Tabellen stehen dann in BigQuery für die Analyse mit SQL oder in Dataproc mit Apache Spark oder HiveQL zur Verfügung.
SQL
Sie können Tabellen in BigQuery aufrufen oder abfragen. Weitere Informationen zum Ausführen von Abfragen in BigQuery finden Sie unter Abfrage ausführen.
Apache Spark
So führen Sie eine Abfrage für BigLake-Tabellen mit Spark SQL in einem serverlosen Dataproc-Job aus:
Erstellen Sie ein PySpark-Skript, das dem folgenden Beispielskript ähnelt:
from pyspark.sql import SparkSession session = ( SparkSession.builder.appName("testing") .config("viewsEnabled","true") .config("materializationDataset", "DATASET_ID") .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID") .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory") .enableHiveSupport() .getOrCreate() ) session.sql("show databases").show() session.sql("use TABLE_NAME").show() session.sql("show tables").show() sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10" df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql) df.show()
Ersetzen Sie Folgendes:
DATASET_ID: ID des Datasets, für das Nutzer die Berechtigung zum Erstellen habenPROJECT_ID: ID des Projekts mit der BigLake-TabelleTABLE_NAME: Name der BigLake-TabelleTABLE_ID: ID der BigLake-Tabelle
Veröffentlichte BigLake-Tabellen verwalten
Veröffentlichte BigLake-Tabellen werden durch den Erkennungsscan in BigQuery erstellt und verwaltet. Standardmäßig werden beim Erkennungsscan jedes Mal, wenn die geplanten oder On-Demand-Scans ausgeführt werden, neue Daten erkannt, Schemas abgeleitet und Schemas weiterentwickelt. Um anzugeben, dass Metadaten vom Scan verwaltet werden, werden Tabellen mit dem Label metadata-managed-mode, das auf discovery-managed gesetzt ist, veröffentlicht.
Wenn Sie das Schema und andere Metadaten wie CSV- oder JSON-Optionen selbst verwalten möchten, legen Sie das Label metadata-managed-mode auf user_managed fest. So bleibt das Schema beim nächsten Erkennungsscan unverändert. Dieser Ansatz kann in Szenarien nützlich sein, in denen das Schema, das durch den Discovery-Scan abgeleitet wird, falsch ist oder sich von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird. Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, können die Kosten gesenkt werden.
Wenn Sie das Label aktualisieren möchten, können Sie den Wert des Labelschlüssels bearbeiten
metadata-managed-mode in user_managed anstatt in discovery-managed. In diesem Fall wird das Schema der Tabelle durch den Erkennungsscan nicht aktualisiert, solange das Label user_managed an die Tabelle angehängt ist.
Veröffentlichte BigLake-Tabellen aktualisieren
Bei BigLake-Tabellen, die mit den Erkennungsscanjobs mit der Standardkonfiguration veröffentlicht werden, werden das Schema und andere Metadaten automatisch bei jedem Ausführen des Erkennungsscanjobs in der geplanten Häufigkeit aktualisiert.
So aktualisieren Sie eine veröffentlichte BigLake-Tabelle:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im linken Bereich auf Explorer:

Wenn Sie den linken Bereich nicht sehen, klicken Sie auf Linken Bereich maximieren, um ihn zu öffnen.
Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Datasets und wählen Sie dann ein Dataset aus.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann die Tabelle aus.
Prüfen Sie auf dem Tab Details im Bereich Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn ein anderer Wert festgelegt ist, gehen Sie so vor:
Klicken Sie auf Details bearbeiten.
Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert
user_managedein.
Veröffentlichte BigLake-Tabellen löschen
So löschen Sie eine veröffentlichte BigLake-Tabelle:
Datendateien für die Tabelle im Cloud Storage-Bucket löschen
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im linken Bereich auf Explorer:

Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Datasets und wählen Sie dann ein Dataset aus.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann die Tabelle aus.
Prüfen Sie im Bereich Details im Abschnitt Labels, ob das Label metadata-managed-mode auf
user_managedfestgelegt ist. Wenn sie aufuser_managedeingestellt ist, gehen Sie so vor:Klicken Sie auf Details bearbeiten .
Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert
discovery-managedein.
Klicken Sie auf Ausführen. Der Discovery-Scan wird bei Bedarf ausgeführt.
Nachdem der Discovery-Scan ausgeführt wurde, wird die BigLake-Tabelle in BigQuery gelöscht und kann nicht mehr über Spark aufgelistet oder abgefragt werden.
Erkennungsscan on demand ausführen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan bei Bedarf auszuführen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.
gcloud
Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Erkennungsscan auszuführen:
gcloud dataplex datascans runDATASCAN\ --location=LOCATION
Ersetzen Sie die folgenden Variablen:
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.DATASCAN: Der Name des Erkennungsscans.
REST
Wenn Sie einen Discovery-Scan auf Abruf ausführen möchten, verwenden Sie die dataScans.run-Methode in der Dataplex API.
Erkennungsscans auflisten
Wählen Sie eine der folgenden Optionen aus, um Ihre Discovery-Scans aufzulisten.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Im Bereich Cloud Storage-Erkennung werden die im Projekt erstellten Erkennungsscans aufgeführt.
gcloud
gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID
Ersetzen Sie Folgendes:
LOCATION: Der Standort Ihres Projekts.PROJECT_ID: Ihre Google Cloud Projekt-ID
REST
Wenn Sie die Liste der Discovery-Scans in Ihrem Projekt abrufen möchten, verwenden Sie die dataScans.list-Methode in der Dataplex API.
Erkennungsscan ansehen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan anzusehen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
- Im Bereich Scandetails werden Details zum Erkennungsscan angezeigt.
- Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanjobs angezeigt.
gcloud
gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULLErsetzen Sie Folgendes:
JOB: Die Job-ID des Discovery-Scan-Jobs.LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.--view=FULL: Das Ergebnis des Discovery-Scan-Jobs ansehen.
REST
Wenn Sie die Ergebnisse eines Data Discovery-Scans ansehen möchten, verwenden Sie die dataScans.get-Methode in der Dataplex API.
Frühere Ergebnisse von Erkennungsscans ansehen
Wählen Sie eine der folgenden Optionen aus, um historische Ergebnisse von Discovery-Scans aufzurufen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
Klicken Sie auf den Bereich Scanverlauf. Im Bereich Scanverlauf finden Sie Informationen zu früheren Jobs, einschließlich der Anzahl der in jedem Job gescannten Datensätze, des Status jedes Jobs und der Zeit, zu der die Jobs ausgeführt wurden.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf den Job.
gcloud
gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCANErsetzen Sie Folgendes:
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.
REST
Wenn Sie alle Jobs eines Erkennungsscans aufrufen möchten, verwenden Sie die dataScans.job/list-Methode in der Dataplex API.
Erkennungsscan aktualisieren
Wenn Sie den Zeitplan eines Erkennungsscans ändern möchten, z. B. von On-Demand zu wiederkehrend, aktualisieren Sie den Erkennungsscan.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den Erkennungsscan, den Sie aktualisieren möchten, auf Aktionen > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.
gcloud
Verwenden Sie den Befehl gcloud dataplex datascans update data-discovery, um einen Discovery-Scan zu aktualisieren.
gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION
Ersetzen Sie Folgendes:
SCAN_ID: die ID des Discovery-Scans, den Sie aktualisieren möchtenLOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.DESCRIPTION: die neue Beschreibung für den Discovery-Scan
REST
Verwenden Sie zum Aktualisieren eines Discovery-Scans die Methode dataScans.patch in der Dataplex API.
Erkennungsscan löschen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan zu löschen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den Erkennungsscan, den Sie löschen möchten, auf Aktionen > Löschen.
Klicken Sie auf Löschen.
gcloud
gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async
Ersetzen Sie Folgendes:
SCAN_ID: die ID des Discovery-Scans, den Sie löschen möchten.LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
REST
Verwenden Sie zum Löschen eines Discovery-Scans die Methode dataScans.delete in der Dataplex API.