Cloud Storage-Daten ermitteln und katalogisieren

In diesem Dokument wird erläutert, wie Sie die automatische Erkennung von Dataplex Universal Catalog verwenden. Mit dieser Funktion in BigQuery können Sie Daten in Cloud Storage-Buckets scannen, um Metadaten zu extrahieren und zu katalogisieren. Im Rahmen des Erkennungsscans werden durch die automatische Erkennung BigLake- oder externe Tabellen für strukturierte Daten und Objekttabellen für unstrukturierte Daten erstellt. Diese zentralisierten Tabellendaten erleichtern KI-basierte Datenanalysen, Datensicherheit und Governance.

Wenn Sie die automatische Erkennung von Cloud Storage-Daten verwenden möchten, erstellen Sie einen Erkennungsscan und führen ihn aus.

Die automatische Erkennung wird auch als eigenständige Erkennung bezeichnet.

Übersicht über Erkennungsscans

Bei einem Erkennungsscan wird Folgendes ausgeführt:

Scannt die Daten im Cloud Storage-Bucket oder -Pfad.
Gruppiert strukturierte und semistrukturierte Daten in Tabellen.
Erfasst Metadaten wie den Tabellennamen, das Schema und die Partitionsdefinition.
Erstellt und aktualisiert externe BigLake-, externe Nicht-BigLake- oder BigLake-Objekttabellen in BigQuery anhand der Schema- und Partitionsdefinition.

Bei unstrukturierten Daten wie Bildern und Videos werden beim Discovery-Scan Gruppen von Dateien mit demselben Datendateiformat erkannt und registriert. Dateien müssen sich in Ordnern mit demselben Dateiformat befinden. gs://images/group1 darf beispielsweise nur GIF-Bilder und gs://images/group2 nur JPEG-Bilder enthalten, damit beim Discovery-Scan zwei BigLake-Objekttabellen erkannt und registriert werden.

Bei strukturierten Daten wie Avro werden Gruppen von Dateien als externe BigLake-Tabellen registriert. Dateien werden nur erkannt, wenn sie sich in Ordnern mit demselben Datenformat und einem kompatiblen Schema befinden.

Der Discovery-Scan unterstützt die folgenden Formate:

Strukturiert und semistrukturiert

Parquet
Avro
ORC
JSON (nur das durch Zeilenumbruch getrennte Format)
CSV (aber keine CSV-Dateien mit Kommentarzeilen)

Unstrukturiert

Bild (z. B. JPEG, PNG und BMP)
Dokumente (z. B. PDF-Dateien, Präsentationen und Textberichte)
Audio oder Video (z. B. WAV, MP3 und MP4)

Beim Discovery-Scan werden die folgenden Komprimierungsformate unterstützt:

Strukturierte und semistrukturierte Daten

Interne Komprimierung für die folgenden Formate:

Komprimierung Beispiel für Dateiendung Unterstütztes Format

GZIP .gz.parquet Parquet

LZ4 .lz4.parquet Parquet

Snappy .snappy.parquet Parquet, ORC, Avro

lzo .lzo.parquet Parquet, ORC
Externe Komprimierung für JSON- und CSV-Dateien:
- GZIP
- bzip2

Komprimierung	Beispiel für Dateiendung	Unterstütztes Format
GZIP	`.gz.parquet`	Parquet
LZ4	`.lz4.parquet`	Parquet
Snappy	`.snappy.parquet`	Parquet, ORC, Avro
lzo	`.lzo.parquet`	Parquet, ORC

Unstrukturierte Daten

Bei Objekttabellen wird die Komprimierung hauptsächlich über Cloud Storage-Objektmetadaten und nicht über interne BigQuery-Einstellungen verwaltet.

Standardmäßige Metadatenkomprimierung: BigQuery erkennt automatisch Dateien, die mit gzip und bzip2 komprimiert wurden, wenn sie die Standarderweiterungen .gz oder .bz2 verwenden.
Content-Encoding: Sie können die Metadaten Content-Encoding gzip in Cloud Storage verwenden, um komprimierte Dateien bereitzustellen und gleichzeitig den ursprünglichen Inhaltstyp beizubehalten.
Interne Medienkomprimierung: Formate, die von Natur aus komprimiert sind (z. B. JPEG für Bilder, MP3 für Audio und MP4 für Video), werden nativ unterstützt.

Das Limit für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden, finden Sie unter Kontingente und Limits.

Die erkannten Tabellen werden in BigQuery als externe BigLake-Tabellen, BigLake-Objekttabellen oder externe Tabellen registriert. So können die Daten in BigQuery analysiert werden. Das Metadaten-Caching für BigLake-Tabellen und Objekttabellen ist ebenfalls aktiviert. Alle BigLake-Tabellen werden automatisch in Dataplex Universal Catalog aufgenommen, damit sie durchsucht und erkannt werden können.

Hinweise

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Erforderliche Rollen für das Dataplex Universal Catalog-Dienstkonto

Bevor Sie beginnen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto in Ihrem Projekt die IAM-Berechtigungen zu.

  service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

Ersetzen Sie PROJECT_NUMBER durch das Projekt, in dem die Dataplex API aktiviert ist.

Damit das Dataplex-Dienstkonto die erforderlichen Berechtigungen zum Erstellen und Ausführen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die folgenden IAM-Rollen zuzuweisen:

Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Speicher-Bucket
Dataplex Discovery Publishing Service Agent (roles/dataplex.discoveryPublishingServiceAgent) für das Nutzerprojekt
BigLake-Tabellen erstellen: Dataplex Discovery BigLake Publishing Service Agent (roles/dataplex.discoveryBigLakePublishingServiceAgent) für die BigQuery-Verbindung

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Ausführen eines Discovery-Scans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen und auszuführen:

bigquery.datasets.create für das Datenquellenprojekt
storage.buckets.get für den Datenquellen-Bucket
storage.objects.get für den Datenquellen-Bucket
storage.objects.list für den Datenquellen-Bucket
bigquery.datasets.get für das Datenquellenprojekt
Stellen Sie eine Verbindung her:
- bigquery.connections.delegate für die BigQuery-Verbindung
- bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dataplex-Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für das Dienstkonto der BigQuery-Verbindung

Damit das BigQuery Connection-Dienstkonto die erforderlichen Berechtigungen zum Erstellen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem BigQuery Connection-Dienstkonto die IAM-Rolle Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Cloud Storage-Bucket zuzuweisen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen eines Discovery-Scans erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind zum Erstellen eines Erkennungsscans erforderlich:

bigquery.datasets.create für das Datenquellenprojekt
storage.buckets.get für den Datenquellen-Bucket
storage.objects.get für den Datenquellen-Bucket
storage.objects.list für den Datenquellen-Bucket
bigquery.datasets.get für das Datenquellenprojekt
Stellen Sie eine Verbindung her:
- bigquery.connections.delegate für die BigQuery-Verbindung
- bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dienstkonto für BigQuery-Verbindungen möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für Endnutzer

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Cloud Storage-Bucket zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Scans zur Datenermittlung benötigen:

Vollständiger Zugriff auf DataScan-Ressourcen: Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) – Ihr Projekt
Schreibzugriff auf DataScan-Ressourcen: Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) – Ihr Projekt
Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer) – Ihr Projekt
Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) – Ihr Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Scans zur Datenermittlung erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenermittlungsscans zu erstellen und zu verwalten:

So erstellen Sie einen DataScan: dataplex.datascans.create für Ihr Projekt
So löschen Sie einen DataScan: dataplex.datascans.delete für Ihr Projekt oder eine DataScan-Ressource
DataScan-Details ansehen, mit Ausnahme von Ergebnissen: dataplex.datascans.get für eine DataScan-Ressource in Ihrem Projektor
DataScan-Details einschließlich der Ergebnisse ansehen: dataplex.datascans.getData für Ihr Projekt oder eine DataScan-Ressource
DataScans auflisten: dataplex.datascans.list für Ihr Projekt oder eine DataScan-Ressource
So führen Sie einen DataScan aus: dataplex.datascans.run für Ihr Projekt oder eine DataScan-Ressource
So aktualisieren Sie die Beschreibung eines DataScans: dataplex.datascans.update für Ihr Projekt oder eine DataScan-Ressource
IAM-Berechtigungen des DataScan ansehen: dataplex.datascans.getIamPolicy für Ihr Projekt oder eine DataScan-Ressource
IAM-Berechtigungen für den DataScan festlegen: dataplex.datascans.setIamPolicy für Ihr Projekt oder eine DataScan-Ressource

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Erkennungsscan erstellen

Um Daten zu ermitteln, müssen Sie einen Erkennungsscan erstellen und ausführen. Sie können einen Zeitplan für den Scan festlegen oder den Scan bei Bedarf ausführen.

Wenn der Discovery-Scan ausgeführt wird, wird in BigQuery ein neues Dataset erstellt, das dem gescannten Cloud Storage-Bucket entspricht. Der Name des BigQuery-Datasets ist derselbe wie der Name des Cloud Storage-Bucket. Ungültige Zeichen im Bucket-Namen werden durch einen Unterstrich ersetzt. Wenn der Datasetname nicht verfügbar ist, wird ein Suffix angehängt (z. B. _discovered_001). Das Dataset enthält die externen BigLake- oder Nicht-BigLake-Tabellen, die durch den Discovery-Scan für die weitere Analyse erstellt wurden.

Console

Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.

Zur Metadatenkuratierung
Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.
Konfigurieren Sie im Bereich Erkennungs-Scan erstellen die Details zu den zu scannenden Daten.
Geben Sie einen Namen für den Scan ein.
Geben Sie im Feld Scan-ID eine eindeutige ID ein, die den Konventionen für die Benennung von Ressourcen in Google Cloud entspricht. Wenn Sie keine ID angeben, wird die Scan-ID vom Erkennungsscan generiert.
Optional: Geben Sie eine Beschreibung des Scans ein.
Wenn Sie den Cloud Storage-Bucket angeben möchten, der die zu scannenden Dateien enthält, suchen Sie im Feld Bucket nach dem Bucket und wählen Sie ihn aus.
Optional: Definieren Sie die Daten, die in den Discovery-Scan einbezogen oder daraus ausgeschlossen werden sollen, indem Sie eine Liste von Glob-Mustern für die Dateifilterung angeben.
- Include: Wenn nur eine Teilmenge der Daten gescannt werden soll, geben Sie eine Liste von Glob-Mustern an, die mit den einzuschließenden Objekten übereinstimmen.
- Ausschließen: Geben Sie eine Liste von Glob-Mustern an, die mit den auszuschließenden Objekten übereinstimmen.
Wenn Sie beispielsweise gs://test_bucket/foo/.. aus dem Discovery-Scan ausschließen möchten, geben Sie **/foo/** als Ausschluss-Pfad ein. Anführungszeichen verursachen Fehler. Geben Sie **/foo/** anstelle von "**/foo/**" ein.

Wenn Sie sowohl Einschluss- als auch Ausschlussmuster angeben, werden die Ausschlussmuster zuerst angewendet.
Optional: Wählen Sie unter Projekt das BigQuery-Dataset-Projekt aus, das die durch den Discovery-Scan erstellten externen BigLake- oder Nicht-BigLake-Tabellen enthält. Wenn nicht angegeben, wird das Dataset in dem Projekt erstellt, das den Cloud Storage-Bucket enthält.
Wählen Sie unter Typ des Standorts entweder Region oder Multiregion (je nach Verfügbarkeit) für das BigQuery-Dataset aus, in dem die Daten veröffentlicht werden.
Wenn Sie BigLake-Tabellen aus den gescannten Daten erstellen möchten, geben Sie im Feld Verbindungs-ID die ID Ihrer Google Cloud -Ressourcenverbindung an. Weitere Informationen finden Sie unter Google Cloud Ressourcenverbindungen in BigQuery.

Sie können eine neue Verbindungs-ID am selben Standort wie das BigQuery-Dataset erstellen, der mit dem Cloud Storage-Bucket-Standort kompatibel ist.

Wenn Sie keine Ressourcenverbindungs-ID angeben, werden beim Discovery-Scan externe Tabellen, die nicht von BigLake stammen, erstellt. Weitere Informationen zu den Unterschieden zwischen diesen externen Tabellentypen und dazu, warum der Discovery-Dienst einen Typ dem anderen vorziehen könnte, finden Sie im Vergleich der Verhaltensunterschiede.
Konfigurieren Sie im Abschnitt Erkennungshäufigkeit, wann der Erkennungsscan ausgeführt werden soll:
- Wiederholen: Der Scan wird nach einem vordefinierten Zeitplan ausgeführt. Geben Sie die Startzeit, die Tage, an denen der Scan ausgeführt werden soll, und die Häufigkeit an, z. B. „stündlich“.
- On-Demand: Der Scan wird auf Anfrage ausgeführt.
Optional: Geben Sie im Abschnitt JSON- oder CSV-Spezifikationen an, wie JSON- und CSV-Dateien bei der Überprüfung verarbeitet werden sollen. Klicken Sie auf JSON- oder CSV-Spezifikationen.
1. Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
  - Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für JSON-Daten deaktivieren, werden alle Spalten als ihre primitiven Typen registriert, z. B. als String, Zahl oder boolescher Wert.
  - Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
2. Wenn Sie CSV-Optionen konfigurieren möchten, aktivieren Sie CSV-Parsing-Optionen aktivieren.
  - Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für CSV-Daten deaktivieren, werden alle Spalten als Strings registriert.
  - Überschriftenzeilen: Die Anzahl der Überschriftenzeilen, entweder 0 oder 1. Wenn Sie den Wert 0 angeben, werden beim Discovery-Scan Überschriften abgeleitet und die Spaltennamen aus der Datei extrahiert. Der Standardwert ist 0.
  - Spaltentrennzeichen: Das Zeichen, das zum Trennen von Werten verwendet wird. Geben Sie ein einzelnes Zeichen, \r (Zeilenumbruch) oder \n (neue Zeile) an. Der Standardwert ist ein Komma (,).
  - Codierungsformat: die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
Klicken Sie auf Erstellen (für einen geplanten Scan), Jetzt ausführen (für einen On-Demand-Scan) oder Erstellen und ausführen (für einen einmaligen Scan).

Ein geplanter Scan wird gemäß dem von Ihnen festgelegten Zeitplan ausgeführt.

Ein On-Demand-Scan wird beim Erstellen einmal ausgeführt. Sie können ihn aber jederzeit starten. Es kann einige Minuten dauern, bis der Scan abgeschlossen ist.

Ein einmaliger Scan wird automatisch einmal ausgeführt. Sie wird automatisch gelöscht, wenn sie den definierten TTL-Schwellenwert (Time-to-Live) erreicht. Dieser Wert bestimmt, wie lange ein Discovery-Scan nach der Ausführung aktiv bleibt. Der TTL-Wert kann zwischen 0 Sekunden (sofortiges Löschen) und 365 Tagen liegen. Ein Discovery-Scan ohne angegebene TTL wird nach 24 Stunden automatisch gelöscht.

gcloud

Verwenden Sie zum Erstellen eines Discovery-Scans den Befehl gcloud dataplex datascans create data-discovery.

gcloud dataplex datascans create data-discovery --location=LOCATION
--data-source-resource=BUCKET_PATH

Ersetzen Sie Folgendes:

LOCATION: der Speicherort, an dem Sie den Discovery-Scan erstellen möchten
BUCKET_PATH: der Cloud Storage-Pfad des Buckets, den Sie scannen möchten

REST

Verwenden Sie zum Erstellen eines Discovery-Scans die Methode dataScans.create.

Veröffentlichte BigLake-Tabellen abfragen

Nachdem Sie den Ermittlungsscan ausgeführt haben, werden BigLake-Tabellen in einem neuen Dataset in BigQuery veröffentlicht. Die Tabellen stehen dann in BigQuery zur Analyse mit SQL oder in Dataproc mit Apache Spark oder HiveQL zur Verfügung.

SQL

Sie können Tabellen in BigQuery aufrufen oder abfragen. Weitere Informationen zum Ausführen von Abfragen in BigQuery finden Sie unter Abfrage ausführen.

Apache Spark

So führen Sie eine Abfrage für BigLake-Tabellen mit Spark SQL in einem serverlosen Dataproc-Job aus:

Erstellen Sie ein PySpark-Skript, das dem folgenden Beispielskript ähnelt:

from pyspark.sql import SparkSession
session = (
  SparkSession.builder.appName("testing")
    .config("viewsEnabled","true")
    .config("materializationDataset", "DATASET_ID")
    .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID")
    .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory")
    .enableHiveSupport()
    .getOrCreate()
)

session.sql("show databases").show()
session.sql("use TABLE_NAME").show()
session.sql("show tables").show()

sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10"
df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql)
df.show()

Ersetzen Sie Folgendes:

DATASET_ID: ID des Datasets, für das Nutzer die Berechtigung zum Erstellen haben
PROJECT_ID: ID des Projekts mit der BigLake-Tabelle
TABLE_NAME: Name der BigLake-Tabelle
TABLE_ID: ID der BigLake-Tabelle

Batchjob senden

Veröffentlichte BigLake-Tabellen verwalten

Veröffentlichte BigLake-Tabellen werden durch den Erkennungsscan in BigQuery erstellt und verwaltet. Standardmäßig werden beim Erkennungsscan jedes Mal, wenn die geplanten oder On-Demand-Scans ausgeführt werden, neue Daten erkannt, Schemas abgeleitet und Schemas weiterentwickelt. Um anzugeben, dass Metadaten vom Scan verwaltet werden, werden Tabellen mit dem Label metadata-managed-mode, das auf discovery-managed festgelegt ist, veröffentlicht.

Wenn Sie das Schema und andere Metadaten wie CSV- oder JSON-Optionen selbst verwalten möchten, legen Sie das Label metadata-managed-mode auf user_managed fest. So bleibt das Schema beim nächsten Erkennungsscan unverändert. Dieser Ansatz kann in Szenarien nützlich sein, in denen das Schema, das durch den Discovery-Scan abgeleitet wird, falsch ist oder sich von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird. Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, können die Kosten gesenkt werden.

Wenn Sie das Label aktualisieren möchten, können Sie den Wert des Labelschlüssels metadata-managed-mode in user_managed anstatt in discovery-managed ändern. In diesem Fall wird das Schema der Tabelle durch den Erkennungsscan nicht aktualisiert, solange das Label user_managed an die Tabelle angehängt ist.

Veröffentlichte BigLake-Tabellen aktualisieren

Bei BigLake-Tabellen, die mit den Erkennungsscanjobs mit der Standardkonfiguration veröffentlicht werden, werden das Schema und andere Metadaten automatisch bei jedem Ausführen des Erkennungsscanjobs in der geplanten Häufigkeit aktualisiert.

So aktualisieren Sie eine veröffentlichte BigLake-Tabelle:

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Ein oder mehrere Tabellenattribute aktualisieren
Klicken Sie im linken Bereich auf Explorer:

Wenn Sie den linken Bereich nicht sehen, klicken Sie auf Linken Bereich maximieren, um ihn zu öffnen.
Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Datasets und wählen Sie dann ein Dataset aus.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann die Tabelle aus.
Prüfen Sie auf dem Tab Details im Bereich Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn ein anderer Wert festgelegt ist, gehen Sie so vor:
1. Klicken Sie auf Details bearbeiten.
2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert user_managed ein.

Veröffentlichte BigLake-Tabellen löschen

So löschen Sie eine veröffentlichte BigLake-Tabelle:

Datendateien für die Tabelle im Cloud Storage-Bucket löschen
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im linken Bereich auf Explorer:
Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Datasets und wählen Sie dann ein Dataset aus.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann die Tabelle aus.
Prüfen Sie im Bereich Details im Abschnitt Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn sie auf user_managed eingestellt ist, gehen Sie so vor:
1. Klicken Sie auf Details bearbeiten .
2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert discovery-managed ein.
  
  Hinweis :Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, werden die Tabellenmetadaten durch den Discovery-Scan nicht überschrieben. Daher wird die Tabelle nicht gelöscht.
Klicken Sie auf Ausführen. Der Discovery-Scan wird bei Bedarf ausgeführt.

Nachdem der Erkennungsscan ausgeführt wurde, wird die BigLake-Tabelle in BigQuery gelöscht und kann nicht mehr über Spark aufgelistet oder abgefragt werden.

Erkennungsscan on demand ausführen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan bei Bedarf auszuführen.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Erkennungsscan auszuführen:

gcloud dataplex datascans run DATASCAN \
  --location=LOCATION

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Erkennungsscans.

REST

Wenn Sie einen Discovery-Scan auf Abruf ausführen möchten, verwenden Sie die dataScans.run-Methode in der Dataplex API.

Erkennungsscans auflisten

Wählen Sie eine der folgenden Optionen aus, um Ihre Discovery-Scans aufzulisten.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Im Bereich Cloud Storage-Erkennung werden die im Projekt erstellten Erkennungsscans aufgeführt.

gcloud

gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID

Ersetzen Sie Folgendes:

LOCATION: Der Standort Ihres Projekts.
PROJECT_ID: Ihre Google Cloud Projekt-ID

REST

Wenn Sie die Liste der Discovery-Scans in Ihrem Projekt abrufen möchten, verwenden Sie die dataScans.list-Methode in der Dataplex API.

Erkennungsscan ansehen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan anzusehen.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
- Im Bereich Scandetails werden Details zum Erkennungsscan angezeigt.
- Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanjobs angezeigt.

gcloud

gcloud dataplex datascans jobs describe JOB \
    --location=LOCATION \
    --datascan=DATASCAN \
    --view=FULL

Ersetzen Sie Folgendes:

JOB: Die Job-ID des Discovery-Scan-Jobs.
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.
--view=FULL: Das Ergebnis des Discovery-Scan-Jobs ansehen.

REST

Wenn Sie die Ergebnisse eines Data Discovery-Scans ansehen möchten, verwenden Sie die dataScans.get-Methode in der Dataplex API.

Frühere Ergebnisse von Erkennungsscans ansehen

Wählen Sie eine der folgenden Optionen aus, um historische Ergebnisse von Discovery-Scans aufzurufen.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Curation.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
Klicken Sie auf den Bereich Scanverlauf. Im Bereich Scanverlauf finden Sie Informationen zu früheren Jobs, einschließlich der Anzahl der in jedem Job gescannten Datensätze, des Status jedes Jobs und der Uhrzeit, zu der die Jobs ausgeführt wurden.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf den Job.

gcloud

gcloud dataplex datascans jobs list \
    --location=LOCATION \
    --datascan=DATASCAN

Ersetzen Sie Folgendes:

LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.

REST

Wenn Sie alle Jobs eines Erkennungsscans aufrufen möchten, verwenden Sie die dataScans.job/list-Methode in der Dataplex API.

Erkennungsscan aktualisieren

Wenn Sie den Zeitplan eines Erkennungsscans ändern möchten, z. B. von On-Demand zu wiederkehrend, aktualisieren Sie den Erkennungsscan.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den Erkennungsscan, den Sie aktualisieren möchten, auf Aktionen > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-discovery, um einen Discovery-Scan zu aktualisieren.

gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION

Ersetzen Sie Folgendes:

SCAN_ID: die ID des Discovery-Scans, den Sie aktualisieren möchten
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DESCRIPTION: die neue Beschreibung für den Discovery-Scan

REST

Verwenden Sie zum Aktualisieren eines Discovery-Scans die Methode dataScans.patch in der Dataplex API.

Erkennungsscan löschen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan zu löschen.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Curation.
Klicken Sie im Bereich Cloud Storage-Erkennung für den Erkennungsscan, den Sie löschen möchten, auf Aktionen > Löschen.
Klicken Sie auf Löschen.

gcloud

gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async

Ersetzen Sie Folgendes:

SCAN_ID: Die ID des Discovery-Scans, den Sie löschen möchten.
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Discovery-Scans die Methode dataScans.delete in der Dataplex API.