Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Statistiken zu unstrukturierten Daten

Bei einem Datenprofilscan für unstrukturierte Daten in Knowledge Catalog werden Dark Data oder unstrukturierte Dateien wie PDFs in Cloud Storage in strukturierte, abfragefähige Assets in BigQuery umgewandelt. Während sich Standard-Erkennungstools auf Metadaten auf Dateiebene wie Größe und Typ beschränken, werden bei einem Datenprofilscan für unstrukturierte Daten, der auf Vertex AI Gemini-Modellen basiert, Dateiinhalte analysiert. Der Kontext wird automatisch extrahiert, der für die Fundierung von KI-Agenten und die Durchführung erweiterter Analysen erforderlich ist.

Durch diese Automatisierung entfällt die Notwendigkeit, Dokumente manuell zu parsen und benutzerdefinierten ETL-Code zu schreiben. So können Sie Daten, auf die Sie bisher keinen Zugriff hatten, ermitteln, klassifizieren und verwenden.

Bei einem Datenprofilscan für unstrukturierte Daten wird der Inhalt unstrukturierter Dateien analysiert, um Informationen zu extrahieren und Schemas abzuleiten. Das unterscheidet sich von der Funktion Data Insights für strukturierte Daten, bei der Beschreibungen und SQL-Abfragen anhand der Metadaten vorhandener strukturierter Tabellen generiert werden, und vom standardmäßigen statistischen Datenprofiling, bei dem Messwerte wie Nullanzahl und Werteverteilungen berechnet werden.

Automatisierte Erkennung und semantische Profilerstellung

Sie können das Profiling unstrukturierter Daten mit zwei verschiedenen Workflows durchführen, je nachdem, wo Sie beginnen:

Während eines Cloud Storage-Erkennungsscans:Bei einem Erkennungsscan werden Ihre unstrukturierten Dateien in Cloud Storage automatisch gefunden und zur Analyse in einer oder mehreren Objekttabellen in BigQuery katalogisiert. Eine Objekttabelle ist eine schreibgeschützte Tabelle über unstrukturierte Datenobjekte, die sich in Cloud Storage befinden. Wenn Sie einen Erkennungsscan mit aktivierter Option Semantische Inferenz aktivieren ausführen, dient er als automatischer Einstiegspunkt für die Profilerstellung unstrukturierter Daten.
Als eigenständiger Datenprofilscan für unstrukturierte Daten:Wenn Sie bereits BigQuery-Objekttabellen haben, können Sie einen Datenprofilscan für unstrukturierte Daten direkt für diese Tabellen ausführen. In diesem eigenständigen Workflow können Sie die Extraktion auch steuern, indem Sie in der DataScan-Spezifikation einen benutzerdefinierten Prompt angeben.

Wenn die Profilerstellung unstrukturierter Daten durchgeführt wird (entweder automatisch während eines Erkennungsscans oder als eigenständiger Scan), registriert das System die Objekttabellen als Einträge im Knowledge Catalog. Ein Eintrag stellt ein Daten-Asset dar, für das Sie Metadaten erfassen. Wenn aufgrund eines Erkennungsscans mehrere Tabellen erstellt werden, hat jeder Eintrag einen eigenen Tab „Statistiken“. Sie können diesen Eintrag dann öffnen, um die generierten Data Insights anzusehen. Das System führt die folgenden Aktionen aus:

Identifiziert und gruppiert Dateien (nur Discovery-Scan). Unstrukturierte Dateien in Cloud Storage werden automatisch identifiziert und in Objekttabellen organisiert. Diese Objekttabellen sind schreibgeschützte Tabellen, die eine strukturierte Schnittstelle zu Ihren unstrukturierten Daten bieten.
Führt einen Datenprofilscan für unstrukturierte Daten aus. Verwendet Vertex AI Gemini-Modelle, um den Inhalt der Dateien zu analysieren und ihre Bedeutung und Struktur zu verstehen. Dazu gehört die Schlussfolgerung von Entitäten, bei der generative KI verwendet wird, um bestimmte Attribute wie Company, Product oder Serial Number aus dem Dateiinhalt zu extrahieren. Dazu gehört auch die Beziehungsextraktion, bei der ermittelt wird, wie diese Einheiten miteinander verbunden sind, z. B. Component is_part_of Product, um einen semantischen Graphen zu erstellen. Wenn Sie einen eigenständigen Profilscan ausführen, können Sie die Extraktion steuern, indem Sie in der DataScan-Spezifikation einen benutzerdefinierten Prompt angeben.
Generiert Schemas und Graphprofile. Stellt ein KI-basiertes relationales Schema bereit und fügt dem Katalogeintrag, der die Objekttabelle darstellt, einen Graph Profile-Aspekt (dataplex-types.global.graph-profile) hinzu. Aspekte werden verwendet, um Metadaten in Einträgen zu erfassen. Dieser Metadatenaspekt enthält die abgeleiteten Schemas für die Einheiten (NodeType) und Beziehungen (EdgeType).
Metadaten anreichern: Der Knowledge Catalog wird automatisch mit KI-generierten Metadaten gefüllt. Dadurch werden die Daten durchsuchbar und können extrahiert werden.

Anstatt Datenbankschemas manuell zu entwerfen, können Sie Daten extrahieren, indem Sie mit einem Klick SQL-Abfragen ausführen oder Pipelines orchestrieren. Bei diesem Prozess werden abgeleitete Einheiten und Beziehungen in strukturierte Formate wie physische BigQuery-Tabellen oder ‑Ansichten materialisiert.

API-Methoden

Mit den folgenden REST API-Methoden können Sie Datenprofilscans für unstrukturierte Daten und die daraus resultierenden Katalogeinträge konfigurieren, ausführen und verwalten:

API-Methode	Beschreibung
`projects.locations.dataScans.create`	Erstellt einen Discovery-Scan (mit `dataDiscoverySpec`) oder einen eigenständigen Datenprofilscan für unstrukturierte Daten (mit `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Löst einen On-Demand-Job zum Scannen von Datenprofilen oder einen Discovery-Scan-Job aus, um unstrukturierte Dateien zu analysieren und semantische Statistiken zu generieren.
`projects.locations.dataScans.get`	Ruft die Konfigurationsdetails und die letzten Job-Ergebnisse eines vorhandenen Datenprofilscans ab.
`projects.locations.dataScans.jobs.list`	Listet frühere Scan-Jobs für einen bestimmten Datenprofilscan oder Erkennungsscan auf.
`projects.locations.dataScans.jobs.get`	Ruft detaillierte Ausführungsergebnisse und Logs für einen bestimmten Datenprofilscan-Job ab.
`projects.locations.entryGroups.entries.get`	Ruft einen Katalogeintrag ab, der eine Objekttabelle darstellt, einschließlich der zugehörigen KI-generierten Metadatenaspekte (z. B. `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Aktualisiert einen Katalogeintrag, um Metadatenaspekte wie `dataplex-types.global.graph-profile` anzuhängen, zu ändern oder zu kuratieren.

Anwendungsfälle

Sie können Datenprofilscans für unstrukturierte Daten für verschiedene Zwecke in unterschiedlichen Branchen verwenden, z. B. für die folgenden:

Pipeline-Einrichtung und Zero-ETL-Normalisierung: Erleichtern Sie die Datenextraktion aus Cloud Storage in BigQuery, indem Sie benutzerdefinierte Parser durch automatische Schemaempfehlungen und die Ein-Klick-Bereitstellung ersetzen, um Daten in BigQuery-Tabellen, ‑Ansichten oder semantischen Grafiken zu materialisieren.

Im E-Commerce und Einzelhandel kann ein Marktplatz beispielsweise Lieferantenrechnungen und Bestellungen in Hunderten von unterschiedlichen PDF-Layouts automatisch in einem einheitlichen BigQuery-Schema normalisieren (Unit Pr., Price/Pkg und Item Cost werden einer einzelnen Unit_Price-Spalte zugeordnet), ohne dass benutzerdefinierter Parsing-Code geschrieben werden muss. Im Gesundheitswesen können Biostatistiker Protokolle für klinische Studien mit mehreren Zentren und Fallberichtsformulare in strukturierte Tabellen aufnehmen, um Kohorten schnell zu analysieren.
Inhaltsklassifizierung und ‑validierung: Dunkle Daten werden automatisch in durchsuchbare Assets gruppiert, die mit KI-generierten Metadaten angereichert sind. So können Datenverantwortliche die extrahierten Einheiten im großen Maßstab manuell validieren und überwachen.

Bei Finanzdienstleistungen kann eine Investmentbank, die eine Due-Diligence-Prüfung für Fusionen und Übernahmen durchführt, beispielsweise große Mengen an historischen Verträgen und Kreditvereinbarungen automatisch klassifizieren und komplexe Rechtssubjekte (Contracting_Parties, Indemnity_Cap, Governing_Law) extrahieren. Datenverantwortliche können den visuellen Wissensgraphen auf dem Tab Insights untersuchen, um risikoreiche Verbindlichkeiten zu identifizieren, bevor sie Daten in Berichte für Führungskräfte exportieren.
Fundierung von KI-Agenten. RAG-Agents (Retrieval-Augmented Generation) mit bestätigten Grafiken fundieren. So wird eine klare „Nachvollziehbarkeitskette“ geschaffen, die Rohdateien mit strukturierter Geschäftslogik verbindet. Das reduziert Halluzinationen und ermöglicht es KI-Agents, mehrfache Tabellenverknüpfungen ohne Unklarheiten zu durchlaufen.

In der Fertigung und in industriellen Betrieben kann ein Unternehmen für schwere Maschinen beispielsweise Beziehungen zwischen Geräten aus jahrzehntelangen unstrukturierten Wartungsprotokollen und Störungsberichten extrahieren. Wenn ein Techniker vor Ort einen konversationellen KI-Agenten fragt, wie ein ungewöhnlicher hydraulischer Druckabfall behoben werden kann, verwendet der Agent das bestätigte Beziehungsdiagramm (Error_Code indicates_failure Hydraulic_Valve), um einen genauen, schrittweisen Reparaturplan zu erstellen, in dem der genaue historische Vorfallbericht zitiert wird.

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie Datenprofilscans für unstrukturierte Daten verwenden:

Unterstützte Formate Bei Erkennungsscans werden verschiedene unstrukturierte Dateitypen automatisch identifiziert und in BigQuery-Objekttabellen gruppiert. Die semantische Inferenz-Engine für Datenprofilscans für unstrukturierte Daten ist jedoch in erster Linie für PDF-Dokumente optimiert.
Standorte: Scans von Datenprofilen für unstrukturierte Daten sind nur an Standorten verfügbar, die Vertex AI Gemini 2.5 Pro-Modelle unterstützen (z. B. us-central1, europe-west1, asia-southeast1). Eine Liste der unterstützten Regionen finden Sie im Abschnitt Unterstützte Regionen unter Gemini 2.5 Pro. Scans, die in nicht unterstützten Regionen erstellt wurden, geben Validierungs- oder Ausführungsfehler zurück.
Ressourcenbereich: Datenprofilscans für unstrukturierte Daten werden ausschließlich für BigQuery-Objekttabellen ausgeführt. Sie unterstützen keine strukturierten Standard-BigQuery-Tabellen, externe Tabellen mit strukturierten Daten oder BigQuery-Ansichten.

Preise

Während der Public Preview-Phase sind Datenprofilscans für unstrukturierte Daten zu speziellen Werbebedingungen für Tests und Experimente verfügbar:

Semantische Inferenz: Die Verwendung von Vertex AI Gemini-Modellen zum Extrahieren semantischer Informationen und zum Ableiten von Diagrammprofilen während der Discovery-Scans ist während des Vorschauzeitraums kostenlos.
Kosten für zugrunde liegende Ressourcen: Für die zum Speichern und Verarbeiten Ihrer Daten erforderlichen Ressourcen fallen Standardgebühren an:
- Knowledge Catalog
  - Discovery-Scans werden auf Grundlage der Knowledge Catalog Premium-Verarbeitungs-SKUs (DCU-Stunden) für das Baseline-Scannen und die Gruppierung unstrukturierter Dateien abgerechnet. Weitere Informationen finden Sie unter Preise für den Knowledge Catalog.
  - Für KI-generierte Metadatenaspekte, einschließlich Graph-Profilen, fallen die üblichen Gebühren für den Knowledge Catalog-Speicher an.
- BigQuery und Dataform
  - Wenn Sie die Pipeline-Extraktionsmethode verwenden, fallen die üblichen Gebühren für die Dataform-Ausführung und BigQuery-Jobs an.
  - Bei Verwendung der SQL-Methode fallen die üblichen BigQuery ML-Gebühren (ML.PROCESS_DOCUMENT) und Gebühren für die Verarbeitung von BigQuery-Abfragen an.
  - Für alle Daten, die in BigQuery materialisiert werden, einschließlich Objekttabellen, abgeleiteter Metadaten und extrahierter Einheiten, fallen die üblichen BigQuery-Gebühren für Speicher und Abfragen an. Weitere Informationen finden Sie unter BigQuery-Preise.

Offizielle Abrechnungsstrukturen für Datenprofilscans für unstrukturierte Daten und semantische Inferenz werden mit der allgemeinen Verfügbarkeit eingeführt.

Kontingente

Für jeden einzelnen Discovery-Scan oder Datenprofilscan-Job gelten die standardmäßigen DataScan-Ressourcen- und API-Kontingente. Für das semantische Inferenzvolumen gilt ein bestimmtes Kontingent: Die Gesamtzahl der täglichen Ausführungen von Datenprofilscans für unstrukturierte Daten in BigQuery-Objekttabellen ist auf 140 Ausführungen pro Projekt und Tag begrenzt.

Wenn die Profilerstellung unstrukturierter Daten während eines Erkennungsscans erfolgt, gelten auch die Grenzwerte für die Anzahl der Tabellen, die von einem Erkennungsscan unterstützt werden. Weitere Informationen finden Sie unter BigQuery-Kontingente und ‑Limits.