Data Insights für unstrukturierte Daten

Mit Data Insights für unstrukturierte Daten in Knowledge Catalog werden Dark Data oder unstrukturierte Dateien wie PDFs in strukturierte, abfragbare Assets umgewandelt. Während Standardtools zur Erkennung auf Metadaten auf Dateiebene wie Größe und Typ beschränkt sind, werden mit Data Insights für unstrukturierte Daten die Dateiinhalte mit Vertex AI analysiert. Dabei wird automatisch der geschäftliche Kontext extrahiert, der für das Grounding von KI-Agents und für erweiterte Analysen erforderlich ist.

Durch diese Automatisierung entfällt die manuelle Dokumentenanalyse und benutzerdefinierter ETL-Code. So können Sie Daten erkennen, klassifizieren und verwenden, die zuvor nicht zugänglich waren.

Automatisierte Erkennung unstrukturierter Daten

Bei einem Erkennungsscan werden Ihre unstrukturierten Dateien in Cloud Storage automatisch gesucht und zur Analyse in einer oder mehreren Objekttabellen in BigQuery katalogisiert. Er dient als Einstiegspunkt für Data Insights für unstrukturierte Daten. Die resultierenden Objekttabellen werden automatisch als Einträge in Knowledge Catalog registriert. Wenn aufgrund eines Erkennungsscans mehrere Tabellen erstellt werden, hat jeder Eintrag einen eigenen Tab „Statistiken“. Sie können diesen Eintrag dann öffnen, um die generierten Statistiken zu sehen. Wenn Sie einen Erkennungsscan mit aktivierter Funktion Data Insights für unstrukturierte Daten ausführen, werden die folgenden Aktionen ausgeführt:

  1. Dateien werden identifiziert und gruppiert. Unstrukturierte Dateien in Cloud Storage werden automatisch identifiziert und in Objekttabellen organisiert. Diese Objekttabellen sind schreibgeschützte Tabellen, die eine strukturierte Schnittstelle zu Ihren unstrukturierten Daten bieten.

  2. Data Insights für unstrukturierte Daten wird ausgeführt. Mit Vertex AI wird der tatsächliche Inhalt der Dateien analysiert, um ihre Bedeutung und Struktur zu verstehen. Dazu gehört die Entitätsinferenz, bei der mit generativer KI bestimmte Attribute wie Company, Product, oder Serial Number aus dem Dateiinhalten extrahiert werden. Außerdem wird die Beziehungsextraktion verwendet, um zu ermitteln, wie diese Entitäten miteinander verbunden sind, z. B. Component is_part_of Product, um einen semantischen Graphen zu erstellen.

  3. Schemas und Graphprofile werden generiert. Es wird ein von der KI vorgeschlagenes relationales Schema und ein Graphprofil aspekt bereitgestellt. Dabei handelt es sich um einen Knowledge Catalog-Metadatenaspekt, der die abgeleiteten Schemas für die Entitäten und Beziehungen enthält.

  4. Metadaten werden angereichert. Knowledge Catalog wird automatisch mit von der KI generierten Metadaten gefüllt. So können die Daten durchsucht und für die Extraktion vorbereitet werden.

Anstatt Datenbankschemas manuell zu entwerfen, können Sie die Datenextraktion mit einer SQL-Abfrage oder einer Pipeline-Orchestrierung mit nur einem Klick durchführen. Bei diesem Prozess werden abgeleitete Entitäten und Beziehungen in strukturierte Formate wie Tabellen oder Ansichten umgewandelt.

Anwendungsfälle

Sie können Data Insights für unstrukturierte Daten für verschiedene Zwecke verwenden, darunter:

  • Automatisierte ETL-Pipeline-Generierung. Automatisieren Sie die Datenextraktion aus Cloud Storage in BigQuery, indem Sie benutzerdefinierte Parser durch automatische Schemavorschläge und die Bereitstellung mit einem Klick ersetzen, um Daten in BigQuery-Tabellen, -Ansichten oder semantischen Graphen zu materialisieren.

    Ein Finanzdienstleistungsunternehmen kann beispielsweise automatisch Rechnungsdetails, Anbieternamen und Vertragsbedingungen aus Tausenden von PDF-Rechnungen extrahieren und sie direkt in BigQuery materialisieren, um sofort Ausgabenanalysen durchzuführen, ohne benutzerdefinierten Parsing-Code schreiben zu müssen.

  • Inhaltsklassifizierung und ‑validierung. Dark Data werden automatisch in durchsuchbare Assets gruppiert, die mit KI-generierten Metadaten angereichert sind. So können Datenverantwortliche die extrahierten Entitäten im großen Maßstab manuell validieren und überwachen.

    Beispielsweise kann eine Rechts- oder Compliance-Abteilung große Repositories mit historischen Verträgen automatisch klassifizieren und wichtige Entitäten extrahieren. So können Datenverantwortliche die Metadaten validieren, bevor sie für wichtiges Berichtswesen zu gesetzlichen Bestimmungen verwendet werden.

  • KI-Agent-Grounding. Grounding von Retrieval-Augmented Generation (RAG)-Agents mit verifizierten Graphen. So entsteht eine klare „Traceability-Kette“, die Rohdateien mit strukturierter Geschäftslogik verbindet und Halluzinationen reduziert. KI-Agents können so mehrtabellige Joins ohne Unklarheiten ausführen.

    Ein Produktionsunternehmen kann beispielsweise Beziehungen zwischen Geräten aus Wartungsprotokollen extrahieren. Wenn ein Techniker einen konversationellen KI-Agent fragt, welche Regionen vom Rückruf von Silikon betroffen sind, verwendet der Agent den verifizierten Beziehungs-Graphen, um eine genaue Antwort mit einer klaren Traceability-Kette zu den Originalhandbüchern zu geben.

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie Data Insights für unstrukturierte Daten verwenden:

  • Unterstützte Formate. Bei Erkennungsscans werden verschiedene unstrukturierte Dateitypen automatisch identifiziert und in BigQuery-Objekttabellen gruppiert. Data Insights für unstrukturierte Daten ist jedoch nur für PDF-Dateien optimiert.

  • Standorte. Data Insights für unstrukturierte Daten ist nur an Standorten verfügbar, die Vertex AI Gemini 2.5 Pro-Modelle unterstützen. Eine Liste der unterstützten Regionen finden Sie im Abschnitt Unterstützte Regionen unter Gemini 2.5 Pro.

Preise

Während der Vorschauphase können Sie Data Insights für unstrukturierte Daten kostenlos für Experimente und Tests mit semantischen Inferenzfunktionen verwenden. Sie sind jedoch weiterhin für die Kosten der zugrunde liegenden Ressourcen und Dienste verantwortlich, die während des Prozesses verbraucht werden.

Vorschauzeitraum

  • Semantische Inferenz. Die Verwendung von Vertex AI zum Extrahieren semantischer Informationen und zum Ableiten von Graphprofilen während Erkennungsscans ist während des gesamten Vorschauzeitraums kostenlos.

  • Kosten für zugrunde liegende Ressourcen. Für die Ressourcen, die zum Speichern und Verarbeiten Ihrer Daten erforderlich sind, fallen die Standardgebühren an:

    • Knowledge Catalog.

      • Erkennungsscans werden basierend auf den Knowledge Catalog Premium-Verarbeitungs-SKUs (DCU-Stunden) für das Scannen und Gruppieren unstrukturierter Daten abgerechnet. Weitere Informationen finden Sie unter Knowledge Catalog Preise.

      • Für von der KI generierte Metadaten, einschließlich Graphprofile, fallen die Standardgebühren für den Knowledge Catalog-Speicher an.

    • BigQuery.

      • Bei Verwendung der Pipeline-Extraktionsmethode fallen die Standardgebühren für die Dataform-Ausführung und BigQuery-Jobs an.

      • Bei Verwendung der SQL-Methode fallen die Standardgebühren für BigQuery ML und BigQuery-Jobs an.

      • Für alle Daten, die in BigQuery materialisiert werden, einschließlich Objekttabellen, abgeleiteter Metadaten und extrahierter Entitäten, fallen die Standardgebühren für BigQuery-Speicher und ‑Abfragen an. Weitere Informationen finden Sie unter BigQuery-Preise.

General Availability (GA)

Die offizielle Abrechnung für Data Insights für unstrukturierte Daten beginnt mit der General Availability (GA).

Kontingente

Für jeden einzelnen Erkennungsjob gelten die Standardkontingente für DataScan-Ressourcen und ‑APIs. Ein bestimmtes Kontingent regelt das Volumen der semantischen Inferenz: Die Gesamtzahl der täglichen semantischen Inferenzausführungen für BigQuery-Objekttabellen ist auf eine pro Projekt und Tag beschränkt.

Da Data Insights für unstrukturierte Daten auf einem Erkennungsscan basiert, gelten die Limits für die Anzahl der Tabellen, die ein Erkennungsscan unterstützt. Weitere Informationen finden Sie unter BigQuery-Kontingente und ‑Limits.

Nächste Schritte