Data Insights für unstrukturierte Daten

Mit Data Insights für unstrukturierte Daten im Knowledge Catalog werden Dark Data oder unstrukturierte Dateien wie PDFs in strukturierte, abfragefähige Assets umgewandelt. Standardmäßige Ermittlungstools sind auf Metadaten auf Dateiebene wie Größe und Typ beschränkt. Bei Datenstatistiken für unstrukturierte Daten wird Vertex AI verwendet, um den Dateiinhalt zu analysieren. Sie extrahiert automatisch den geschäftlichen Kontext, der erforderlich ist, um KI-Agents zu fundieren und erweiterte Analysen zu ermöglichen.

Durch diese Automatisierung entfällt die Notwendigkeit, Dokumente manuell zu parsen und benutzerdefinierten ETL-Code zu schreiben. So können Sie Daten, auf die Sie bisher keinen Zugriff hatten, ermitteln, klassifizieren und verwenden.

Automatisierte Erkennung unstrukturierter Daten

Ein Erkennungsscan ist ein Prozess, bei dem Ihre unstrukturierten Dateien in Cloud Storage automatisch gefunden und zur Analyse in einem oder mehreren BigLake-Objekttabellen in BigQuery katalogisiert werden. Es dient als Einstiegspunkt für Datenanalysen für unstrukturierte Daten. Das System registriert die resultierenden BigLake-Objekttabellen automatisch als Einträge im Knowledge Catalog. Wenn aufgrund eines Erkennungsscans mehrere Tabellen erstellt werden, hat jeder Eintrag einen eigenen Tab „Statistiken“. Sie können diesen Eintrag dann öffnen, um die generierten Datenstatistiken anzusehen. Wenn Sie einen Erkennungsscan mit aktivierten Datenstatistiken für unstrukturierte Daten ausführen, führt das System folgende Aktionen aus:

  1. Identifiziert und gruppiert Dateien. Unstrukturierte Dateien in Cloud Storage werden automatisch erkannt und in BigLake-Objekttabellen organisiert. Diese Objekttabellen sind schreibgeschützte Tabellen, die eine strukturierte Schnittstelle zu Ihren unstrukturierten Daten bieten.

  2. Datenanalysen für unstrukturierte Daten durchführen: Verwendet Vertex AI, um den tatsächlichen Inhalt der Dateien zu analysieren und deren Bedeutung und Struktur zu verstehen. Dazu gehört die Schlussfolgerung von Entitäten, bei der generative KI verwendet wird, um bestimmte Attribute wie Company, Product oder Serial Number aus dem Dateiinhalt zu extrahieren. Dazu gehört auch die Beziehungsextraktion, bei der ermittelt wird, wie diese Einheiten miteinander verbunden sind, z. B. Component is_part_of Product, um einen semantischen Graphen zu erstellen.

  3. Generiert Schemas und Graphprofile. Bietet ein KI-basiertes relationales Schema und einen Aspekt des Diagrammprofils. Dies ist ein Knowledge Catalog-Metadatenaspekt, der die abgeleiteten Schemas für die Entitäten und Beziehungen enthält.

  4. Metadaten anreichern: Der Knowledge Catalog wird automatisch mit KI-generierten Metadaten gefüllt. Dadurch werden die Daten durchsuchbar und können extrahiert werden.

Anstatt Datenbankschemas manuell zu entwerfen, können Sie Daten extrahieren, indem Sie mit einem Klick SQL-Abfragen ausführen oder Pipelines orchestrieren. Bei diesem Prozess werden abgeleitete Entitäten und Beziehungen in strukturierte Formate wie Tabellen oder Ansichten umgewandelt.

Anwendungsfälle

Sie können Datenstatistiken für unstrukturierte Daten für verschiedene Zwecke verwenden, unter anderem für die folgenden:

  • Automatisierte Generierung von ETL-Pipelines: Automatisieren Sie die Datenextraktion aus Cloud Storage in BigQuery, indem Sie benutzerdefinierte Parser durch automatische Schemavorschläge und die Bereitstellung mit nur einem Klick ersetzen, um Daten in BigQuery-Tabellen, -Ansichten oder semantischen Grafiken zu materialisieren.

    Ein Finanzdienstleistungsunternehmen kann beispielsweise automatisch Rechnungsdetails, Lieferantennamen und Vertragsbedingungen aus Tausenden von PDF-Rechnungen extrahieren und direkt in BigQuery speichern, um sofort Ausgabenanalysen durchzuführen, ohne benutzerdefinierten Parsing-Code schreiben zu müssen.

  • Inhaltsklassifizierung und ‑validierung: Dunkle Daten werden automatisch in durchsuchbare Assets gruppiert, die mit KI-generierten Metadaten angereichert sind. So können Datenverantwortliche die extrahierten Entitäten im großen Maßstab manuell validieren und überwachen.

    So kann beispielsweise eine Rechts- oder Compliance-Abteilung automatisch große Mengen an historischen Verträgen klassifizieren und wichtige Einheiten extrahieren. So können Datenverantwortliche die Metadaten validieren, bevor sie für wichtige behördliche Berichtswesen verwendet werden.

  • Fundierung von KI-Agents: RAG-Agents (Retrieval-Augmented Generation) mit verifizierten Grafiken fundieren. So entsteht eine klare „Rückverfolgbarkeitskette“, die Rohdateien mit strukturierter Geschäftslogik verbindet. Das reduziert Halluzinationen und ermöglicht es KI-Agents, mehrfache Tabellenverknüpfungen ohne Unklarheiten zu durchlaufen.

    Ein Produktionsunternehmen kann beispielsweise Beziehungen zwischen Geräten aus Wartungsprotokollen extrahieren. Wenn ein Techniker einen konversationellen KI-Agenten fragt: „Welche Regionen sind vom Silikonrückruf betroffen?“, verwendet der Agent den bestätigten Beziehungsdiagramm, um eine genaue Antwort mit einer klaren Rückverfolgbarkeitskette zu den Originalhandbüchern zu geben.

Beschränkungen

Beachten Sie die folgenden Einschränkungen, bevor Sie Datenstatistiken für unstrukturierte Daten verwenden:

  • Unterstützte Formate Bei Erkennungsscans werden verschiedene unstrukturierte Dateitypen automatisch identifiziert und in BigQuery-Objekttabellen gruppiert. Datenstatistiken für unstrukturierte Daten sind jedoch nur für PDF-Dateien optimiert.

  • Standorte: Datenstatistiken für unstrukturierte Daten sind nur an Standorten verfügbar, die Vertex AI Gemini 2.5 Pro-Modelle unterstützen. Eine Liste der unterstützten Regionen finden Sie im Abschnitt Unterstützte Regionen unter Gemini 2.5 Pro.

Preise

Während der Vorschauphase sind Datenanalysen für unstrukturierte Daten kostenlos für Experimente und Tests von Funktionen für semantische Inferenzen verfügbar. Sie sind jedoch weiterhin für die Kosten der zugrunde liegenden Ressourcen und Dienste verantwortlich, die während des Prozesses verbraucht werden.

Vorschauzeitraum

  • Semantische Inferenz: Für die Verwendung von Vertex AI zum Extrahieren semantischer Informationen und zum Ableiten von Diagrammprofilen während der Ermittlungsscans im gesamten Vorschauzeitraum fallen keine Kosten an.

  • Kosten für zugrunde liegende Ressourcen: Für die zum Speichern und Verarbeiten Ihrer Daten erforderlichen Ressourcen fallen die Standardgebühren an:

    • Knowledge Catalog

      • Discovery-Scans werden anhand von Knowledge Catalog Premium-Verarbeitungs-SKUs (DCU-Stunden) für das Scannen und Gruppieren unstrukturierter Daten abgerechnet. Weitere Informationen finden Sie unter Preise für Knowledge Catalog.

      • Für KI-generierte Metadaten, einschließlich Diagrammprofilen, fallen die standardmäßigen Speicherkosten für Knowledge Catalog an.

    • BigQuery.

      • Wenn Sie die Pipeline-Extraktionsmethode verwenden, fallen die üblichen Gebühren für die Dataform-Ausführung und BigQuery-Jobs an.

      • Bei Verwendung der SQL-Methode fallen die Standardgebühren für BigQuery ML und BigQuery-Jobs an.

      • Für alle Daten, die in BigQuery materialisiert werden, einschließlich Objekttabellen, abgeleiteter Metadaten und extrahierter Einheiten, fallen die Standardgebühren für BigQuery-Speicher und -Abfragen an. Weitere Informationen finden Sie unter BigQuery-Preise.

General Availability (GA)

Die offizielle Abrechnung für Datenstatistiken für unstrukturierte Daten beginnt mit der allgemeinen Verfügbarkeit.

Kontingente

Für jeden einzelnen Ermittlungsjob gelten die Standard-DataScan-Ressourcen- und API-Kontingente. Für das semantische Inferenzvolumen gilt ein bestimmtes Kontingent: Die Gesamtzahl der täglichen semantischen Inferenzvorgänge für BigQuery-Objekttabellen ist auf einen pro Projekt und Tag begrenzt.

Da Datenstatistiken für unstrukturierte Daten auf einem Discovery-Scan basieren, gelten die Grenzwerte für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden. Weitere Informationen finden Sie unter BigQuery-Kontingente und ‑Limits.

Nächste Schritte