Häufig gestellte Fragen zum Knowledge Catalog

In diesem Dokument werden einige der häufig gestellten Fragen zu Knowledge Catalog (ehemals Dataplex Universal Catalog) beantwortet.

Weitere Informationen zu Knowledge Catalog finden Sie in der Übersicht zu Knowledge Catalog.

Was ist Knowledge Catalog?

Google Knowledge Catalog ist eine intelligente Governance-Lösung für Daten und KI-Assets in Google Cloud. Sie bietet ein zentrales Inventar, in dem Sie Ihre Daten aus verschiedenen Datenquellen wie BigQuery, Cloud Storage, Pub/Sub und Spanner Google Cloud ermitteln, verwalten und steuern können. Dabei wird KI verwendet, um die Datensuche, die Metadatenanreicherung und die Datenqualität zu automatisieren. Mit seinem verwalteten Data Catalog bietet Knowledge Catalog die grundlegende Fundierung, die KI-Agents benötigen, um hochwertige Inhalte zu generieren.

Was ist Data Catalog?

Data Catalog war der ursprüngliche Name des Google CloudMetadatendienstes von. Im Laufe der Zeit wurde er zu Dataplex Universal Catalog weiterentwickelt und wurde nun in Knowledge Catalog umbenannt und weiterentwickelt.

Der Begriff "Data Catalog" wird zwar immer noch verwendet, um diese Art der Datenindexierung zu beschreiben, bezieht sich im Kontext von Google Cloudjedoch auf unser Legacy-Produkt. Wir empfehlen, dass alle neuen Projekte Knowledge Catalog verwenden, um von KI-gestützten Funktionen und einer verbesserten Governance zu profitieren.

Unterscheidet sich Knowledge Catalog von Data Catalog?

Ja, Knowledge Catalog ist die KI-gestützte Data Governance-Plattform, die den bestehenden Data Catalog ersetzen wird. Obwohl sie ähnliche Konzepte haben, bietet Knowledge Catalog mehrere Verbesserungen:

  • KI-gestützter Kontext: Im Gegensatz zu Data Catalog verwendet Knowledge Catalog Gemini, um automatisch geschäftlichen Kontext zu extrahieren, Beschreibungen in natürlicher Sprache zu generieren und SQL-„Golden Queries“ bereitzustellen, um KI-Agents zu unterstützen.

  • Umfassende Metadatenunterstützung: Knowledge Catalog unterstützt komplexere Metadatentypen wie verschachtelte Arrays, Maps und Datensätze.

  • Agentischer Zugriff: KI-Agenten können Knowledge Catalog-Tools über einen lokalen oder Remote-MCP-Server ermitteln und adaptiv verwenden.

  • Datensuche: Knowledge Catalog kann Metadaten automatisch aus einer größeren Anzahl von Google Cloud Diensten und externen Datenquellen aufnehmen.

  • Governance im großen Maßstab: Es bietet erweiterte Funktionen für die Datenprofilerstellung, die automatische Datenqualität und die zentralisierte Governance.

Wofür wird Knowledge Catalog verwendet?

Google Knowledge Catalog löst das Problem des „Daten-Kaltstarts“ – die Zeit, die mit dem Suchen, Verstehen und Überprüfen von Daten verschwendet wird, bevor Sie sie tatsächlich verwenden können. Zu den Hauptanwendungsfällen gehören:

  • Beschleunigte Datensuche: Anstatt komplexe organisatorische Silos zu durchsuchen, um Daten zu finden, können Sie die Suche in natürlicher Sprache verwenden (z. B. "Zeige mir die neuesten Daten zur Kundenabwanderung"), um Assets in allen Google Cloud Ressourcen sofort zu finden. So können Datennutzer ihre Produktivität steigern.

  • Unterstützung von KI-Agents: Es dient als „Source of Truth“ für generative KI oder ADK. Durch die Verknüpfung von physischen Daten mit geschäftlichen Definitionen wird sichergestellt, dass KI-Agents (z. B. solche, die auf Vertex AI basieren) hochwertige Daten verwenden. Dadurch werden KI-Halluzinationen erheblich reduziert und das Vertrauen in KI-generierte Erkenntnisse verbessert.

  • Automatisierte Data Governance: Ihre Daten werden automatisch gescannt, um vertrauliche Informationen (z. B. personenbezogene Daten) zu identifizieren. Außerdem wird nachverfolgt, woher die Daten stammen (Lineage), und ihre Genauigkeit wird überwacht (automatische Datenqualität). Diese Funktionen tragen dazu bei, das Vertrauen in Daten, die Sicherheit und die Compliance mit weniger manuellem Aufwand zu verbessern.

  • Ermittlung von „Dark Data“: Es kann unstrukturierte Dateien (z. B. PDFs oder Bilder in Cloud Storage) scannen, die darin enthaltenen Informationen extrahieren und sie in BigQuery durchsuchbar und abfragbar machen. So können Sie Erkenntnisse aus bisher nicht zugänglichen Daten gewinnen.

Praktische Anwendungsfälle finden Sie unter Knowledge Catalog kennenlernen.

Welche Arten von Metadaten werden in Knowledge Catalog gespeichert?

In Knowledge Catalog werden drei Arten von Metadaten gespeichert:

  • Technische Metadaten: Automatisch erfasste Schemas, Tabellennamen und Systemeigenschaften.

  • Geschäftsmetadaten: Nutzerdefinierter Kontext wie Geschäftsbezeichnungen, Glossarbegriffe und Eigentümerschaft.

  • Laufzeitmetadaten: Informationen zu Datenherkunft, Datenqualitätsbewertungen und Statistiken zur Datenprofilerstellung.

Wie migriere ich von Data Catalog?

Die Umstellung auf Knowledge Catalog ist nahtlos und erfordert keine manuelle Datenübertragung. Je nach aktueller Nutzung umfasst der Prozess zwei Hauptphasen:

  • Vorbereitungsphase: Wenn Sie benutzerdefinierte Metadaten (Tags, Tag-Vorlagen oder benutzerdefinierte Einträge) haben, werden diese Inhalte automatisch als schreibgeschützt in Knowledge Catalog übernommen. In dieser Phase führen Sie Konfigurationsaufgaben aus, um Ihre vorhandenen Data Catalog-Inhalte gleichzeitig in der neuen Benutzeroberfläche verfügbar zu machen.

  • Übertragungsphase: Sobald die Vorbereitung abgeschlossen ist, übertragen Sie den aktiven Status Ihrer Metadaten, um sie in Knowledge Catalog schreib-/lesbar zu machen. Dieser Schritt sollte mit der Aktualisierung aller programmatischen Arbeitslasten (APIs, Clientbibliotheken oder Terraform-Module) koordiniert werden, damit sie auf die neuen Knowledge Catalog-Endpunkte verweisen.

Wenn Sie keine benutzerdefinierten Metadaten haben oder die Plattform noch nicht kennen, können Sie die Umstellung abschließen, indem Sie Knowledge Catalog in der Console als Standard-UI festlegen. Google Cloud

Weitere Informationen finden Sie unter Von Data Catalog auf Knowledge Catalog umstellen.