Einführung in Data Governance in BigQuery

BigQuery bietet integrierte Governance-Funktionen, die die Erkennung, Verwaltung, Überwachung, Steuerung und Nutzung Ihrer Daten- und KI-Assets vereinfachen.

Administratoren, Data Stewards, Data Governance-Manager und Data Custodians können die Governance-Funktionen in BigQuery für folgende Aufgaben nutzen:

  • Daten erkennen
  • Daten kuratieren
  • Metadaten erfassen und anreichern
  • Datenqualität verwalten
  • Sicherstellen, dass Daten konsistent und in Übereinstimmung mit den Organisationsrichtlinien verwendet werden
  • Daten in großem Umfang und auf sichere Weise freigeben

Die Governance-Funktionen von BigQuery werden von Knowledge Catalog unterstützt, einem zentralen Inventar aller Daten-Assets in Ihrer Organisation. Knowledge Catalog enthält geschäftliche, technische und betriebliche Metadaten für alle Ihre Daten. Mithilfe von künstlicher Intelligenz und maschinellem Lernen können Sie Beziehungen und Semantik in den Metadaten erkennen.

Mit dem Lakehouse-Laufzeitkatalog können Sie mehrere Datenverarbeitungs-Engines verwenden, um eine einzelne Kopie von Daten mit einem einzelnen Schema abzufragen, ohne dass Daten dupliziert werden. Zu den Datenverarbeitungs-Engines, die Sie verwenden können, gehören BigQuery, Apache Spark, Apache Flink und Apache Hive. Ihre Daten können an Orten wie BigQuery-Speichertabellen, verwalteten Apache Iceberg-Tabellen oder externen BigLake-Tabellen gespeichert werden.

BigQuery unterstützt den gesamten Datenlebenszyklus, von der Erkennung bis zur Nutzung von Daten. Governance-Funktionen sind auch in Knowledge Catalog verfügbar.

Datenerkennung

BigQuery erkennt Daten in der gesamten Organisation in Google Cloud, unabhängig davon, ob sich die Daten in BigQuery, Spanner, Cloud SQL, Pub/Sub oder Cloud Storage befinden. Die Metadaten werden automatisch extrahiert und in Knowledge Catalog gespeichert. Sie können beispielsweise Metadaten für strukturierte und unstrukturierte Daten aus Cloud Storage extrahieren und automatisch abfragebereite BigLake-Tabellen in großem Umfang erstellen. So können Sie Analysen mit einer Open-Source-Engine durchführen, ohne Daten zu duplizieren.

Sie können auch Metadaten aus Datenquellen von Drittanbietern extrahieren und katalogisieren, indem Sie benutzerdefinierte Connectors verwenden.

BigQuery bietet die folgenden Funktionen zur Datenerkennung:

  • Suche Suchen Sie projekt- und organisationsübergreifend nach Daten- und KI-Ressourcen. Verwenden Sie in BigQuery in der Google Cloud Console die semantische Suche (Vorschau), um in natürlicher Sprache nach Ressourcen zu suchen. Alternativ können Sie in Knowledge Catalog mit der Stichwortsuche nach Ressourcen suchen.
  • Automatische Erkennung von Cloud Storage Daten. Suchen Sie in Cloud Storage-Buckets nach Daten, um Metadaten zu extrahieren und zu katalogisieren. Bei der automatischen Erkennung werden Tabellen für strukturierte und unstrukturierte Daten erstellt.
  • Metadatenimport. Importieren Sie Metadaten in großem Umfang aus Drittanbietersystemen in Knowledge Catalog. Sie können benutzerdefinierte Connectors erstellen, um Daten aus Ihren Datenquellen zu extrahieren, und dann verwaltete Verbindungspipelines ausführen, die den Workflow für den Metadatenimport orchestrieren.
  • Metadatenexport. Exportieren Sie Metadaten in großem Umfang aus Knowledge Catalog. Sie können die exportierten Metadaten mit BigQuery analysieren oder in benutzerdefinierte Anwendungen oder programmatische Verarbeitungsworkflows einbinden.

Kuratierung und Data Stewardship

Um die Auffindbarkeit und Nutzbarkeit von Daten zu verbessern, können Data Stewards und Administratoren mit BigQuery Metadaten überprüfen, aktualisieren und analysieren. Mit den Funktionen für die Datenkuratierung und das Data Stewardship von BigQuery können Sie sicherstellen, dass Ihre Daten korrekt und konsistent sind und den Richtlinien Ihrer Organisation entsprechen.

BigQuery bietet die folgenden Funktionen für die Datenkuratierung und das Data Stewardship:

  • Unternehmensglossar. Verbessern Sie Kontext, Zusammenarbeit und Suche, indem Sie die Terminologie Ihrer Organisation in einem Glossar definieren. Legen Sie Data Stewards für die Begriffe fest und fügen Sie Begriffe an Daten-Asset-Felder an.
  • Data Insights. Gemini verwendet Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die SQL-Abfragen zu generieren, mit denen sie beantwortet werden können. Mit diesen Data Insights können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen durchführen.
  • Datenprofilerstellung. Identifizieren Sie allgemeine statistische Merkmale der Spalten in BigQuery-Tabellen, um Ihre Daten besser zu verstehen und zu analysieren.
  • Datenqualität. Definieren und führen Sie Datenqualitätsprüfungen für Tabellen in BigQuery und Cloud Storage aus und wenden Sie regelmäßige und fortlaufende Datenkontrollen in BigQuery-Umgebungen an.
  • Data Lineage. Verfolgen Sie, wie Daten sich durch Ihre Systeme bewegen: woher die Daten stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden. BigQuery unterstützt Data Lineage auf Tabellen- und Spaltenebene.

Nächste Schritte für Kuratierung und Data Stewardship

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen für Kuratierung und Data Stewardship erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
  • Führen Sie einen Daten profil-Scan durch, um Statistiken zu Ihren Daten zu erhalten, einschließlich der Limits oder Durchschnittswerte.
Erfahrene Cloud-Nutzer

Sicherheits- und Zugriffssteuerung

Die Datenzugriffsverwaltung ist der Prozess des Definierens, Durchsetzens und Überwachens der Regeln und Richtlinien, die den Zugriff auf Daten steuern. Die Zugriffsverwaltung sorgt dafür, dass nur Personen auf Daten zugreifen können, die dazu berechtigt sind.

BigQuery bietet die folgenden Funktionen für Sicherheit und Zugriffssteuerung:

  • Identity and Access Management (IAM). Mit IAM können Sie steuern, wer Zugriff auf Ihre BigQuery-Ressourcen wie Projekte, Datasets, Tabellen und Ansichten hat. Sie können Nutzern, Gruppen und Dienstkonten IAM-Rollen zuweisen. Diese Rollen definieren, was sie mit Ihren Ressourcen tun können.
  • Zugriffssteuerungen auf Spaltenebene und Zugriffssteuerungen auf Zeilenebene. Mit Zugriffssteuerungen auf Spalten- und Zeilenebene können Sie den Zugriff auf bestimmte Spalten und Zeilen in einer Tabelle basierend auf Nutzerattributen oder Datenwerten einschränken. Mit dieser Steuerung können Sie detaillierten Zugriff implementieren und so sensible Daten vor unbefugtem Zugriff schützen.
  • Datenübertragungsverwaltung. Mit VPC Service Controls können Sie Perimeter um Google Cloud Ressourcen erstellen und den Zugriff auf diese Ressourcen gemäß den Richtlinien Ihrer Organisation steuern.
  • Audit-Logs. Audit-Logs enthalten detaillierte Informationen zu Nutzeraktivitäten und Systemereignissen in Ihrer Organisation. Anhand dieser Protokolle können Sie Richtlinien zur Data Governance durchsetzen und potenzielle Sicherheitsrisiken erkennen.
  • Datenmaskierung. Mit der Datenmaskierung können Sie sensible Daten in einer Tabelle verbergen und gleichzeitig autorisierten Nutzern den Zugriff auf die umgebenden Daten erlauben. Die Datenmaskierung kann auch Daten verbergen, die sensiblen Datenmustern entsprechen, um eine versehentliche Offenlegung von Daten zu verhindern.
  • Verschlüsselung. BigQuery verschlüsselt automatisch alle inaktiven Daten und alle Daten, die übertragen werden. Dabei können Sie die Verschlüsselungseinstellungen an Ihre speziellen Anforderungen anpassen.

Nächste Schritte für Sicherheit und Zugriffssteuerung

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen zur Zugriffssteuerung erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
Erfahrene Cloud-Nutzer

Weitergegebene Daten und Statistiken

Mit BigQuery können Sie Daten und Statistiken in großem Umfang innerhalb und außerhalb von Organisationsgrenzen freigeben. Es bietet ein robustes Sicherheits- und Datenschutzframework durch eine integrierte Datenaustauschplattform. Mit BigQuery Sharing, können Sie eine Datenbibliothek erkennen, aufrufen und nutzen, die von einer Vielzahl von Datenanbietern kuratiert wird.

BigQuery bietet die folgenden Freigabefunktionen:

  • Mehr als nur Daten freigeben. Sie können eine Vielzahl von Daten- und KI-Assets freigeben, z. B. BigQuery-Datasets, -Tabellen, -Ansichten, Echtzeitstreams mit Pub/Sub-Themen, gespeicherte SQL-Prozeduren und BigQuery ML-Modelle.
  • Auf Google-Datasets zugreifen. Ergänzen Sie Ihre Analyse- und ML-Initiativen mit Google-Datasets aus Google Trends, DeepMind WeatherNext-Modellen, Google Maps Platform, Google Earth Engine und mehr.
  • In Data Governance -Prinzipien einbinden. Dateninhaber behalten die Kontrolle über ihre Daten und können Regeln oder Richtlinien definieren und konfigurieren, um den Zugriff und die Nutzung einzuschränken.
  • Live-Datenfreigabe ohne Kopieren. Daten werden direkt freigegeben, ohne dass eine Integration, Datenverschiebung oder Replikation erforderlich ist. So wird sichergestellt, dass die Analyse auf den neuesten Informationen basiert. Erstellte verknüpfte Datasets sind ein Live-Verweis auf das freigegebene Asset.
  • Sicherheitsstatus verbessern. Sie können Zugriffssteuerungen verwenden, um den übermäßigen Zugriff zu reduzieren, einschließlich der integrierten Unterstützung für VPC Service Controls.
  • Sichtbarkeit mit Nutzungsstatistiken für Anbieter erhöhen. Datenveröffentlicher können die Nutzung freigegebener Assets ansehen und überwachen, z. B. die Anzahl der ausgeführten Jobs, die Anzahl der gescannten Byte und die Abonnenten für jede Organisation.
  • Mit Data-Clean-Rooms an sensiblen Daten zusammenarbeiten. Data-Clean-Rooms bieten eine sicherheitsoptimierte Umgebung, in der mehrere Parteien ihre Daten-Assets freigeben, zusammenführen und analysieren können, ohne die zugrunde liegenden Daten zu verschieben oder weiterzugeben.
  • Auf BigQuery aufgebaut. Sie können die Skalierbarkeit und die enormen Verarbeitungsfunktionen von BigQuery nutzen, um in großem Umfang zusammenzuarbeiten.

Nächste Schritte für die Freigabe

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Freigabefunktionen erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
  • Informationen zum Erstellen und Verwalten von Exchanges und Einträgen, um die Freigabe innerhalb oder außerhalb Ihrer Organisation zu starten
Erfahrene Cloud-Nutzer

Nächste Schritte