Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Storage Insights-Datasets

In diesem Dokument wird erläutert, wie Storage Insights-Datasets Ihnen helfen, Ihre Cloud Storage-Umgebung zu verwalten, indem sie Ihnen Einblicke in Ihre Daten geben.

Die Storage Insights-Datasets erstellen einen abfragbaren Index von Metadaten und Aktivitäten für Ihre Cloud Storage-Buckets und -Objekte in Ihrer Organisation, Ihren Ordnern, Projekten oder bestimmten Buckets. Wenn Sie die Metadaten und den Aktivitätsindex abfragen möchten, müssen Sie das Dataset mit BigQuery verknüpfen. Anschließend können Sie das verknüpfte BigQuery-Dataset verwenden, um Ihre Daten zu analysieren, abzufragen und zu visualisieren. Verknüpfen Sie das Dataset mit BigQuery, um die Metadaten und den Aktivitätsindex abfragen zu können.

Das Storage Insights-Dataset ist eine exklusive Funktion, die mit dem Storage Intelligence-Abo verfügbar ist. Google Cloud bietet einen 30‑tägigen Testzeitraum zur Einführung in Storage Intelligence an. Sie können den Testzeitraum aktivieren, um Einblicke in Ihre Cloud Storage-Nutzung zu erhalten und Maßnahmen zu ergreifen. Weitere Informationen zum Testzeitraum finden Sie unter 30‑tägiger Testzeitraum zur Einführung in Storage Intelligence.

Übersicht

Ein Storage Insights-Dataset bietet einen fortlaufenden Snapshot von Metadaten, Aktivitätsdaten, Fehlern und Ereignissen für alle Projekte, Buckets und Objekte im definierten Bereich. Durch das kontinuierliche Erfassen und Indexieren von Informationen bietet das Dataset eine umfassende Ansicht, mit der Sie den Status Ihrer Daten nachvollziehen, Ihre Cloud Storage-Ressourcen überwachen und Einblicke in die Verwaltung und Optimierung Ihres Speichers erhalten können.

Das Dataset ist als mit BigQuery verknüpftes Dataset mit einer Reihe von Tabellen mit den folgenden Schemas verfügbar:

Metadaten: Ein Snapshot von Metadaten für Projekte, Buckets und Objekte. Weitere Informationen zum Metadatenschema finden Sie unter Dataset-Schema der Metadaten.
Aktivitätsdaten: Mutations- und Fehlerdatensätze für Objekte sowie aggregierte Aktivitätsstatistiken für Ihre Buckets und Projekte. Weitere Informationen zum Schema für Aktivitätsdaten finden Sie unter Dataset-Schema für Aktivitätsdaten.
Fehler und Ereignisse: Informationen zu Ereignissen und Fehlern bei der Verarbeitung von Snapshots. Weitere Informationen zum Schema für Fehler und Ereignisse finden Sie unter Dataset-Schema für Ereignisse und Fehler.

Anwendungsfälle für Storage Insights-Datasets

Storage Insights-Datasets bieten Ansichten, mit denen Sie unternehmensweite und detaillierte Einblicke in Ihre Daten erhalten. In den folgenden Abschnitten werden Anwendungsfälle für Datasets beschrieben.

Speicherinfrastruktur verstehen

Sie können sich einen Überblick über Ihre Daten verschaffen, indem Sie Projekt-, Bucket- und Objektmetadaten ansehen. Die Metadatenansichten helfen Ihnen bei den folgenden Aufgaben:

Anomalien erkennen, z. B. Daten in einer unerwarteten Region.
Optimierungsmöglichkeiten wie das Auffinden temporärer oder doppelter Dateien identifizieren
Sie können bestimmte Statistiken abfragen, z. B. die Anzahl der in den letzten 24 Stunden erstellten Objekte oder die Gesamtzahl der PDF-Dateien.
Sie können die Suche auf Objekte eingrenzen, auf die Sie reagieren möchten, indem Sie eine Präfixliste einer Gruppe von Objekten basierend auf den Abfrageergebnissen extrahieren. Informationen zum serverlosen Ausführen von Vorgängen für Milliarden von Objekten finden Sie unter Storage-Batchvorgänge.

Aktivitätsmuster analysieren

Mit der Bucket-Aktivitätsansicht, der Projektaktivitätsansicht und der Ansicht für Objekt-Ereignisse können Sie Folgendes tun:

Betriebsmuster analysieren und inaktive Buckets identifizieren.
Behalten Sie die Vorgänge für Ihre Objekte im Blick, um zu sehen, wie sich Ihr Speicherbestand im Laufe der Zeit verändert.
Ordnen Sie Ihre aktivsten Projekte, Buckets und Präfixe zu.

Regionale Bucket-Aktivität

In der Ansicht „Bucket-Aktivität nach Region“ werden Felder wie „Anfrage- und Antwort-Bytes“ angezeigt. So können Sie sehen, in welchen Regionen häufig auf Ihren Bucket zugegriffen wird. Aktivitäten in regionalen Buckets analysieren, um festzustellen, ob eine Bucket-Migration erforderlich ist:

Sehen Sie sich den gesamten ausgehenden und eingehenden Traffic für einen Bucket in einer Region an, um Buckets zu identifizieren, die sich besser für eine regionale als für eine multiregionale Klasse eignen.
Gesamtdatenverkehr innerhalb und zwischen allen Regionen bewerten.

Sicherheitsstatus bewerten

Mit Bucket- und Objektmetadaten können Sie öffentlich zugängliche Objekte, aktive Verschlüsselungstypen und Ablaufzeitpläne für die Datenaufbewahrung identifizieren. In den folgenden Abschnitten wird beschrieben, wie Sie mit Storage Insights-Datasets potenzielle Sicherheitslücken bewerten können.

Öffentlich zugängliche Objekte erkennen

Mit Storage Insights-Datasets können Sie öffentlich zugängliche Objekte identifizieren. Der Status des öffentlichen Zugriffs Ihrer Objekte hilft Ihnen, Ihre Speicherdaten zu verwalten und das Risiko einer Daten-Exfiltration zu minimieren, da Sie die Objekte identifizieren können, die im öffentlichen Internet verfügbar sind.

Das Schema für Objektmetadaten enthält den Status des öffentlichen Zugriffs, einen berechneten Messwert, der die Sicherheitsanalyse vereinfacht. Um den Status des öffentlichen Zugriffs eines Objekts zu ermitteln, werden in Storage Insights-Datasets alle folgenden Konfigurationen validiert:

Die Bucket- und Objektmetadaten, die die folgenden Konfigurationen enthalten:
Die Organisationsrichtlinien, die die folgenden Konfigurationen enthalten:
- Richtlinienbeschränkungen wie die Verhinderung des öffentlichen Zugriffs
- IAM-Ablehnungsrichtlinien
- IAM-Richtlinien mit angehängten Tags

Damit Sie die spezifische Konfiguration, die öffentlichen Zugriff gewährt, leichter identifizieren können, enthalten Storage Insights-Datasets Informationen dazu, ob ein Objekt öffentlich lesbar oder schreibbar ist. Bei öffentlich lesbaren Objekten gibt diese Information an, ob die Berechtigung auf Objekt-, Bucket- oder verwalteter Ordnerebene erteilt wurde. Für öffentlich beschreibbare Objekte enthält sie Details dazu, ob der Zugriff durch eine Objekt-ACL, eine Bucket-ACL oder eine IAM-Richtlinie gewährt wird.

Sie können den Status des öffentlichen Zugriffs auf Objekte mit BigQuery abfragen und diese Objekte dann mit Looker-Dashboards überwachen, um alle öffentlich lesbaren oder beschreibbaren Objekte aufzulisten. Weitere Informationen zu den Feldern für den öffentlichen Zugriffsstatus finden Sie unter securityInsights im Schema für Objektmetadaten.

Verschlüsselungskonfigurationen prüfen

Mit Bucket- und Objektmetadatenansichten können Sie Verschlüsselungskonfigurationen prüfen. Diese Ansichten enthalten Verschlüsselungsinformationen sowohl auf Bucket- als auch auf Objektebene, mit Feldern wie encryption in Bucket-Metadaten und encryptionType in Objektmetadaten. Sie können diese Informationen für Folgendes verwenden:

Prüfen Sie, ob für die Buckets die Standardverschlüsselung konfiguriert ist. Sehen Sie dazu in encryption.defaultEncryptionType und encryption.defaultKmsKeyName nach.
Prüfen Sie die Einhaltung von Richtlinien zur Erzwingung der Verschlüsselung, indem Sie in encryptionType nachsehen, ob Objekte von Google verwaltete, kundenverwaltete oder vom Kunden bereitgestellte Verschlüsselungsschlüssel verwenden.
Alle Objekte identifizieren, die mit einem bestimmten Cloud Key Management Service-Schlüssel oder vom Kunden bereitgestellten Verschlüsselungsschlüsseln verschlüsselt sind.

Richtlinien zur Datenaufbewahrung überwachen

Mit Ansichten für Bucket- und Objektmetadaten können Sie Datenaufbewahrungsrichtlinien überwachen. Diese Ansichten enthalten Felder wie retentionExpirationTime in Objektmetadaten und softDeletePolicy in Bucket-Metadaten. Mit diesen Feldern können Sie Folgendes tun:

Objekte verfolgen, deren Aufbewahrung bald abläuft.
Buckets mit aktiviertem vorläufigen Löschen identifizieren und die Aufbewahrungsdauer überwachen.
Objekte im Status „Vorläufig gelöscht“ erkennen Sie an softDeleteTime.

Fehlerbehebung beschleunigen

Die Ansicht object_events_view enthält Fehlerinformationen, die bei der Fehlerbehebung helfen können. In dieser Ansicht können Sie Vorgänge mit Fehlern untersuchen, Fehlerursachen ermitteln und Projekte und Buckets mit hohen Fehlerraten erkennen. Sie können beispielsweise 429-Fehler beheben, indem Sie den betroffenen Bucket, das betroffene Projekt und die Ursache ermitteln, z. B. Ressourcenkontingent oder Bandbreitenlimits.

Objektdaten und ‑metadaten mit BigQuery analysieren

Sie können die Daten in Ihren Storage Insights-Datasets mit BigQuery-ObjectRef-Funktionen analysieren. Sie können beispielsweise Abfragen erstellen, um vertrauliche Informationen in Dokumenten zu erkennen oder Bildbeschreibungen zu generieren.

Verwenden Sie zum Analysieren von Objektinhalten die Spalte ref aus den Objektmetadatentabellen mit ObjectRef-Funktionen. Weitere Informationen finden Sie unter Objektdaten und ‑metadaten mit BigQuery analysieren.

Vorteile von Storage Insights-Datasets

Storage Insights-Datasets enthalten Metadaten und Aktivitätsinformationen zu Ihren Speicherressourcen in einem abfragefähigen Format in BigQuery. Storage Insights-Datasets bieten folgende Vorteile:

Analysieren Sie Ihre Speicherinfrastruktur in einem anpassbaren Bereich, um organisationsweite Statistiken zu erhalten, oder geben Sie Ordner, Projekte oder Buckets für die Analyse an.
Wenn Daten in BigQuery verfügbar sind, können Sie sie mit SQL- und Natural Language-Abfragen mit Gemini analysieren. Weitere Informationen finden Sie unter Daten mit Gemini analysieren.
Sie können Ihre Daten visualisieren, indem Sie eine Verbindung zu einem Looker-Dashboard herstellen. Sie können das Storage Intelligence-Dashboard als Vorlage verwenden, um ein Beispiel für die Statistiken zu sehen, die Sie aus Datasets ableiten können. Sie können die Vorlage verwenden, um eine Verbindung zu Ihren Datasets herzustellen oder benutzerdefinierte Diagramme hinzuzufügen. Informationen zur Verwendung der Vorlage finden Sie unter Anleitung zum Herstellen einer Verbindung mit dem Storage Intelligence-Dashboard.

Funktionsweise von Storage Insights-Datasets

Wenn Sie Storage Insights-Datasets verwenden möchten, müssen Sie zuerst ein Dataset in einem Projekt konfigurieren. Geben Sie die Organisation, die Ordner oder die Projekte an, für die Sie Daten erfassen möchten. Erteilen Sie dem Dienst-Agent nach der Erstellung die erforderlichen Berechtigungen, damit das Dataset generiert werden kann. Anschließend können Sie das Dataset mit BigQuery verknüpfen, um es abzufragen. Nach der Konfiguration erfasst und importiert der Dienst automatisch tägliche Snapshots von Objektmetadaten, Bucket-Metadaten, Vorgängen und Fehlern in eine Cloud Storage-eigene BigQuery-Instanz. Die Daten werden gemäß dem konfigurierten Aufbewahrungszeitraum aufbewahrt und so gespeichert, dass die Speicher- und Analysekosten minimiert werden.

In der Dataset-Konfiguration legen Sie fest, welche Daten erhoben werden, wo sie gespeichert werden und wie sie verwaltet werden.

In der folgenden Tabelle werden die wichtigsten Attribute beschrieben, die Sie beim Konfigurieren eines Datasets definieren müssen:

Attribut	Beschreibung	Details und Einschränkungen
Dataset-Umfang	Gibt die Ressourcen (Organisationen, Projekte oder Ordner) an, die die Buckets und Objekte enthalten, die Sie in das Dataset aufnehmen möchten.	Sie können Projekte oder Ordner einzeln oder mithilfe einer CSV-Datei angeben. Für jede Konfiguration ist nur ein Dataset-Bereich zulässig. Sie können bis zu `10,000` Projekte oder Ordner angeben.
Bucket-Filter	Filter, mit denen bestimmte Buckets in den Datensatz ein- oder aus dem Datensatz ausgeschlossen werden.	Sie können nach Bucket-Namen mit regulären Ausdrücken oder nach Bucket-Standort filtern.
Aufbewahrungsdauer für Dataset	Die Anzahl der Tage, für die das Dataset Metadaten und Aktivitätsdaten erfasst und beibehält, einschließlich des Erstellungsdatums des Datasets. Bei Tabellen mit Aktivitätsdaten können Sie die Aufbewahrungsdauer für Daten mit der Property Aufbewahrungsdauer für Aktivitätsdaten überschreiben.	Dieser Aufbewahrungszeitraum ist ein flexibles Zeitfenster und kann bis zu `90` Tage betragen. Datasets werden alle `24` Stunden mit neuen Metadaten aktualisiert. Daten, die außerhalb des Aufbewahrungszeitraums erfasst wurden, werden automatisch gelöscht. Angenommen, Sie erstellen am 1. Oktober 2023 ein Dataset mit einem Aufbewahrungszeitraum von `30` Tagen. Am 30. Oktober enthält das Dataset die Daten der letzten `30` Tage (1. bis 30. Oktober). Am 31. Oktober enthält das Dataset die Daten vom 2. bis zum 31. Oktober. Sie können das Aufbewahrungszeitfenster jederzeit ändern. Standardmäßig gilt die Aufbewahrungsdauer für die Metadatentabellen und auch für die Tabellen mit Aktivitätsdaten, wenn die Aufbewahrungsdauer für Aktivitätsdaten nicht angegeben ist.
Aufbewahrungsdauer für Aktivitätsdaten	Die Anzahl der Tage, für die im Dataset Aktivitätsdaten erfasst und aufbewahrt werden. Wenn dieser Wert definiert ist, überschreibt er den Aufbewahrungszeitraum für das Dataset.	Die Aufbewahrungsdauer kann bis zu `365 days` betragen. Die Aufbewahrungsdauer für Aktivitätsdaten gilt für Aktivitätsdatentabellen.
Standort	Der BigQuery-Standort, der zum Speichern des Datasets und der zugehörigen Daten verwendet wird.	Muss ein von BigQuery unterstützter Standort wie `us-central1` sein. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, wenn Sie bereits BigQuery-Tabellen haben.
Typ des Dienst-Agents	Bestimmt den Umfang des Dienst-Agents, der Daten für die Dataset-Konfiguration liest und schreibt. Dies kann entweder ein konfigurationsbezogener oder ein projektbezogener Dienst-Agent sein.	Projektbezogene Dienst-Agents können auf Datasets für alle Dataset-Konfigurationen im Projekt zugreifen und in diese schreiben. Wenn Sie beispielsweise mehrere Dataset-Konfigurationen in einem Projekt haben, müssen Sie dem dienstkontobezogenen Dienst-Agenten die erforderlichen Berechtigungen nur einmal erteilen. Dadurch kann die App Datasets für alle Dataset-Konfigurationen im Projekt lesen und schreiben. Wenn eine Dataset-Konfiguration gelöscht wird, wird der dienstbezogene Agent auf Projektebene nicht gelöscht. Konfigurationsbezogene Dienst-Agents können nur auf das Dataset zugreifen und es schreiben, das von der jeweiligen Dataset-Konfiguration generiert wird. Wenn Sie mehrere Dataset-Konfigurationen haben, müssen Sie jedem Dienst-Agent mit Konfigurationsbereich die erforderlichen Berechtigungen erteilen. Wenn eine Dataset-Konfiguration gelöscht wird, wird auch der dienstbezogene Agent mit Konfigurationsbereich gelöscht.

Nachdem Sie die Konfigurationseigenschaften angegeben und dem Dienst-Agent die erforderlichen Berechtigungen erteilt haben, verknüpfen Sie das Dataset mit BigQuery, um Abfragen auszuführen.

Details zu den Attributen, die Sie beim Erstellen oder Aktualisieren einer Dataset-Konfiguration festlegen, finden Sie in der DatasetConfigs-Ressource in der JSON API-Dokumentation.

Nach der Konfiguration werden Daten automatisch vom Dienst erfasst und in eine BigQuery-Instanz, die zu Cloud Storage gehört, aufgenommen. Die Zeitachse für die Datenaufnahme in die Datasets ist wie folgt:

Es kann 24–48 Stunden dauern, bis das anfängliche Laden von Datasets und Aktivitätsdaten für neu hinzugefügte Buckets oder Objekte als verknüpftes Dataset in BigQuery angezeigt werden.
Aktivitätsdaten werden in der Regel innerhalb von vier Stunden nach der Aktivität aufgenommen. Die Latenz kann gelegentlich höher sein.
Metadaten-Snapshots (für Projekte, Buckets und Objekte) werden alle 24 Stunden aktualisiert.

Hinweise

Beachten Sie Folgendes für Dataset-Konfigurationen:

Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn die Objekt-Snapshots in das verknüpfte Dataset aufgenommen werden, gelten sie als neue Einträge.
CRC32C-Prüfsummen und MD5-Hashes sind in der Tabelle object metadata für Objekte, die mit vom Kunden verwalteten Verschlüsselungsschlüsseln (Customer-Managed Encryption Keys, CMEK) verschlüsselt wurden, nicht verfügbar.
Datasets werden nur an den folgenden BigQuery-Standorten unterstützt:
- EU
- US
- asia-south1
- asia-south2
- asia-southeast1
- europe-west1
- us-central1
- us-east1
- us-east4
Beim Ermitteln des öffentlichen Zugriffsstatus für Objekte mithilfe von Storage Insights-Datasets gelten die folgenden Einschränkungen:
- Der Status des öffentlichen Zugriffs ist für Objekte in verwalteten Ordnern nicht verfügbar.
- Bei der Ermittlung des Status des öffentlichen Zugriffs auf ein Objekt werden in Storage Insights-Datasets die VPC Service Controls oder die IP-Filterkonfiguration des Buckets nicht berücksichtigt.