In diesem Dokument wird erläutert, wie Sie mit Storage Insights-Datasets Ihre Cloud Storage-Umgebung verwalten können, indem Sie Einblicke in Ihre Daten erhalten.
Die Storage Insights-Datasets erstellen einen abfragbaren Index von Metadaten und Aktivitäten für Ihre Cloud Storage-Buckets und -Objekte in Ihrer Organisation, Ihren Ordnern, Projekten oder bestimmten Buckets. Um den Index für Metadaten und Aktivitäten abzufragen, müssen Sie das Dataset mit BigQuery verknüpfen. Anschließend können Sie das verknüpfte BigQuery-Dataset verwenden, um Ihre Daten zu analysieren, abzufragen und zu visualisieren. Verknüpfen Sie das Dataset mit BigQuery, um den Index für Metadaten und Aktivitäten abzufragen.
Storage Insights-Datasets sind eine exklusive Funktion, die mit dem Storage Intelligence-Abo verfügbar ist. Google Cloud bietet einen 30‑tägigen Testzeitraum zur Einführung in Storage Intelligence. Sie können den Testzeitraum aktivieren, um Einblicke in Ihre Cloud Storage-Nutzung zu erhalten und Maßnahmen zu ergreifen. Weitere Informationen zum Testzeitraum finden Sie unter 30‑tägiger Testzeitraum zur Einführung in Storage Intelligence .
Übersicht
Ein Storage Insights-Dataset bietet einen fortlaufenden Snapshot von Metadaten, Aktivitätsdaten, Fehlern und Ereignissen für alle Projekte, Buckets und Objekte im definierten Bereich. Durch die kontinuierliche Erhebung und Indexierung von Informationen wird mit dem Dataset eine umfassende Ansicht erstellt, mit der Sie den Status Ihrer Daten nachvollziehen, Ihre Cloud Storage-Ressourcen überwachen und Einblicke erhalten können, um Ihre Speicherressourcen zu verwalten und zu optimieren.
Das Dataset ist als verknüpftes BigQuery-Dataset mit einer Reihe von Tabellen verfügbar, die die folgenden Schemas haben:
Metadaten: Ein Snapshot der Metadaten für Projekte, Buckets und Objekte. Weitere Informationen zum Metadatenschema finden Sie unter Dataset-Schema von Metadaten.
Aktivitätsdaten: Mutations- und Fehlerdatensätze für Objekte und aggregierte Aktivitätseinblicke für Ihre Buckets und Projekte. Weitere Informationen zum Schema für Aktivitätsdaten finden Sie unter Dataset-Schema von Aktivitätsdaten.
Fehler und Ereignisse: Informationen zu Ereignissen und Fehlern bei der Snapshot-Verarbeitung. Weitere Informationen zum Schema für Fehler und Ereignisse finden Sie unter Dataset-Schema von Ereignissen und Fehlern.
Anwendungsfälle für Storage Insights-Datasets
Storage Insights-Datasets bieten Ansichten, mit denen Sie unternehmensweite und detaillierte Einblicke in Ihre Daten erhalten. In den folgenden Abschnitten werden Anwendungsfälle für Datasets beschrieben.
Speicherressourcen nachvollziehen
Sie können Einblicke in Ihre Daten erhalten, indem Sie Projekt-, Bucket- und Objektmetadaten ansehen. Die Metadatenansichten helfen Ihnen bei den folgenden Aufgaben:
- Anomalien erkennen, z. B. Daten in einer unerwarteten Region.
- Optimierungsmöglichkeiten ermitteln, z. B. temporäre oder doppelte Dateien finden.
- Bestimmte Einblicke abfragen, z. B. Objekte, die in den letzten 24 Stunden erstellt wurden, oder die Gesamtzahl der
PDF-Dateien. - Detaillierte Informationen zu Objekten abrufen, für die Sie Maßnahmen ergreifen möchten, indem Sie eine Präfixliste einer Reihe von Objekten basierend auf den Abfrageergebnissen extrahieren. Informationen zum Ausführen von Vorgängen für Milliarden von Objekten ohne Server finden Sie unter Batchvorgänge für Speicher.
Aktivitätsmuster analysieren
Mit der Ansicht für Bucket-Aktivitäten, der Ansicht für Projektaktivitäten und der Ansicht für Objektaktivitäten können Sie Folgendes tun:
Betriebsmuster analysieren und inaktive Buckets identifizieren.
Vorgänge für Ihre Objekte überwachen, um zu sehen, wie sich Ihre Speicherressourcen im Laufe der Zeit verändern.
Ihre aktivsten Projekte, Buckets und Präfixe zuordnen.
Regionale Bucket-Aktivitäten nachvollziehen
In der Ansicht für regionale Bucket-Aktivitäten werden Felder wie Anfrage- und Antwortbytes angezeigt, mit denen Sie die Regionen sehen können, die häufig mit Ihrem Bucket interagieren. Analysieren Sie die regionale Bucket-Aktivität, um festzustellen, ob eine Bucket-Verschiebung erforderlich ist:
Sehen Sie sich den gesamten ausgehenden und eingehenden Traffic für einen Bucket in einer Region an, um Buckets zu identifizieren, die besser für eine regionale als für eine multiregionale Klasse geeignet sind.
Gesamten Datentraffic innerhalb und zwischen allen Regionen bewerten.
Öffentlich zugängliche Objekte identifizieren
Mit Storage Insights-Datasets können Sie Objekte identifizieren, die öffentlich zugänglich sind. Mit dem Status des öffentlichen Zugriffs auf Ihre Objekte können Sie Ihre Speicherdaten verwalten und Risiken für den Datenabfluss minimieren, indem Sie die Objekte identifizieren, die dem öffentlichen Internet ausgesetzt sind.
Das Schema für Objektmetadaten enthält den Status des öffentlichen Zugriffs (Vorschau), eine berechnete Messung, die die Sicherheitsanalyse vereinfacht. Um den Status des öffentlichen Zugriffs eines Objekts zu ermitteln, werden in Storage Insights-Datasets alle folgenden Konfigurationen validiert:
- Die Bucket- und Objektmetadaten, einschließlich der folgenden Konfigurationen:
- Die Organisationsrichtlinien, einschließlich der folgenden Konfigurationen:
- Richtlinienbeschränkungen, z. B. Verhinderung des öffentlichen Zugriffs
- IAM-Ablehnungsrichtlinien
- IAM-Richtlinien mit Tags angehängt
Sie können den Status des öffentlichen Zugriffs auf Objekte mit BigQuery abfragen und diese Objekte dann mit Looker-Dashboards überwachen, um alle öffentlich lesbaren oder beschreibbaren Objekte aufzulisten. Weitere Informationen zu den Feldern für den öffentlichen
Zugriffsstatus finden Sie unter securityInsights im Schema für Objektmetadaten.
Fehlerbehebung beschleunigen
Die Ansicht object_events_view enthält Fehlerinformationen, die bei der Fehlerbehebung hilfreich sein können. In dieser Ansicht können Sie Vorgänge untersuchen, die zu Fehlern geführt haben, Fehlerursachen identifizieren und Projekte und Buckets mit hohen Fehlerraten erkennen. Beispielsweise können Sie 429-Fehler beheben, indem Sie den betroffenen Bucket, das betroffene Projekt und die Ursache ermitteln, z. B. Ressourcenzuteilung oder Bandbreitenbeschränkungen.
Objektdaten und -metadaten mit BigQuery analysieren
Sie können die Daten in Ihren Storage Insights-Datasets mit BigQuery-Funktionen vom Typ ObjectRef analysieren. Beispielsweise können Sie Abfragen erstellen, um sensible Informationen in Dokumenten zu erkennen oder Bildbeschreibungen zu generieren.
Verwenden Sie zum Analysieren von Objektinhalten die ref
Spalte aus den Tabellen mit Objektmetadaten mit ObjectRef Funktionen. Weitere Informationen finden Sie unter Objektdaten und -metadaten mit BigQuery analysieren.
Vorteile von Storage Insights-Datasets
Storage Insights-Datasets bieten Metadaten und Aktivitätsinformationen zu Ihren Speicherressourcen in einem abfragbaren Format in BigQuery. Die folgenden Vorteile ergeben sich aus der Verwendung von Storage Insights-Datasets:
Analysieren Sie Ihre Speicherressourcen in einem anpassbaren Bereich, um unternehmensweite Einblicke zu erhalten, oder geben Sie Ordner, Projekte oder Buckets für die Analyse an.
Mit Daten, die in BigQuery verfügbar sind, können Sie SQL- und Abfragen in natürlicher Sprache mit Gemini verwenden, um Ihre Daten zu analysieren. Weitere Informationen finden Sie unter Daten mit Gemini analysieren.
Sie können Ihre Daten visualisieren, indem Sie eine Verbindung zu einem Looker-Dashboard herstellen. Sie können das Storage Intelligence-Dashboard als Vorlage verwenden, die ein Beispiel für die Einblicke bietet, die Sie aus Datasets gewinnen können. Mit der Vorlage können Sie eine Verbindung zu Ihren Datasets herstellen oder benutzerdefinierte Diagramme hinzufügen. Informationen zur Verwendung der Vorlage finden Sie unter Verbindungsanleitung für das Storage Intelligence-Dashboard.
Funktionsweise von Storage Insights-Datasets
Um Storage Insights-Datasets zu verwenden, konfigurieren Sie zuerst ein Dataset in einem Projekt. Geben Sie die Organisation, die Ordner oder die Projekte an, für die Sie Daten erfassen möchten. Nach der Erstellung gewähren Sie dem Dienst-Agent die erforderlichen Berechtigungen, um das Dataset zu generieren. Anschließend können Sie das Dataset mit BigQuery verknüpfen, um es abzufragen. Nach der Konfiguration werden täglich automatisch Snapshots von Objektmetadaten, Bucket-Metadaten, Vorgängen und Fehlern erhoben und in eine BigQuery-Instanz von Cloud Storage aufgenommen. Die Daten werden gemäß der konfigurierten Aufbewahrungsdauer aufbewahrt und so optimiert gespeichert, dass die Speicher- und Analysekosten minimiert werden.
In der Dataset-Konfiguration definieren Sie, welche Daten erhoben werden, wo sie gespeichert werden und wie sie verwaltet werden.
In der folgenden Tabelle werden die wichtigsten Attribute beschrieben, die Sie beim Konfigurieren eines Datasets definieren müssen:
| Attribut | Beschreibung | Details und Einschränkungen |
|---|---|---|
| Dataset-Bereich | Gibt die Ressourcen (Organisationen, Projekte oder Ordner) an, die die Buckets und Objekte enthalten, die Sie in das Dataset aufnehmen möchten. |
Sie können Projekte oder Ordner einzeln oder mit einer CSV
Datei angeben. Jede Konfiguration lässt nur einen Dataset-Bereich zu. Sie können
bis zu 10,000 Projekte oder Ordner angeben.
|
| Bucket-Filter | Filter, mit denen bestimmte Buckets in das Dataset aufgenommen oder daraus ausgeschlossen werden. | Sie können nach Bucket-Namen mit regulären Ausdrücken oder nach Bucket-Standort filtern. |
| Aufbewahrungsdauer für Dataset | Die Anzahl der Tage, an denen Metadaten und Aktivitätsdaten im Dataset erfasst und aufbewahrt werden, einschließlich des Erstellungsdatums des Datasets. Für Tabellen mit Aktivitätsdaten können Sie die Aufbewahrungsdauer für Daten mit dem Attribut „Aufbewahrungsdauer für Aktivitätsdaten“ überschreiben. |
Diese Aufbewahrungsdauer ist ein rollierendes Fenster und kann bis zu
90 Tage betragen. Datasets werden alle
24 Stunden mit neuen Metadaten aktualisiert. Daten, die außerhalb des Aufbewahrungszeitraums erfasst wurden, werden automatisch gelöscht. Beispiel: Sie erstellen am
1. Oktober 2023 ein Dataset mit einem Aufbewahrungszeitraum von
30 Tagen. Am 30. Oktober enthält das Dataset die Daten der letzten
30 Tage (1. bis 30. Oktober). Am Oktober
31. enthält das Dataset die Daten vom 2. bis 31. Oktober. Sie
können den Aufbewahrungszeitraum jederzeit ändern. Standardmäßig gilt die Aufbewahrungsdauer
für die Metadaten
Tabellen und auch für die Aktivitäts
Datentabellen, wenn die Aufbewahrungsdauer für Aktivitätsdaten nicht angegeben ist.
|
| Aufbewahrungsdauer für Aktivitätsdaten | Die Anzahl der Tage, an denen Aktivitätsdaten im Dataset erfasst und aufbewahrt werden. Wenn dieser Wert definiert ist, überschreibt er die Aufbewahrungsdauer für Dataset. |
Die Aufbewahrungsdauer kann bis zu 365 days betragen. Die
Aufbewahrungsdauer für Aktivitätsdaten gilt für Aktivitäts
datentabellen.
|
| Standort | Der BigQuery-Standort, der zum Speichern des Datasets und der zugehörigen Daten verwendet wird. |
Muss ein von BigQuery unterstützter Standort
sein, z. B. us-central1. Wenn Sie bereits BigQuery-Tabellen haben, empfehlen wir, den Standort Ihrer BigQuery
Tabellen auszuwählen.
|
| Dienst-Agent-Typ | Bestimmt den Bereich des Dienst-Agents, der Daten für die Dataset-Konfiguration liest und schreibt Dies kann ein konfigurationsbezogener oder ein projektbezogener Dienst-Agent sein. |
Projektbezogene Dienst-Agents können auf Datasets zugreifen und in diese schreiben
für alle Dataset-Konfigurationen im Projekt. Wenn Sie beispielsweise mehrere Dataset-Konfigurationen in einem Projekt haben, müssen Sie dem projektbezogenen Dienst-Agent die erforderlichen Berechtigungen nur einmal gewähren. Dadurch kann er Datasets für alle Dataset-Konfigurationen innerhalb des Projekts lesen und schreiben. Wenn eine Dataset-Konfiguration gelöscht wird, wird der projektbezogene
Dienst-Agent nicht gelöscht. Konfigurationsbezogene Dienst-Agents können nur auf das Dataset zugreifen und in dieses schreiben, das von der jeweiligen Dataset-Konfiguration generiert wurde. Wenn Sie mehrere Dataset-Konfigurationen haben, müssen Sie jedem konfigurationsbezogenen Dienst-Agent die erforderlichen Berechtigungen gewähren. Wenn eine Dataset-Konfiguration gelöscht wird, wird auch der konfigurationsbezogene Dienst Agent gelöscht. |
Nachdem Sie die Konfigurationseigenschaften angegeben und dem Dienst-Agent die erforderlichen Berechtigungen gewährt haben, verknüpfen Sie das Dataset mit BigQuery, um es abzufragen.
Weitere Informationen zu den Eigenschaften, die Sie beim Erstellen oder Aktualisieren einer Dataset Konfiguration festlegen, finden Sie in der JSON API-Dokumentation unter DatasetConfigs-Ressource.
Nach der Konfiguration werden täglich automatisch Snapshots von Objektmetadaten, Bucket-Metadaten, Vorgängen und Fehlern erhoben und in eine BigQuery-Instanz von Cloud Storage aufgenommen. Die Zeitachse für die Datenpopulation in den Datasets sieht so aus:
Es kann 24 bis 48 Stunden dauern, bis der erste Dataset-Ladevorgang und die Aktivitätsdaten für neu hinzugefügte Buckets oder Objekte als verknüpftes Dataset in BigQuery angezeigt werden.
Aktivitätsdaten werden in der Regel innerhalb von vier Stunden nach der Aktivität aufgenommen (die Latenz kann gelegentlich höher sein).
Metadaten-Snapshots (für Projekte, Buckets und Objekte) werden alle 24 Stunden aktualisiert.
Hinweise
Beachten Sie bei Dataset-Konfigurationen Folgendes:
Wenn Sie einen Ordner in einem Bucket mit hierarchischem Namespace aktiviertem Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn das verknüpfte Dataset diese Objekt-Snapshots aufnimmt, werden sie als neue Einträge betrachtet.
CRC32C-Prüfsummen und MD5-Hashes sind in der
object metadataTabelle für Objekte, die mit vom Kunden verwalteten Verschlüsselung schlüsseln (CMEK) verschlüsselt wurden, nicht verfügbar.Datasets werden nur an den folgenden BigQuery-Standorten unterstützt:
EUUSasia-south1asia-south2asia-southeast1europe-west1us-central1us-east1us-east4
Bei der Ermittlung des Status des öffentlichen Zugriffs für Objekte mit Storage Insights-Datasets gelten die folgenden Einschränkungen:
Der Status des öffentlichen Zugriffs ist für Objekte in verwalteten Ordnern nicht verfügbar.
Bei der Ermittlung des Status des öffentlichen Zugriffs eines Objekts werden in Storage Insights-Datasets die VPC Service Controls oder IP-Filterkonfiguration des Buckets nicht berücksichtigt.
Nächste Schritte
- Storage Insights-Datasets konfigurieren.
- Informationen zu Storage Intelligence.
- SQL-Abfragen für die Datasets in BigQuery ausführen.
- Informationen zu BigQuery-Analysen.