In diesem Dokument wird erläutert, wie Sie mit Storage Insights-Datasets Ihre Cloud Storage-Umgebung verwalten können, indem Sie Einblicke in Ihre Daten erhalten.
Die Storage Insights-Datasets erstellen einen abfragbaren Index von Metadaten und Aktivitäten für Ihre Cloud Storage-Buckets und -Objekte in Ihrer Organisation, Ihren Ordnern, Projekten oder bestimmten Buckets. Wenn Sie die Metadaten und den Aktivitätsindex abfragen möchten, müssen Sie das Dataset mit BigQuery verknüpfen. Anschließend können Sie das verknüpfte BigQuery-Dataset verwenden, um Ihre Daten zu analysieren, abzufragen und zu visualisieren. Verknüpfen Sie das Dataset mit BigQuery, um die Metadaten und den Aktivitätsindex abfragen zu können.
Das Storage Insights-Dataset ist eine exklusive Funktion, die mit dem Storage Intelligence-Abo verfügbar ist. Google Cloud bietet einen 30‑tägigen Testzeitraum zur Einführung in Storage Intelligence an. Sie können den Testzeitraum aktivieren, um Einblicke in Ihre Cloud Storage-Nutzung zu erhalten und Maßnahmen zu ergreifen. Weitere Informationen zum Testzeitraum finden Sie unter 30‑tägiger Testzeitraum zur Einführung in Storage Intelligence.
Übersicht
Ein Storage Insights-Dataset bietet einen fortlaufenden Snapshot von Metadaten, Aktivitätsdaten, Fehlern und Ereignissen für alle Projekte, Buckets und Objekte im definierten Bereich. Durch das kontinuierliche Erfassen und Indexieren von Informationen bietet das Dataset eine umfassende Ansicht, mit der Sie den Status Ihrer Daten nachvollziehen, Ihre Cloud Storage-Ressourcen überwachen und Einblicke in die Verwaltung und Optimierung Ihres Speichers erhalten können.
Das Dataset ist als mit BigQuery verknüpftes Dataset mit einer Reihe von Tabellen mit den folgenden Schemas verfügbar:
Metadaten: Ein Snapshot von Metadaten für Projekte, Buckets und Objekte. Weitere Informationen zum Metadatenschema finden Sie unter Dataset-Schema der Metadaten.
Aktivitätsdaten: Mutations- und Fehlerdatensätze für Objekte sowie aggregierte Aktivitätsstatistiken für Ihre Buckets und Projekte. Weitere Informationen zum Schema für Aktivitätsdaten finden Sie unter Dataset-Schema für Aktivitätsdaten.
Fehler und Ereignisse: Informationen zu Ereignissen und Fehlern bei der Verarbeitung von Snapshots. Weitere Informationen zum Schema für Fehler und Ereignisse finden Sie unter Dataset-Schema für Ereignisse und Fehler.
Anwendungsfälle für Storage Insights-Datasets
Storage Insights-Datasets bieten Ansichten, mit denen Sie unternehmensweite und detaillierte Einblicke in Ihre Daten erhalten. In den folgenden Abschnitten werden Anwendungsfälle für Datasets beschrieben.
Speicherumgebung verstehen
Sie können sich einen Überblick über Ihre Daten verschaffen, indem Sie Projekt-, Bucket- und Objektmetadaten ansehen. Die Metadatenansichten helfen Ihnen bei den folgenden Aufgaben:
- Anomalien erkennen, z. B. Daten in einer unerwarteten Region.
- Optimierungsmöglichkeiten wie das Auffinden temporärer oder doppelter Dateien identifizieren
- Sie können bestimmte Statistiken abfragen, z. B. die Anzahl der in den letzten 24 Stunden erstellten Objekte oder die Gesamtzahl der
PDF-Dateien. - Sie können die Suche auf Objekte eingrenzen, auf die Sie reagieren möchten, indem Sie eine Präfixliste einer Gruppe von Objekten basierend auf den Abfrageergebnissen extrahieren. Informationen zum Ausführen von Vorgängen für Milliarden von Objekten auf serverlose Weise finden Sie unter Storage-Batchvorgänge.
Aktivitätsmuster analysieren
Mit der Bucket-Aktivitätsansicht, der Projektaktivitätsansicht und der Ansicht für Objekt-Ereignisse haben Sie folgende Möglichkeiten:
Betriebsmuster analysieren und inaktive Buckets identifizieren.
Behalten Sie die Vorgänge für Ihre Objekte im Blick, um zu sehen, wie sich Ihr Speicherbestand im Laufe der Zeit verändert.
Ordnen Sie Ihre aktivsten Projekte, Buckets und Präfixe zu.
Regionale Bucket-Aktivität
In der Ansicht „Bucket-Aktivität nach Region“ werden Felder wie „Anfrage- und Antwort-Bytes“ angezeigt. So können Sie sehen, welche Regionen häufig mit Ihrem Bucket interagieren. Aktivitäten in regionalen Buckets analysieren, um festzustellen, ob eine Bucket-Migration erforderlich ist:
Sehen Sie sich den gesamten ausgehenden und eingehenden Traffic für einen Bucket in einer Region an, um Buckets zu identifizieren, die sich besser für eine regionale als für eine multiregionale Klasse eignen.
Gesamtdatenverkehr innerhalb und zwischen allen Regionen bewerten.
Fehlerbehebung beschleunigen
Wenn Sie Fehlerinformationen in der Ansicht „Objektvorgänge“ analysieren, können Sie Vorgänge für Ihre Objekte untersuchen, die zu Fehlern geführt haben, den Grund für den Fehler analysieren und die Fehlerbehebung beschleunigen. Sie können auch Projekte und Buckets mit der größten Anzahl von Fehlern erkennen, um Erfolgs- und Fehlerraten zu ermitteln. Sie können beispielsweise429-Fehler beheben, indem Sie den betroffenen Bucket, das betroffene Projekt und die Ursache ermitteln, z. B. Ressourcenkontingent oder Bandbreitenbeschränkungen.
Vorteile von Storage Insights-Datasets
Storage Insights-Datasets enthalten Metadaten und Aktivitätsinformationen zu Ihrem Speicher in einem abfragefähigen Format in BigQuery. Vorteile der Verwendung von Storage Insights-Datasets:
Analysieren Sie Ihre Speicherinfrastruktur in einem anpassbaren Bereich, um organisationsweite Statistiken zu erhalten, oder geben Sie Ordner, Projekte oder Buckets für die Analyse an.
Wenn Daten in BigQuery verfügbar sind, können Sie SQL- und Natural Language-Abfragen mit Gemini verwenden, um Ihre Daten zu analysieren. Weitere Informationen finden Sie unter Daten mit Gemini analysieren.
Sie können Ihre Daten visualisieren, indem Sie eine Verbindung zu einem Looker-Dashboard herstellen. Sie können das Storage Intelligence-Dashboard als Vorlage verwenden, um ein Beispiel für die Statistiken zu sehen, die Sie aus Datasets ableiten können. Sie können die Vorlage verwenden, um eine Verbindung zu Ihren Datasets herzustellen oder benutzerdefinierte Diagramme hinzuzufügen. Informationen zur Verwendung der Vorlage finden Sie unter Anleitung zum Herstellen einer Verbindung mit dem Storage Intelligence-Dashboard.
So funktionieren Storage Insights-Datasets
Wenn Sie Storage Insights-Datasets verwenden möchten, müssen Sie zuerst ein Dataset in einem Projekt konfigurieren. Geben Sie die Organisation, die Ordner oder die Projekte an, für die Sie Daten erfassen möchten. Erteilen Sie dem Dienst-Agent nach der Erstellung die erforderlichen Berechtigungen, damit das Dataset generiert werden kann. Anschließend können Sie das Dataset mit BigQuery verknüpfen, um es abzufragen. Nach der Konfiguration erfasst und importiert der Dienst automatisch tägliche Snapshots von Objektmetadaten, Bucket-Metadaten, Vorgängen und Fehlern in eine Cloud Storage-eigene BigQuery-Instanz. Die Daten werden gemäß dem konfigurierten Aufbewahrungszeitraum gespeichert und so optimiert, dass Speicher- und Analysekosten minimiert werden.
In der Dataset-Konfiguration legen Sie fest, welche Daten erhoben werden, wo sie gespeichert werden und wie sie verwaltet werden.
In der folgenden Tabelle werden die wichtigsten Attribute beschrieben, die Sie beim Konfigurieren eines Datasets definieren müssen:
| Attribut | Beschreibung | Details und Einschränkungen |
|---|---|---|
| Dataset-Umfang | Gibt die Ressourcen (Organisationen, Projekte oder Ordner) an, die die Buckets und Objekte enthalten, die Sie in das Dataset aufnehmen möchten. |
Sie können Projekte oder Ordner einzeln oder mithilfe einer CSV-Datei angeben. Für jede Konfiguration ist nur ein Dataset-Bereich zulässig. Sie können bis zu 10,000 Projekte oder Ordner angeben.
|
| Bucket-Filter | Filter, mit denen bestimmte Buckets in den Datensatz ein- oder aus dem Datensatz ausgeschlossen werden. | Sie können nach Bucket-Namen mit regulären Ausdrücken oder nach Bucket-Standort filtern. |
| Aufbewahrungsdauer für Dataset | Die Anzahl der Tage, für die das Dataset Metadaten und Aktivitätsdaten erfasst und beibehält, einschließlich des Erstellungsdatums des Datasets. Bei Tabellen mit Aktivitätsdaten können Sie die Aufbewahrungsdauer für Daten mit der Property Aufbewahrungsdauer für Aktivitätsdaten überschreiben. |
Dieser Aufbewahrungszeitraum ist ein flexibles Zeitfenster und kann bis zu 90 Tage betragen. Datasets werden alle 24 Stunden mit neuen Metadaten aktualisiert. Das System löscht automatisch Daten, die außerhalb des Aufbewahrungszeitraums erfasst wurden. Angenommen, Sie erstellen am 1. Oktober 2023 ein Dataset mit einem Aufbewahrungszeitraum von 30 Tagen. Am 30. Oktober enthält der Datensatz die Daten der letzten 30 Tage (1. bis 30. Oktober). Am 31. Oktober enthält das Dataset die Daten vom 2. bis zum 31. Oktober. Sie können das Aufbewahrungszeitfenster jederzeit ändern. Standardmäßig gilt die Aufbewahrungsdauer für die Metadatentabellen und auch für die Tabellen mit Aktivitätsdaten, wenn die Aufbewahrungsdauer für Aktivitätsdaten nicht angegeben ist.
|
| Aufbewahrungsdauer für Aktivitätsdaten | Die Anzahl der Tage, für die im Dataset Aktivitätsdaten erfasst und aufbewahrt werden. Wenn dieser Wert definiert ist, überschreibt er den Aufbewahrungszeitraum für das Dataset. |
Die Aufbewahrungsdauer kann bis zu 365 days betragen. Die Aufbewahrungsdauer für Aktivitätsdaten gilt für Aktivitätsdatentabellen.
|
| Standort | Der BigQuery-Standort, der zum Speichern des Datasets und der zugehörigen Daten verwendet wird. |
Muss ein von BigQuery unterstützter Standort wie us-central1 sein. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, wenn Sie bereits BigQuery-Tabellen haben.
|
| Typ des Dienst-Agents | Bestimmt den Umfang des Dienst-Agents, der Daten für die Dataset-Konfiguration liest und schreibt. Dies kann entweder ein konfigurationsbezogener oder ein projektbezogener Dienst-Agent sein. |
Projektbezogene Dienst-Agents können auf Datasets für alle Dataset-Konfigurationen im Projekt zugreifen und Daten in diese schreiben. Wenn Sie beispielsweise mehrere Dataset-Konfigurationen in einem Projekt haben, müssen Sie dem dienstkontobezogenen Dienst-Agenten die erforderlichen Berechtigungen nur einmal erteilen. Dadurch kann die App Datasets für alle Dataset-Konfigurationen im Projekt lesen und schreiben. Wenn eine Dataset-Konfiguration gelöscht wird, wird der dienstbezogene Agent auf Projektebene nicht gelöscht. Konfigurationsbezogene Dienst-Agents können nur auf das Dataset zugreifen und es schreiben, das von der jeweiligen Dataset-Konfiguration generiert wird. Wenn Sie mehrere Dataset-Konfigurationen haben, müssen Sie jedem Dienst-Agent mit Konfigurationsbereich die erforderlichen Berechtigungen erteilen. Wenn eine Datasetkonfiguration gelöscht wird, wird auch der dienstbezogene Agent mit Konfigurationsbereich gelöscht. |
Nachdem Sie die Konfigurationseigenschaften angegeben und dem Dienst-Agent die erforderlichen Berechtigungen erteilt haben, verknüpfen Sie das Dataset mit BigQuery, um es abzufragen.
Details zu den Attributen, die Sie beim Erstellen oder Aktualisieren einer Dataset-Konfiguration festlegen, finden Sie in der DatasetConfigs-Ressource in der JSON API-Dokumentation.
Nach der Konfiguration werden Daten automatisch vom Dienst erfasst und in eine BigQuery-Instanz, die zu Cloud Storage gehört, aufgenommen. Die Zeitachse für die Datenaufnahme in die Datasets ist wie folgt:
Es kann 24 bis 48 Stunden dauern, bis der erste Dataset-Ladevorgang und die Aktivitätsdaten für neu hinzugefügte Buckets oder Objekte als verknüpftes Dataset in BigQuery angezeigt werden.
Aktivitätsdaten werden in der Regel innerhalb von vier Stunden nach der Aktivität aufgenommen. Die Latenz kann gelegentlich höher sein.
Metadaten-Snapshots (für Projekte, Buckets und Objekte) werden alle 24 Stunden aktualisiert.
Hinweise
Beachten Sie Folgendes bei Dataset-Konfigurationen:
Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn die Objekt-Snapshots in das verknüpfte Dataset aufgenommen werden, gelten sie als neue Einträge.
CRC32C-Prüfsummen und MD5-Hashes sind in der Tabelle
object metadatafür Objekte, die mit vom Kunden verwalteten Verschlüsselungsschlüsseln (Customer-Managed Encryption Keys, CMEK) verschlüsselt wurden, nicht verfügbar.Datasets werden nur an den folgenden BigQuery-Standorten unterstützt:
EUUSasia-south1asia-south2asia-southeast1europe-west1us-central1us-east1us-east4
Nächste Schritte
- Storage Insights-Datasets konfigurieren
- Weitere Informationen zu Storage Intelligence
- SQL-Abfragen für die Datasets in BigQuery ausführen
- Weitere Informationen zu BigQuery-Analysen