In diesem Dokument erfahren Sie, wie Sie Storage Insights-Datasets konfigurieren.
Hinweise
Bevor Sie ein Dataset konfigurieren, führen Sie die folgenden Schritte aus.
Erforderliche Rollen abrufen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Ihre Quellprojekte zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Konfigurieren von Datasets benötigen:
-
So konfigurieren Sie ein Dataset:
Storage Insights-Administrator (
roles/storageinsights.admin) -
So verknüpfen Sie ein Dataset:
-
Storage Insights-Analyst (
roles/storageinsights.analyst) -
BigQuery-Administrator (
roles/bigquery.admin)
-
Storage Insights-Analyst (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Konfigurieren von Datasets erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Datasets zu konfigurieren:
-
Dataset konfigurieren:
-
storageinsights.datasetConfigs.create -
storage.buckets.getObjectInsights
-
-
Link zum BigQuery-Dataset:
storageinsights.datasetConfigs.linkDataset
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Storage Insights API aktivieren
Console
Befehlszeile
Führen Sie den Befehl gcloud services enable aus, um die Storage Insights API in Ihrem aktuellen Projekt zu aktivieren:
gcloud services enable storageinsights.googleapis.com
Weitere Informationen zum Aktivieren von Diensten für ein Google Cloud -Projekt finden Sie unter Dienste aktivieren und deaktivieren.
Storage Intelligence konfigurieren
Storage Intelligence muss für das Projekt, den Ordner oder die Organisation konfiguriert sein, die Sie mit Datasets analysieren möchten.
Dataset-Konfiguration erstellen
So erstellen Sie eine Dataset-Konfiguration: Weitere Informationen zu den Feldern, die Sie für die Dataset-Konfiguration angeben können, finden Sie unter Attribute für die Dataset-Konfiguration.
Console
- Wechseln Sie in der Google Cloud Console unter „Cloud Storage“ zur Seite Storage Insights.
Klicken Sie auf Dataset konfigurieren.
Geben Sie im Abschnitt Dataset benennen einen Namen für Ihr Dataset ein. Geben Sie optional eine Beschreibung für den Datensatz ein. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.
Führen Sie im Abschnitt Dataset-Umfang definieren folgende Schritte aus:
Wählen Sie eine der folgenden Optionen aus:
Wenn Sie Speichermetadaten für alle Projekte in der aktuellen Organisation abrufen möchten, wählen Sie Organisation einschließen aus.
Wenn Sie Speichermetadaten für alle Projekte in den ausgewählten Ordnern abrufen möchten, wählen Sie Ordner einschließen (Unterorganisation/Abteilungen) aus. Informationen zum Abrufen von Ordner-IDs finden Sie unter Ordner und Projekte ansehen oder auflisten. So fügst du Ordner hinzu:
- Geben Sie im Feld Ordner 1 die Ordner-ID ein.
- Optional: Wenn Sie mehrere Ordner-IDs hinzufügen möchten, klicken Sie auf + Weiteren Ordner hinzufügen.
Wenn Sie Speichermetadaten für die ausgewählten Projekte abrufen möchten, wählen Sie Projekte durch Angabe von Projektnummern einbeziehen aus. Informationen zum Ermitteln von Projektnummern finden Sie unter Projektname, -nummer und -ID finden. So fügen Sie Projekte hinzu:
- Geben Sie im Feld Projekt 1 die Projektnummer ein.
- Optional: Wenn Sie mehrere Projektnummern hinzufügen möchten, klicken Sie auf + Weiteres Projekt hinzufügen.
Wenn Sie Projekte oder Ordner im Bulk-Verfahren hinzufügen möchten, wählen Sie Liste mit Projekten/Ordnern über CSV-Datei hochladen aus. Die CSV-Datei muss die Projektnummern oder Ordner-IDs enthalten, die im Dataset enthalten sein sollen. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben.
Geben Sie an, ob zukünftige Buckets automatisch in die ausgewählte Ressource aufgenommen werden sollen.
Wenn Sie Filter für Buckets basierend auf Regionen und Bucket-Präfixen angeben möchten, maximieren Sie den Bereich Filter (optional). Filter werden additiv auf Buckets angewendet.
Sie können Buckets aus bestimmten Regionen ein- oder ausschließen. Sie können beispielsweise Buckets in den Regionen
me-central1undme-central2ausschließen. Sie können auch Buckets nach Präfix ein- oder ausschließen. Wenn Sie beispielsweise Buckets ausschließen möchten, die mitmy-bucketbeginnen, geben Sie das Präfixmy-bucket*ein.
Klicken Sie auf Weiter.
Wählen Sie im Abschnitt Aufbewahrungszeitraum auswählen einen Aufbewahrungszeitraum für die Daten im Dataset aus.
Aktivitätsdaten sind standardmäßig im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, wählen Sie Aufbewahrungsdauer für Aktivitätsdaten festlegen aus und geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten deaktivieren möchten, legen Sie die Aufbewahrungsdauer auf
0Tage fest.Wählen Sie im Abschnitt Ort zum Speichern des konfigurierten Datasets auswählen einen Speicherort für das Dataset aus. Beispiel:
us-central1.Wählen Sie im Abschnitt Dienstkontotyp auswählen einen Dienstkontotyp für Ihren Datensatz aus. Wählen Sie für Ihr Dataset entweder einen konfigurationsbezogenen oder einen projektbezogenen Dienst-Agent aus.
Klicken Sie auf Konfigurieren.
Befehlszeile
Führen Sie den Befehl
gcloud storage insights dataset-configs createmit den erforderlichen Flags aus, um eine Dataset-Konfiguration zu erstellen:gcloud storage insights dataset-configs create DATASET_CONFIG_ID \ --location=LOCATION \ --organization=SOURCE_ORG_NUMBER \ --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \ (SCOPE_FLAG)
Ersetzen Sie:
DATASET_CONFIG_IDdurch den Namen Ihrer Dataset-Konfiguration. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.Ersetzen Sie
LOCATIONdurch den Speicherort, an dem das Dataset gespeichert werden soll. Beispiel:us-central1.SOURCE_ORG_NUMBERdurch die ID der Organisation, zu der die Quellprojekte gehören. Informationen zum Abrufen Ihrer Organisations-ID finden Sie unter Organisations-Ressourcen-ID abrufen.DATASET_RETENTION_PERIOD_DAYSmit dem Aufbewahrungszeitraum für die Daten im Dataset.SCOPE_FLAGmit einem der folgenden Flags, das den Umfang der zu erhebenden Daten definiert:--enable-organization-scope: Ermöglicht es dem Dataset, Statistiken aus allen Buckets innerhalb der Organisation zu erfassen.--source-folders=[SOURCE_FOLDER_NUMBERS,...]: Gibt eine Liste von Ordnernummern an, die im Dataset enthalten sein sollen. Informationen zum Ermitteln einer Ordnernummer finden Sie unter Alle Projekte und Ordner in Ihrer Hierarchie auflisten.--source-folders-file=FILE_PATH: Gibt mehrere Ordnernummern an, indem eine CSV-Datei in einen Bucket hochgeladen wird.--source-projects=[SOURCE_PROJECT_NUMBERS,...]: Gibt eine Liste von Projektnummern an, die im Dataset enthalten sein sollen. Beispiel:464036093014. Informationen zum Ermitteln der Projektnummer finden Sie unter Projektname, ‑nummer und ‑ID finden.--source-projects-file=FILE_PATH: Gibt mehrere Projektnummern an, indem eine CSV-Datei in einen Bucket hochgeladen wird.
Optional können Sie die folgenden zusätzlichen Flags verwenden, um das Dataset zu konfigurieren:
Verwenden Sie
--include-buckets=BUCKET_NAMES_OR_REGEX, um bestimmte Buckets nach Name oder regulärem Ausdruck einzuschließen. Dieses Flag kann nicht mit--exclude-bucketsverwendet werden.Mit
--exclude-buckets=BUCKET_NAMES_OR_REGEXkönnen Sie bestimmte Buckets nach Name oder regulärem Ausdruck ausschließen. Dieses Flag kann nicht mit--include-bucketsverwendet werden.Mit
--project=DESTINATION_PROJECT_IDkönnen Sie ein Projekt zum Speichern der Dataset-Konfiguration und des generierten Datasets angeben. Wenn Sie dieses Flag nicht verwenden, ist das Zielprojekt Ihr aktives Projekt. Weitere Informationen zu Projekt-IDs finden Sie unter Projekte erstellen und verwalten.Mit
--auto-add-new-bucketswerden alle Buckets, die in Zukunft zu Quellprojekten hinzugefügt werden, automatisch einbezogen.Verwenden Sie
--skip-verification, um Prüfungen und Fehler aus dem Bestätigungsprozess zu überspringen. Dazu gehören auch Prüfungen auf erforderliche IAM-Berechtigungen. Wenn Sie dieses Flag verwenden, werden einige oder alle Buckets möglicherweise aus dem Dataset ausgeschlossen.Mit
--identity=IDENTITY_TYPEkönnen Sie den Bereich des Dienst-Agents angeben, der mit der Dataset-Konfiguration erstellt wurde. Mögliche Werte sindIDENTITY_TYPE_PER_CONFIGundIDENTITY_TYPE_PER_PROJECT. Wenn nicht angegeben, ist der StandardwertIDENTITY_TYPE_PER_CONFIG. Weitere Informationen finden Sie unter Dienst-Agent-Typ.Verwenden Sie
--description=DESCRIPTION, um eine Beschreibung für die Dataset-Konfiguration hinzuzufügen.Verwenden Sie
--activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS, um die Aufbewahrungsdauer für die Aktivitätsdaten im Dataset anzugeben. Aktivitätsdaten sind standardmäßig im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten ausschließen möchten, setzen Sie ACTIVITY_RETENTION_PERIOD_DAYS auf0.
Im folgenden Beispiel wird eine Dataset-Konfiguration mit dem Namen
my-datasetin der Regionus-central1für die Organisation mit der ID123456789mit einem Aufbewahrungszeitraum von30Tagen und einem auf die Projekte987654321und123123123beschränkten Bereich erstellt:gcloud storage insights dataset-configs create my-dataset \ --location=us-central1 \ --organization=123456789 \ --retention-period-days=30 \ --source-projects=987654321,123123123
JSON API
Installieren und initialisieren Sie die gcloud CLI, um ein Zugriffstoken für den
Authorization-Header zu generieren.Erstellen Sie eine JSON-Datei, die folgende Informationen enthält:
{ "sourceProjects": { "project_numbers": ["PROJECT_NUMBERS", ...] }, "retentionPeriodDays": "RETENTION_PERIOD_DAYS", "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS", "identity": { "type": "IDENTITY_TYPE" } }
Ersetzen Sie:
PROJECT_NUMBERSmit den Nummern der Projekte ersetzen, die Sie in das Dataset aufnehmen möchten. Sie können ein oder mehrere Projekte angeben. Projekte müssen als Liste von Strings angegeben werden.Alternativ können Sie eine Organisation oder einen oder mehrere Ordner hinzufügen, die Buckets und Objekte enthalten, für die Sie die Metadaten aktualisieren möchten. Wenn Sie Ordner oder Organisationen einbeziehen möchten, verwenden Sie die Felder
sourceFoldersoderorganizationScope. Weitere Informationen finden Sie in der Referenz zuDatasetConfig.RETENTION_PERIOD_DAYSmit der Anzahl der Tage, die im Dataset-Snapshot erfasst werden sollen. Beispiel:90.ACTIVITY_DATA_RETENTION_PERIOD_DAYSmit der Anzahl der Tage an Aktivitätsdaten, die im Dataset-Snapshot erfasst werden sollen. Standardmäßig sind Aktivitätsdaten im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten ausschließen möchten, setzen Sie ACTIVITY_RETENTION_PERIOD_DAYS auf0.IDENTITY_TYPEmit dem Typ des Dienstkontos, das zusammen mit der Dataset-Konfiguration erstellt wird. Mögliche Werte sindIDENTITY_TYPE_PER_CONFIGundIDENTITY_TYPE_PER_PROJECT. Weitere Informationen finden Sie unter Dienst-Agent-Typ.
Verwenden Sie zum Erstellen der Dataset-Konfiguration
cURL, um die JSON API mit einerCreate-DatasetConfig-Anfrage aufzurufen:curl -X POST --data-binary @JSON_FILE_NAME \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
Ersetzen Sie:
JSON_FILE_NAMEdurch den Pfad zur JSON-Datei, die Sie im vorherigen Schritt erstellt haben. Alternativ können Sie eine Instanz vonDatasetConfigim Anfragetext übergeben.PROJECT_IDdurch die ID des Projekts, zu dem die Dataset-Konfiguration und das Dataset gehören.LOCATIONdurch den Speicherort, an dem sich das Dataset und die Dataset-Konfiguration befinden. Beispiel:us-central1.DATASET_CONFIG_IDdurch den Namen Ihrer Dataset-Konfiguration. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.SERVICE_ACCOUNTdurch das Dienstkonto. Beispiel:test-service-account@test-project.iam.gserviceaccount.com.
Informationen zur Fehlerbehebung bei Fehlern bei der Verarbeitung von Snapshots, die in error_attributes_view protokolliert werden, finden Sie unter Fehler im Storage Insights-Dataset.
Erforderliche Berechtigungen für den Dienst-Agent erteilen
Google Cloud erstellt einen konfigurationsbezogenen oder projektbezogenen Dienst-Agent, wenn Sie eine Dataset-Konfiguration erstellen. Der Dienst-Agent folgt dem Namensformat service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com und wird auf der IAM-Seite der Google Cloud Console angezeigt, wenn Sie das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen auswählen.
Sie können den Namen des Service-Agents auch abrufen, indem Sie die DatasetConfig-Ressource über die JSON API aufrufen.
Bitten Sie Ihren Administrator, dem Dienst-Agent die Dienstrolle „Storage Insights Collector“ (roles/storage.insightsCollectorService) für die Organisation zuzuweisen, die die Quellprojekte enthält, damit Storage Insights Datasets generieren und schreiben kann.
Sie müssen diese Rolle jedem dienstbezogenen Dienst-Agent auf Konfigurationsebene zuweisen, der für jede Dataset-Konfiguration erstellt wird, aus der Sie Daten abrufen möchten. Wenn Sie einen projektbezogenen Dienst-Agent verwenden, müssen Sie diese Rolle nur einmal für den Dienst-Agent gewähren, damit Datasets für alle Dataset-Konfigurationen im Projekt gelesen und geschrieben werden können.
Eine Anleitung zum Zuweisen von Rollen für Projekte finden Sie unter Zugriff verwalten.
Dataset verknüpfen
So verknüpfen Sie ein Dataset mit BigQuery:
Console
- Wechseln Sie in der Google Cloud Console unter „Cloud Storage“ zur Seite Storage Insights.
Klicken Sie auf den Namen der Dataset-Konfiguration, mit der das Dataset generiert wurde, das Sie verknüpfen möchten.
Klicken Sie im Bereich Mit BigQuery verknüpftes Dataset auf Dataset verknüpfen, um Ihr Dataset zu verknüpfen.
Befehlszeile
Um ein Dataset mit BigQuery zu verknüpfen, führen Sie den Befehl
gcloud storage insights dataset-configs create-linkaus:gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
Ersetzen Sie:
DATASET_CONFIG_IDmit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.Ersetzen Sie
LOCATIONdurch den Standort Ihres Datasets. Beispiel:us-central1
Sie können auch einen vollständigen Pfad für die Dataset-Konfiguration angeben. Beispiel:
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
Ersetzen Sie:
Ersetzen Sie
DESTINATION_PROJECT_IDdurch die ID des Projekts, das die Dataset-Konfiguration enthält. Weitere Informationen zu Projekt-IDs finden Sie unter Projekte erstellen und verwalten.DATASET_CONFIG_IDmit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.LOCATIONdurch den Speicherort Ihres Datasets und die Dataset-Konfiguration. Beispiel:us-central1
JSON API
Installieren und initialisieren Sie die gcloud CLI, um ein Zugriffstoken für den
Authorization-Header zu generieren.Verwenden Sie
cURL, um die JSON API mit einerlinkDataset-DatasetConfig-Anfrage aufzurufen:curl -X POST \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"Ersetzen Sie:
JSON_FILE_NAMEdurch den Pfad zur JSON-Datei, die Sie erstellt haben.PROJECT_IDdurch die ID des Projekts, zu dem die Dataset-Konfiguration gehört.LOCATIONdurch den Speicherort, an dem sich das Dataset und die Dataset-Konfiguration befinden. Beispiel:us-central1.DATASET_CONFIG_IDmit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.SERVICE_ACCOUNTdurch das Dienstkonto. Beispiel:test-service-account@test-project.iam.gserviceaccount.com.
Nächste Schritte
- Verknüpfte Datasets aufrufen
- Verknüpftes Dataset abfragen
- Gespeicherte Daten mit Gemini Cloud Assist analysieren
- Dataset-Konfigurationen verwalten, einschließlich Aktualisieren, Aufrufen, Auflisten und Löschen.