Storage Insights-Datasets konfigurieren

In diesem Dokument erfahren Sie, wie Sie Storage Insights-Datasets konfigurieren.

Hinweise

Bevor Sie ein Dataset konfigurieren, führen Sie die folgenden Schritte aus.

Erforderliche Rollen abrufen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Ihre Quellprojekte zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Konfigurieren von Datasets benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Konfigurieren von Datasets erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datasets zu konfigurieren:

  • Dataset konfigurieren:
    • storageinsights.datasetConfigs.create
    • storage.buckets.getObjectInsights
  • Link zum BigQuery-Dataset: storageinsights.datasetConfigs.linkDataset

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Storage Insights API aktivieren

Console

storageinsights.googleapis.com API aktivieren

Befehlszeile

Führen Sie den Befehl gcloud services enable aus, um die Storage Insights API in Ihrem aktuellen Projekt zu aktivieren:

gcloud services enable storageinsights.googleapis.com

Weitere Informationen zum Aktivieren von Diensten für ein Google Cloud -Projekt finden Sie unter Dienste aktivieren und deaktivieren.

Storage Intelligence konfigurieren

Storage Intelligence muss für das Projekt, den Ordner oder die Organisation konfiguriert sein, die Sie mit Datasets analysieren möchten.

Dataset-Konfiguration erstellen

So erstellen Sie eine Dataset-Konfiguration: Weitere Informationen zu den Feldern, die Sie für die Dataset-Konfiguration angeben können, finden Sie unter Attribute für die Dataset-Konfiguration.

Console

  1. Wechseln Sie in der Google Cloud Console unter „Cloud Storage“ zur Seite Storage Insights.

    Zu Storage Insights

  2. Klicken Sie auf Dataset konfigurieren.

  3. Geben Sie im Abschnitt Dataset benennen einen Namen für Ihr Dataset ein. Geben Sie optional eine Beschreibung für den Datensatz ein. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.

  4. Führen Sie im Abschnitt Dataset-Umfang definieren folgende Schritte aus:

    • Wählen Sie eine der folgenden Optionen aus:

      • Wenn Sie Speichermetadaten für alle Projekte in der aktuellen Organisation abrufen möchten, wählen Sie Organisation einschließen aus.

      • Wenn Sie Speichermetadaten für alle Projekte in den ausgewählten Ordnern abrufen möchten, wählen Sie Ordner einschließen (Unterorganisation/Abteilungen) aus. Informationen zum Abrufen von Ordner-IDs finden Sie unter Ordner und Projekte ansehen oder auflisten. So fügst du Ordner hinzu:

        1. Geben Sie im Feld Ordner 1 die Ordner-ID ein.
        2. Optional: Wenn Sie mehrere Ordner-IDs hinzufügen möchten, klicken Sie auf + Weiteren Ordner hinzufügen.
      • Wenn Sie Speichermetadaten für die ausgewählten Projekte abrufen möchten, wählen Sie Projekte durch Angabe von Projektnummern einbeziehen aus. Informationen zum Ermitteln von Projektnummern finden Sie unter Projektname, -nummer und -ID finden. So fügen Sie Projekte hinzu:

        1. Geben Sie im Feld Projekt 1 die Projektnummer ein.
        2. Optional: Wenn Sie mehrere Projektnummern hinzufügen möchten, klicken Sie auf + Weiteres Projekt hinzufügen.
      • Wenn Sie Projekte oder Ordner im Bulk-Verfahren hinzufügen möchten, wählen Sie Liste mit Projekten/Ordnern über CSV-Datei hochladen aus. Die CSV-Datei muss die Projektnummern oder Ordner-IDs enthalten, die im Dataset enthalten sein sollen. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben.

    • Geben Sie an, ob zukünftige Buckets automatisch in die ausgewählte Ressource aufgenommen werden sollen.

    • Wenn Sie Filter für Buckets basierend auf Regionen und Bucket-Präfixen angeben möchten, maximieren Sie den Bereich Filter (optional). Filter werden additiv auf Buckets angewendet.

      Sie können Buckets aus bestimmten Regionen ein- oder ausschließen. Sie können beispielsweise Buckets in den Regionen me-central1 und me-central2 ausschließen. Sie können auch Buckets nach Präfix ein- oder ausschließen. Wenn Sie beispielsweise Buckets ausschließen möchten, die mit my-bucket beginnen, geben Sie das Präfix my-bucket* ein.

  5. Klicken Sie auf Weiter.

  6. Wählen Sie im Abschnitt Aufbewahrungszeitraum auswählen einen Aufbewahrungszeitraum für die Daten im Dataset aus.

  7. Aktivitätsdaten sind standardmäßig im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, wählen Sie Aufbewahrungsdauer für Aktivitätsdaten festlegen aus und geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten deaktivieren möchten, legen Sie die Aufbewahrungsdauer auf 0 Tage fest.

  8. Wählen Sie im Abschnitt Ort zum Speichern des konfigurierten Datasets auswählen einen Speicherort für das Dataset aus. Beispiel: us-central1.

  9. Wählen Sie im Abschnitt Dienstkontotyp auswählen einen Dienstkontotyp für Ihren Datensatz aus. Wählen Sie für Ihr Dataset entweder einen konfigurationsbezogenen oder einen projektbezogenen Dienst-Agent aus.

  10. Klicken Sie auf Konfigurieren.

Befehlszeile

  1. Führen Sie den Befehl gcloud storage insights dataset-configs create mit den erforderlichen Flags aus, um eine Dataset-Konfiguration zu erstellen:

    gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
      --location=LOCATION \
      --organization=SOURCE_ORG_NUMBER \
      --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
      (SCOPE_FLAG)
    

    Ersetzen Sie:

    • DATASET_CONFIG_ID durch den Namen Ihrer Dataset-Konfiguration. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.

    • Ersetzen Sie LOCATION durch den Speicherort, an dem das Dataset gespeichert werden soll. Beispiel: us-central1.

    • SOURCE_ORG_NUMBER durch die ID der Organisation, zu der die Quellprojekte gehören. Informationen zum Abrufen Ihrer Organisations-ID finden Sie unter Organisations-Ressourcen-ID abrufen.

    • DATASET_RETENTION_PERIOD_DAYS mit dem Aufbewahrungszeitraum für die Daten im Dataset.

    • SCOPE_FLAG mit einem der folgenden Flags, das den Umfang der zu erhebenden Daten definiert:

      • --enable-organization-scope: Ermöglicht es dem Dataset, Statistiken aus allen Buckets innerhalb der Organisation zu erfassen.
      • --source-folders=[SOURCE_FOLDER_NUMBERS,...]: Gibt eine Liste von Ordnernummern an, die im Dataset enthalten sein sollen. Informationen zum Ermitteln einer Ordnernummer finden Sie unter Alle Projekte und Ordner in Ihrer Hierarchie auflisten.
      • --source-folders-file=FILE_PATH: Gibt mehrere Ordnernummern an, indem eine CSV-Datei in einen Bucket hochgeladen wird.
      • --source-projects=[SOURCE_PROJECT_NUMBERS,...]: Gibt eine Liste von Projektnummern an, die im Dataset enthalten sein sollen. Beispiel: 464036093014. Informationen zum Ermitteln der Projektnummer finden Sie unter Projektname, ‑nummer und ‑ID finden.
      • --source-projects-file=FILE_PATH: Gibt mehrere Projektnummern an, indem eine CSV-Datei in einen Bucket hochgeladen wird.

    Optional können Sie die folgenden zusätzlichen Flags verwenden, um das Dataset zu konfigurieren:

    • Verwenden Sie --include-buckets=BUCKET_NAMES_OR_REGEX, um bestimmte Buckets nach Name oder regulärem Ausdruck einzuschließen. Dieses Flag kann nicht mit --exclude-buckets verwendet werden.

    • Mit --exclude-buckets=BUCKET_NAMES_OR_REGEX können Sie bestimmte Buckets nach Name oder regulärem Ausdruck ausschließen. Dieses Flag kann nicht mit --include-buckets verwendet werden.

    • Mit --project=DESTINATION_PROJECT_ID können Sie ein Projekt zum Speichern der Dataset-Konfiguration und des generierten Datasets angeben. Wenn Sie dieses Flag nicht verwenden, ist das Zielprojekt Ihr aktives Projekt. Weitere Informationen zu Projekt-IDs finden Sie unter Projekte erstellen und verwalten.

    • Mit --auto-add-new-buckets werden alle Buckets, die in Zukunft zu Quellprojekten hinzugefügt werden, automatisch einbezogen.

    • Verwenden Sie --skip-verification, um Prüfungen und Fehler aus dem Bestätigungsprozess zu überspringen. Dazu gehören auch Prüfungen auf erforderliche IAM-Berechtigungen. Wenn Sie dieses Flag verwenden, werden einige oder alle Buckets möglicherweise aus dem Dataset ausgeschlossen.

    • Mit --identity=IDENTITY_TYPE können Sie den Bereich des Dienst-Agents angeben, der mit der Dataset-Konfiguration erstellt wurde. Mögliche Werte sind IDENTITY_TYPE_PER_CONFIG und IDENTITY_TYPE_PER_PROJECT. Wenn nicht angegeben, ist der Standardwert IDENTITY_TYPE_PER_CONFIG. Weitere Informationen finden Sie unter Dienst-Agent-Typ.

    • Verwenden Sie --description=DESCRIPTION, um eine Beschreibung für die Dataset-Konfiguration hinzuzufügen.

    • Verwenden Sie --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS, um die Aufbewahrungsdauer für die Aktivitätsdaten im Dataset anzugeben. Aktivitätsdaten sind standardmäßig im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten ausschließen möchten, setzen Sie ACTIVITY_RETENTION_PERIOD_DAYS auf 0.

    Im folgenden Beispiel wird eine Dataset-Konfiguration mit dem Namen my-dataset in der Region us-central1 für die Organisation mit der ID 123456789 mit einem Aufbewahrungszeitraum von 30 Tagen und einem auf die Projekte 987654321 und 123123123 beschränkten Bereich erstellt:

    gcloud storage insights dataset-configs create my-dataset \
    --location=us-central1 \
    --organization=123456789 \
    --retention-period-days=30 \
    --source-projects=987654321,123123123
    

JSON API

  1. Installieren und initialisieren Sie die gcloud CLI, um ein Zugriffstoken für den Authorization-Header zu generieren.

  2. Erstellen Sie eine JSON-Datei, die folgende Informationen enthält:

    {
      "sourceProjects": {
        "project_numbers": ["PROJECT_NUMBERS", ...]
      },
      "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
      "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
      "identity": {
        "type": "IDENTITY_TYPE"
      }
    }

    Ersetzen Sie:

    • PROJECT_NUMBERS mit den Nummern der Projekte ersetzen, die Sie in das Dataset aufnehmen möchten. Sie können ein oder mehrere Projekte angeben. Projekte müssen als Liste von Strings angegeben werden.

      Alternativ können Sie eine Organisation oder einen oder mehrere Ordner hinzufügen, die Buckets und Objekte enthalten, für die Sie die Metadaten aktualisieren möchten. Wenn Sie Ordner oder Organisationen einbeziehen möchten, verwenden Sie die Felder sourceFolders oder organizationScope. Weitere Informationen finden Sie in der Referenz zu DatasetConfig.

    • RETENTION_PERIOD_DAYS mit der Anzahl der Tage, die im Dataset-Snapshot erfasst werden sollen. Beispiel: 90.

    • ACTIVITY_DATA_RETENTION_PERIOD_DAYS mit der Anzahl der Tage an Aktivitätsdaten, die im Dataset-Snapshot erfasst werden sollen. Standardmäßig sind Aktivitätsdaten im Dataset enthalten und übernehmen die Aufbewahrungsdauer des Datasets. Wenn Sie die Aufbewahrungsdauer für das Dataset überschreiben möchten, geben Sie die Anzahl der Tage an, für die Aktivitätsdaten aufbewahrt werden sollen. Wenn Sie Aktivitätsdaten ausschließen möchten, setzen Sie ACTIVITY_RETENTION_PERIOD_DAYS auf 0.

    • IDENTITY_TYPE mit dem Typ des Dienstkontos, das zusammen mit der Dataset-Konfiguration erstellt wird. Mögliche Werte sind IDENTITY_TYPE_PER_CONFIG und IDENTITY_TYPE_PER_PROJECT. Weitere Informationen finden Sie unter Dienst-Agent-Typ.

  3. Verwenden Sie zum Erstellen der Dataset-Konfiguration cURL, um die JSON API mit einer Create-DatasetConfig-Anfrage aufzurufen:

    curl -X POST --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"

    Ersetzen Sie:

    • JSON_FILE_NAME durch den Pfad zur JSON-Datei, die Sie im vorherigen Schritt erstellt haben. Alternativ können Sie eine Instanz von DatasetConfig im Anfragetext übergeben.

    • PROJECT_ID durch die ID des Projekts, zu dem die Dataset-Konfiguration und das Dataset gehören.

    • LOCATION durch den Speicherort, an dem sich das Dataset und die Dataset-Konfiguration befinden. Beispiel: us-central1.

    • DATASET_CONFIG_ID durch den Namen Ihrer Dataset-Konfiguration. Namen identifizieren Dataset-Konfigurationen und sind unveränderlich. Der Name darf bis zu 128 Zeichen lang sein, darunter Buchstaben, Ziffern und Unterstriche, und muss mit einem Buchstaben beginnen.

    • SERVICE_ACCOUNT durch das Dienstkonto. Beispiel: test-service-account@test-project.iam.gserviceaccount.com.

Informationen zur Fehlerbehebung bei Fehlern bei der Verarbeitung von Snapshots, die in error_attributes_view protokolliert werden, finden Sie unter Fehler im Storage Insights-Dataset.

Erforderliche Berechtigungen für den Dienst-Agent erteilen

Google Cloud erstellt einen konfigurationsbezogenen oder projektbezogenen Dienst-Agent, wenn Sie eine Dataset-Konfiguration erstellen. Der Dienst-Agent folgt dem Namensformat service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com und wird auf der IAM-Seite der Google Cloud Console angezeigt, wenn Sie das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen auswählen. Sie können den Namen des Service-Agents auch abrufen, indem Sie die DatasetConfig-Ressource über die JSON API aufrufen.

Bitten Sie Ihren Administrator, dem Dienst-Agent die Dienstrolle „Storage Insights Collector“ (roles/storage.insightsCollectorService) für die Organisation zuzuweisen, die die Quellprojekte enthält, damit Storage Insights Datasets generieren und schreiben kann. Sie müssen diese Rolle jedem dienstbezogenen Dienst-Agent auf Konfigurationsebene zuweisen, der für jede Dataset-Konfiguration erstellt wird, aus der Sie Daten abrufen möchten. Wenn Sie einen projektbezogenen Dienst-Agent verwenden, müssen Sie diese Rolle nur einmal für den Dienst-Agent gewähren, damit Datasets für alle Dataset-Konfigurationen im Projekt gelesen und geschrieben werden können.

Eine Anleitung zum Zuweisen von Rollen für Projekte finden Sie unter Zugriff verwalten.

So verknüpfen Sie ein Dataset mit BigQuery:

  1. Wechseln Sie in der Google Cloud Console unter „Cloud Storage“ zur Seite Storage Insights.

    Zu Storage Insights

  2. Klicken Sie auf den Namen der Dataset-Konfiguration, mit der das Dataset generiert wurde, das Sie verknüpfen möchten.

  3. Klicken Sie im Bereich Mit BigQuery verknüpftes Dataset auf Dataset verknüpfen, um Ihr Dataset zu verknüpfen.

  1. Um ein Dataset mit BigQuery zu verknüpfen, führen Sie den Befehl gcloud storage insights dataset-configs create-link aus:

    gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION

    Ersetzen Sie:

    • DATASET_CONFIG_ID mit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.

    • Ersetzen Sie LOCATION durch den Standort Ihres Datasets. Beispiel: us-central1

    Sie können auch einen vollständigen Pfad für die Dataset-Konfiguration angeben. Beispiel:

    gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    Ersetzen Sie:

    • Ersetzen Sie DESTINATION_PROJECT_ID durch die ID des Projekts, das die Dataset-Konfiguration enthält. Weitere Informationen zu Projekt-IDs finden Sie unter Projekte erstellen und verwalten.

    • DATASET_CONFIG_ID mit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.

    • LOCATION durch den Speicherort Ihres Datasets und die Dataset-Konfiguration. Beispiel: us-central1

  1. Installieren und initialisieren Sie die gcloud CLI, um ein Zugriffstoken für den Authorization-Header zu generieren.

  2. Verwenden Sie cURL, um die JSON API mit einer linkDataset-DatasetConfig-Anfrage aufzurufen:

    curl -X POST \
      "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
        --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
        --header "Accept: application/json" \
        --header "Content-Type: application/json"
    

    Ersetzen Sie:

    • JSON_FILE_NAME durch den Pfad zur JSON-Datei, die Sie erstellt haben.

    • PROJECT_ID durch die ID des Projekts, zu dem die Dataset-Konfiguration gehört.

    • LOCATION durch den Speicherort, an dem sich das Dataset und die Dataset-Konfiguration befinden. Beispiel: us-central1.

    • DATASET_CONFIG_ID mit dem Namen der Dataset-Konfiguration, mit der das zu verknüpfende Dataset generiert wurde.

    • SERVICE_ACCOUNT durch das Dienstkonto. Beispiel: test-service-account@test-project.iam.gserviceaccount.com.

Nächste Schritte