Mengonfigurasi set data Storage Insights

Dokumen ini menunjukkan cara mengonfigurasi dataset Storage Insights.

Sebelum memulai

Sebelum mengonfigurasi set data, selesaikan langkah-langkah berikut.

Mendapatkan peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengonfigurasi set data, minta administrator untuk memberi Anda peran IAM berikut di project sumber Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk mengonfigurasi set data. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk mengonfigurasi set data:

  • Mengonfigurasi set data:
    • storageinsights.datasetConfigs.create
    • storage.buckets.getObjectInsights
  • Tautkan ke set data BigQuery: storageinsights.datasetConfigs.linkDataset

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Aktifkan Storage Insights API

Konsol

Aktifkan storageinsights.googleapis.com API

Command line

Untuk mengaktifkan Storage Insights API di project saat ini, jalankan perintah gcloud services enable:

gcloud services enable storageinsights.googleapis.com

Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan layanan untuk project Google Cloud , lihat Mengaktifkan dan menonaktifkan layanan.

Mengonfigurasi Storage Intelligence

Pastikan Storage Intelligence dikonfigurasi untuk project, folder, atau organisasi yang ingin Anda analisis dengan set data.

Membuat konfigurasi set data

Untuk membuat konfigurasi set data, ikuti langkah-langkah berikut. Untuk mengetahui informasi selengkapnya tentang kolom yang dapat Anda tentukan untuk konfigurasi set data, lihat Properti konfigurasi set data.

Konsol

  1. Di konsol Google Cloud , buka halaman Storage Insights Cloud Storage.

    Buka Insight Penyimpanan

  2. Klik Configure dataset.

  3. Di bagian Beri nama set data Anda, masukkan nama untuk set data Anda. Secara opsional, masukkan deskripsi untuk set data. Nama mengidentifikasi konfigurasi set data dan bersifat tetap. Nama dapat berisi hingga 128 karakter, termasuk huruf, angka, dan garis bawah, serta harus diawali dengan huruf.

  4. Di bagian Tentukan cakupan set data, lakukan hal berikut:

    • Pilih salah satu opsi berikut:

      • Untuk mendapatkan metadata penyimpanan untuk semua project di organisasi saat ini, pilih Sertakan organisasi.

      • Untuk mendapatkan metadata penyimpanan untuk semua project di folder yang dipilih, pilih Sertakan folder (Sub-organisasi/departemen). Untuk mengetahui informasi tentang cara mendapatkan ID folder, lihat Melihat atau mencantumkan folder dan project. Untuk menambahkan folder:

        1. Di kolom Folder 1, masukkan ID folder.
        2. Jika perlu, untuk menambahkan beberapa ID folder, klik + Tambahkan folder lain.
      • Untuk mendapatkan metadata penyimpanan untuk project yang dipilih, pilih Sertakan project dengan memberikan nomor project. Untuk mempelajari cara menemukan nomor project, lihat Menemukan nama, nomor, dan ID project. Untuk menambahkan project, lakukan langkah-langkah berikut:

        1. Di kolom Project 1, masukkan nomor project.
        2. Jika perlu, untuk menambahkan beberapa nomor project, klik + Tambahkan project lain.
      • Untuk menambahkan project atau folder secara massal, pilih Upload daftar project/folder melalui file CSV. File CSV harus berisi nomor project atau ID folder yang akan disertakan dalam set data. Anda dapat menentukan hingga 10.000 project atau folder dalam satu konfigurasi set data.

    • Tentukan apakah akan menyertakan bucket mendatang secara otomatis dalam resource yang dipilih.

    • Secara opsional, untuk menentukan filter pada bucket berdasarkan wilayah dan awalan bucket, luaskan bagian Filters (optional). Filter diterapkan secara aditif pada bucket.

      Anda dapat menyertakan atau mengecualikan bucket dari wilayah tertentu. Misalnya, Anda dapat mengecualikan bucket di region me-central1 dan me-central2. Anda juga dapat menyertakan atau mengecualikan bucket menurut awalan. Misalnya, untuk mengecualikan bucket yang diawali dengan my-bucket, masukkan prefiks my-bucket*.

  5. Klik Lanjutkan.

  6. Di bagian Pilih periode retensi, pilih periode retensi untuk data dalam set data.

  7. Data aktivitas disertakan dalam set data secara default, dan mewarisi periode retensi set data. Untuk mengganti periode retensi set data, pilih Tentukan periode retensi untuk data aktivitas, lalu pilih jumlah hari untuk mempertahankan data aktivitas. Untuk menonaktifkan data aktivitas, tetapkan periode retensi ke 0 hari.

  8. Di bagian Pilih lokasi untuk menyimpan set data yang dikonfigurasi, pilih lokasi untuk menyimpan set data. Contohnya, us-central1.

  9. Di bagian Select service account type, pilih jenis agen layanan untuk set data Anda. Pilih agen layanan cakupan konfigurasi atau cakupan project untuk set data Anda.

  10. Klik Configure.

Command line

  1. Untuk membuat konfigurasi set data, jalankan perintah gcloud storage insights dataset-configs create dengan tanda yang diperlukan:

    gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
      --location=LOCATION \
      --organization=SOURCE_ORG_NUMBER \
      --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
      (SCOPE_FLAG)
    

    Ganti:

    • DATASET_CONFIG_ID dengan nama untuk konfigurasi set data Anda. Nama mengidentifikasi konfigurasi set data dan bersifat tetap. Nama dapat berisi hingga 128 karakter, termasuk huruf, angka, dan garis bawah, serta harus diawali dengan huruf.

    • LOCATION dengan lokasi untuk menyimpan set data. Contohnya, us-central1.

    • SOURCE_ORG_NUMBER dengan ID organisasi yang memiliki project sumber. Untuk menemukan ID organisasi Anda, lihat Mendapatkan ID resource organisasi Anda.

    • DATASET_RETENTION_PERIOD_DAYS dengan periode retensi untuk data dalam set data.

    • SCOPE_FLAG dengan salah satu flag berikut yang menentukan cakupan data yang akan dikumpulkan:

      • --enable-organization-scope: Memungkinkan set data mengumpulkan insight dari semua bucket dalam organisasi.
      • --source-folders=[SOURCE_FOLDER_NUMBERS,...]: Menentukan daftar nomor folder yang akan disertakan dalam set data. Untuk mempelajari cara menemukan nomor folder, lihat Mencantumkan semua project dan folder dalam hierarki Anda.
      • --source-folders-file=FILE_PATH: Menentukan beberapa nomor folder dengan mengupload file CSV ke bucket.
      • --source-projects=[SOURCE_PROJECT_NUMBERS,...]: Menentukan daftar nomor project yang akan disertakan dalam set data. Contoh, 464036093014. Untuk menemukan nomor project Anda, lihat Menemukan nama, nomor, dan ID project.
      • --source-projects-file=FILE_PATH: Menentukan beberapa nomor project dengan mengupload file CSV ke bucket.

    Secara opsional, gunakan flag tambahan berikut untuk mengonfigurasi set data:

    • Gunakan --include-buckets=BUCKET_NAMES_OR_REGEX untuk menyertakan bucket tertentu menurut nama atau ekspresi reguler. Anda tidak dapat menggunakan flag ini dengan --exclude-buckets.

    • Gunakan --exclude-buckets=BUCKET_NAMES_OR_REGEX untuk mengecualikan bucket tertentu menurut nama atau ekspresi reguler. Anda tidak dapat menggunakan flag ini dengan --include-buckets.

    • Gunakan --project=DESTINATION_PROJECT_ID untuk menentukan project guna menyimpan konfigurasi set data dan set data yang dihasilkan. Jika Anda tidak menggunakan flag ini, project tujuan adalah project aktif Anda. Untuk mengetahui informasi selengkapnya tentang ID project, lihat Membuat dan mengelola project.

    • Gunakan --auto-add-new-buckets untuk otomatis menyertakan bucket yang ditambahkan ke project sumber pada masa mendatang.

    • Gunakan --skip-verification untuk melewati pemeriksaan dan kegagalan dari proses verifikasi, yang mencakup pemeriksaan izin IAM yang diperlukan. Jika Anda menggunakan tanda ini, beberapa atau semua bucket mungkin dikecualikan dari set data.

    • Gunakan --identity=IDENTITY_TYPE untuk menentukan cakupan agen layanan yang dibuat dengan konfigurasi set data. Nilainya adalah IDENTITY_TYPE_PER_CONFIG atau IDENTITY_TYPE_PER_PROJECT. Jika tidak ditentukan, defaultnya adalah IDENTITY_TYPE_PER_CONFIG. Untuk mengetahui detailnya, lihat Jenis agen layanan.

    • Gunakan --description=DESCRIPTION untuk menambahkan deskripsi untuk konfigurasi set data.

    • Gunakan --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS untuk menentukan periode retensi data aktivitas dalam set data. Secara default, data aktivitas disertakan dalam set data, dan mewarisi periode retensi set data. Untuk mengganti periode retensi set data, tentukan jumlah hari untuk menyimpan data aktivitas. Untuk mengecualikan data aktivitas, tetapkan ACTIVITY_RETENTION_PERIOD_DAYS ke 0.

    Contoh berikut membuat konfigurasi set data bernama my-dataset di region us-central1, untuk organisasi dengan ID 123456789, dengan periode retensi 30 hari, dan cakupan yang dibatasi untuk project 987654321 dan 123123123:

    gcloud storage insights dataset-configs create my-dataset \
    --location=us-central1 \
    --organization=123456789 \
    --retention-period-days=30 \
    --source-projects=987654321,123123123
    

JSON API

  1. Instal dan lakukan inisialisasigcloud CLI, yang memungkinkan Anda membuat token akses untuk header Authorization.

  2. Buat file JSON yang berisi informasi berikut:

    {
      "sourceProjects": {
        "project_numbers": ["PROJECT_NUMBERS", ...]
      },
      "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
      "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
      "identity": {
        "type": "IDENTITY_TYPE"
      }
    }

    Ganti:

    • PROJECT_NUMBERS dengan nomor project yang ingin Anda sertakan dalam set data. Anda dapat menentukan satu atau beberapa project. Project harus ditentukan sebagai daftar string.

      Atau, Anda dapat menambahkan organisasi, atau satu atau beberapa folder yang berisi bucket dan objek yang ingin Anda perbarui metadatanya. Untuk menyertakan folder atau organisasi, gunakan kolom sourceFolders atau organizationScope. Untuk informasi selengkapnya, lihat referensi DatasetConfig.

    • RETENTION_PERIOD_DAYS dengan jumlah hari data yang akan diambil dalam snapshot set data. Contoh, 90.

    • ACTIVITY_DATA_RETENTION_PERIOD_DAYS dengan jumlah hari data aktivitas yang akan diambil dalam snapshot set data. Secara default, data aktivitas disertakan dalam set data, dan mewarisi periode retensi set data. Untuk mengganti periode retensi set data, tentukan jumlah hari untuk menyimpan data aktivitas. Untuk mengecualikan data aktivitas, tetapkan ACTIVITY_RETENTION_PERIOD_DAYS ke 0.

    • IDENTITY_TYPE dengan jenis akun layanan yang dibuat bersama konfigurasi set data. Nilainya adalah IDENTITY_TYPE_PER_CONFIG atau IDENTITY_TYPE_PER_PROJECT. Untuk mengetahui detailnya, lihat Jenis agen layanan.

  3. Untuk membuat konfigurasi set data, gunakan cURL untuk memanggil JSON API dengan permintaan Create DatasetConfig:

    curl -X POST --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"

    Ganti:

    • JSON_FILE_NAME dengan jalur ke file JSON yang Anda buat di langkah sebelumnya. Atau, Anda dapat meneruskan instance DatasetConfig di isi permintaan.

    • PROJECT_ID dengan ID project yang akan menjadi tujuan konfigurasi set data dan set data.

    • LOCATION dengan lokasi tempat set data dan konfigurasi set data akan berada. Contohnya, us-central1.

    • DATASET_CONFIG_ID dengan nama konfigurasi set data Anda. Nama mengidentifikasi konfigurasi set data dan bersifat tetap. Nama dapat berisi hingga 128 karakter, termasuk huruf, angka, dan garis bawah, serta harus diawali dengan huruf.

    • SERVICE_ACCOUNT dengan akun layanan. Contoh, test-service-account@test-project.iam.gserviceaccount.com.

Untuk memecahkan masalah error pemrosesan snapshot yang dicatat di error_attributes_view, lihat Error set data Storage Insights.

Memberikan izin yang diperlukan kepada agen layanan

Google Cloud membuat agen layanan cakupan konfigurasi atau cakupan project saat Anda membuat konfigurasi set data. Agen layanan mengikuti format penamaan service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com dan muncul di halaman IAM di konsol saat Anda mencentang kotak Sertakan pemberian peran yang disediakan Google. Google Cloud Anda juga dapat menemukan nama agen layanan dengan melihat resource DatasetConfig menggunakan JSON API.

Guna mengaktifkan Insight Penyimpanan untuk membuat dan menulis set data, minta administrator Anda untuk memberikan peran Layanan Pengumpul Insight Penyimpanan (roles/storage.insightsCollectorService) kepada agen layanan di organisasi yang berisi project sumber. Anda harus memberikan peran ini kepada setiap agen layanan yang tercakup dalam konfigurasi yang dibuat untuk setiap konfigurasi set data yang datanya ingin Anda peroleh. Jika Anda menggunakan agen layanan yang tercakup dalam project, Anda hanya perlu memberikan peran ini satu kali pada agen layanan untuk membaca dan menulis set data bagi semua konfigurasi set data dalam project.

Untuk mengetahui petunjuk tentang cara memberikan peran untuk project, lihat Mengelola akses.

Untuk menautkan set data ke BigQuery, selesaikan langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Storage Insights Cloud Storage.

    Buka Insight Penyimpanan

  2. Klik nama konfigurasi set data yang menghasilkan set data yang ingin Anda tautkan.

  3. Di bagian Set data tertaut BigQuery, klik Tautkan set data untuk menautkan set data Anda.

  1. Untuk menautkan set data ke BigQuery, jalankan perintah gcloud storage insights dataset-configs create-link:

    gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION

    Ganti:

    • DATASET_CONFIG_ID dengan nama konfigurasi set data yang menghasilkan set data untuk ditautkan.

    • LOCATION dengan lokasi set data Anda. Misalnya, us-central1.

    Anda juga dapat menentukan jalur konfigurasi set data lengkap. Contoh:

    gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    Ganti:

    • DESTINATION_PROJECT_ID dengan ID project yang berisi konfigurasi set data. Untuk mengetahui informasi selengkapnya tentang ID project, lihat Membuat dan mengelola project.

    • DATASET_CONFIG_ID dengan nama konfigurasi set data yang menghasilkan set data untuk ditautkan.

    • LOCATION dengan lokasi set data dan konfigurasi set data Anda. Misalnya, us-central1.

  1. Instal dan lakukan inisialisasigcloud CLI, yang memungkinkan Anda membuat token akses untuk header Authorization.

  2. Gunakan cURL untuk memanggil JSON API dengan permintaan linkDataset DatasetConfig:

    curl -X POST \
      "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
        --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
        --header "Accept: application/json" \
        --header "Content-Type: application/json"
    

    Ganti:

    • JSON_FILE_NAME dengan jalur ke file JSON yang Anda buat.

    • PROJECT_ID dengan ID project yang memiliki konfigurasi set data.

    • LOCATION dengan lokasi tempat set data dan konfigurasi set data berada. Contohnya, us-central1.

    • DATASET_CONFIG_ID dengan nama konfigurasi set data yang menghasilkan set data untuk ditautkan.

    • SERVICE_ACCOUNT dengan akun layanan. Contoh, test-service-account@test-project.iam.gserviceaccount.com.

Langkah berikutnya