Set data Storage Insights

Dokumen ini menjelaskan cara set data Insight Penyimpanan membantu Anda mengelola lingkungan Cloud Storage dengan memberikan visibilitas dan insight ke dalam data Anda.

Set data Insight Penyimpanan membuat indeks metadata dan aktivitas yang dapat dikueri untuk bucket dan objek Cloud Storage Anda di seluruh organisasi, folder, project, atau bucket tertentu. Untuk mengkueri indeks metadata dan aktivitas, Anda harus menautkan set data ke BigQuery. Kemudian, Anda dapat menggunakan set data BigQuery yang ditautkan untuk menganalisis, mengkueri, dan memvisualisasikan data Anda. Tautkan set data ke BigQuery untuk mengaktifkan kueri indeks metadata dan aktivitas.

Set data Insight Penyimpanan adalah fitur eksklusif yang tersedia dengan langganan Storage Intelligence. Google Cloud menawarkan uji coba pengantar 30 hari untuk Storage Intelligence. Anda dapat mengaktifkan uji coba untuk mendapatkan insight tentang penggunaan Cloud Storage dan mengambil tindakan. Untuk mengetahui informasi selengkapnya tentang uji coba, lihat Uji coba pengantar 30 hari untuk Storage Intelligence.

Ringkasan

Set data Insight Penyimpanan menyediakan snapshot metadata, data aktivitas, error, dan peristiwa yang terus diperbarui untuk semua project, bucket, dan objek dalam cakupan yang ditentukan. Dengan terus mengumpulkan dan mengindeks informasi, set data ini membuat tampilan komprehensif yang membantu Anda memahami status data, memantau resource Cloud Storage, dan mendapatkan insight untuk mengelola dan mengoptimalkan aset penyimpanan Anda.

Set data ini tersedia sebagai set data tertaut BigQuery, dengan sekumpulan tabel yang memiliki skema berikut:

  • Metadata: snapshot metadata untuk project, bucket, dan objek. Untuk mengetahui detail tentang skema metadata, lihat Skema set data metadata.

  • Data aktivitas: catatan mutasi dan error untuk objek serta insight aktivitas gabungan untuk bucket dan project Anda. Untuk mengetahui detail tentang skema data aktivitas, lihat Skema set data data aktivitas.

  • Error dan peristiwa: informasi tentang peristiwa dan error pemrosesan snapshot. Untuk mengetahui detail tentang skema error dan peristiwa, lihat Skema set data peristiwa dan error.

Kasus penggunaan untuk set data Insight Penyimpanan

Set data Insight Penyimpanan menyediakan tampilan untuk mendapatkan insight terperinci dan di seluruh organisasi tentang data Anda. Bagian berikut menjelaskan kasus penggunaan untuk set data.

Memahami aset penyimpanan Anda

Anda dapat memperoleh insight tentang data dengan melihat metadata project, bucket, dan objek. Tampilan metadata membantu Anda melakukan tugas berikut:

  • Mendeteksi anomali, seperti data di region yang tidak terduga.
  • Mengidentifikasi peluang pengoptimalan, seperti menemukan file sementara atau duplikat.
  • Mengkueri insight tertentu, seperti objek yang dibuat dalam 24 jam terakhir atau jumlah total file PDF.
  • Menganalisis objek yang ingin Anda tindak lanjuti dengan mengekstrak daftar awalan dari sekumpulan objek berdasarkan hasil kueri. Untuk mempelajari cara melakukan operasi pada miliaran objek secara tanpa server, lihat operasi batch penyimpanan.

Menganalisis pola aktivitas

Dengan tampilan aktivitas bucket, tampilan aktivitas project, dan tampilan peristiwa objek, Anda dapat melakukan hal berikut:

  • Menganalisis pola operasional dan mengidentifikasi bucket yang tidak aktif.

  • Memantau operasi pada objek untuk melihat perubahan aset penyimpanan Anda dari waktu ke waktu.

  • Memetakan project, bucket, dan awalan yang paling aktif.

Memahami aktivitas bucket regional

Tampilan aktivitas regional bucket menampilkan kolom seperti byte permintaan dan respons, yang membantu Anda melihat region yang sering berinteraksi dengan bucket Anda. Analisis aktivitas bucket regional untuk menentukan apakah relokasi bucket diperlukan:

  • Melihat total keluar dan masuk untuk bucket di suatu region guna mengidentifikasi bucket yang mungkin lebih cocok untuk kelas regional, bukan multi-region.

  • Menilai total traffic data di dalam dan di seluruh region.

Menilai status keamanan

Anda dapat menggunakan metadata bucket dan objek untuk mengidentifikasi objek yang diekspos secara publik, jenis enkripsi aktif, dan linimasa masa berlaku untuk retensi data. Bagian berikut menjelaskan cara set data Insight Penyimpanan membantu Anda menilai potensi kerentanan keamanan.

Mengidentifikasi objek yang dapat diakses secara publik

Anda dapat menggunakan set data Insight Penyimpanan untuk mengidentifikasi objek yang dapat diakses secara publik. Status akses publik objek membantu Anda mengatur data penyimpanan dan mengurangi risiko eksfiltrasi data dengan memungkinkan Anda mengidentifikasi objek yang diekspos ke internet publik.

Skema metadata objek memberikan status akses publik, metrik komputasi yang membantu menyederhanakan analisis keamanan. Untuk menentukan status akses publik objek, set data Insight Penyimpanan memvalidasi semua konfigurasi berikut:

Untuk membantu Anda mengidentifikasi konfigurasi tertentu yang memberikan akses publik, set data Insight Penyimpanan menyertakan informasi saat objek dapat dibaca atau ditulis secara publik. Untuk objek yang dapat dibaca secara publik, informasi ini menunjukkan apakah izin berasal dari tingkat objek, bucket, atau folder terkelola. Untuk objek yang dapat ditulis secara publik, informasi ini memberikan detail tentang apakah akses diberikan oleh ACL objek, ACL bucket, atau kebijakan IAM.

Anda dapat mengkueri status akses publik objek menggunakan BigQuery, lalu memantau objek tersebut menggunakan dasbor Looker untuk mencantumkan semua objek yang dapat dibaca atau ditulis secara publik. Untuk mengetahui informasi selengkapnya tentang kolom status akses publik, lihat securityInsights dalam skema metadata objek.

Mengaudit konfigurasi enkripsi

Anda dapat menggunakan tampilan metadata bucket dan objek untuk mengaudit konfigurasi enkripsi. Tampilan ini mencakup informasi enkripsi di tingkat bucket dan objek, dengan kolom seperti encryption dalam metadata bucket dan encryptionType dalam metadata objek. Anda dapat menggunakan informasi ini untuk melakukan hal berikut:

  • Memverifikasi bahwa bucket memiliki enkripsi default yang dikonfigurasi dengan memeriksa encryption.defaultEncryptionType dan encryption.defaultKmsKeyName.
  • Memvalidasi kepatuhan terhadap kebijakan penerapan enkripsi dengan memeriksa encryptionType untuk melihat apakah objek menggunakan kunci enkripsi yang dikelola Google, dikelola pelanggan, atau disediakan pelanggan.
  • Mengidentifikasi semua objek yang dienkripsi dengan kunci Cloud Key Management Service tertentu atau kunci enkripsi yang disediakan pelanggan.

Memantau kebijakan retensi data

Anda dapat menggunakan tampilan metadata bucket dan objek untuk memantau kebijakan retensi data. Tampilan ini mencakup kolom seperti retentionExpirationTime dalam metadata objek dan softDeletePolicy dalam metadata bucket. Anda dapat menggunakan kolom ini untuk melakukan hal berikut:

  • Melacak objek yang mendekati masa berlaku retensi.
  • Mengidentifikasi bucket dengan penghapusan sementara yang diaktifkan dan memantau durasi retensinya.
  • Mengidentifikasi objek dalam status dihapus sementara dengan memeriksa softDeleteTime.

Mempercepat pemecahan masalah

Tampilan object_events_view berisi informasi error yang dapat membantu pemecahan masalah. Anda dapat menggunakan tampilan ini untuk memeriksa operasi yang menghasilkan error, mengidentifikasi alasan error, dan mendeteksi project dan bucket dengan rasio error yang tinggi. Misalnya, Anda dapat memecahkan masalah error 429 dengan mengidentifikasi bucket, project, dan akar penyebab yang terpengaruh, seperti kuota resource atau batas bandwidth.

Menganalisis data dan metadata objek menggunakan BigQuery

Anda dapat menganalisis data dalam set data Insight Penyimpanan menggunakan fungsi ObjectRef BigQuery. Misalnya, Anda dapat membuat kueri untuk membantu mendeteksi informasi sensitif dalam dokumen atau membuat deskripsi gambar.

Untuk menganalisis konten objek, gunakan ref kolom dari tabel metadata objek dengan ObjectRef fungsi. Untuk mengetahui detailnya, lihat Menganalisis data dan metadata objek menggunakan BigQuery.

Manfaat set data Insight Penyimpanan

Set data Insight Penyimpanan memberikan informasi metadata dan aktivitas tentang aset penyimpanan Anda dalam format yang dapat dikueri di BigQuery. Berikut adalah manfaat menggunakan set data Insight Penyimpanan:

  • Menganalisis aset penyimpanan Anda dalam cakupan yang dapat disesuaikan untuk mendapatkan insight di seluruh organisasi, atau menentukan folder, project, atau bucket untuk analisis.

  • Dengan data yang tersedia di BigQuery, gunakan kueri SQL dan bahasa natural dengan Gemini untuk menganalisis data Anda. Untuk mengetahui detailnya, lihat Menganalisis data dengan bantuan Gemini.

  • Anda dapat memvisualisasikan data dengan menghubungkan ke dasbor Looker. Anda dapat menggunakan dasbor Storage Intelligence sebagai template yang memberikan contoh insight yang dapat Anda peroleh dari set data. Anda dapat menggunakan template untuk terhubung ke set data atau menambahkan diagram kustom. Untuk mengetahui informasi tentang cara menggunakan template, lihat Petunjuk koneksi dasbor Storage Intelligence.

Cara kerja set data Insight Penyimpanan

Untuk menggunakan set data Insight Penyimpanan, pertama-tama konfigurasikan set data dalam project. Tentukan organisasi, folder, atau project yang datanya ingin Anda lacak. Setelah pembuatan, berikan izin yang diperlukan kepada agen layanan untuk membuat set data. Kemudian, Anda dapat menautkan set data ke BigQuery untuk dikueri. Setelah dikonfigurasi, layanan akan otomatis mengumpulkan dan memasukkan snapshot harian metadata objek, metadata bucket, operasi, dan error ke dalam instance BigQuery milik Cloud Storage. Data dipertahankan sesuai dengan periode retensi yang dikonfigurasi dan disimpan dengan cara yang dioptimalkan untuk meminimalkan biaya penyimpanan dan analisis.

Dalam konfigurasi set data, Anda menentukan data yang dikumpulkan, tempat data disimpan, dan cara data dikelola.

Tabel berikut menjelaskan properti utama yang harus Anda tentukan saat mengonfigurasi set data:

Properti Deskripsi Detail dan batasan
Cakupan set data Menentukan resource (organisasi, project, atau folder) yang berisi bucket dan objek yang ingin Anda sertakan dalam set data. Anda dapat menentukan project atau folder satu per satu atau menggunakan file CSV file. Setiap konfigurasi hanya mengizinkan satu cakupan set data. Anda dapat menentukan hingga 10,000 project atau folder.
Filter bucket Filter yang digunakan untuk menyertakan atau mengecualikan bucket tertentu dari set data.Anda dapat memfilter berdasarkan nama bucket menggunakan ekspresi reguler atau memfilter berdasarkan lokasi bucket.
Periode retensi untuk set data Jumlah hari set data mengambil dan menyimpan metadata serta data aktivitas, termasuk tanggal pembuatan set data. Untuk tabel data aktivitas, Anda dapat mengganti periode retensi data menggunakan properti Periode retensi untuk data aktivitas. Periode retensi ini adalah jendela bergulir dan dapat berlangsung hingga 90 hari. Set data diperbarui dengan metadata baru setiap 24 jam. Sistem akan otomatis menghapus data yang diambil di luar jendela retensi. Misalnya, jika Anda membuat set data pada 1 Oktober 2023, dengan jendela retensi yang ditetapkan ke 30 hari. Pada 30 Oktober, set data akan menampilkan data 30 hari terakhir (1 Oktober hingga 30 Oktober). Pada 31 Oktober, set data akan menampilkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah jendela retensi kapan saja. Secara default, periode retensi berlaku untuk tabel metadata dan juga untuk tabel data aktivitas jika periode retensi untuk data aktivitas tidak ditentukan.
Periode retensi untuk data aktivitas Jumlah hari set data mengambil dan menyimpan data aktivitas. Jika ditentukan, nilai ini akan mengganti Periode retensi untuk set data. Periode retensi dapat berlangsung hingga 365 days. Periode retensi untuk data aktivitas berlaku untuk tabel data aktivitas.
Location Lokasi BigQuery yang digunakan untuk menyimpan set data dan data terkait. Harus berupa lokasi yang didukung oleh BigQuery seperti us-central1. Sebaiknya pilih lokasi tabel BigQuery Anda jika Anda memiliki tabel BigQuery yang sudah ada.
Jenis agen layanan Menentukan cakupan agen layanan yang membaca dan menulis data untuk konfigurasi set data. Ini dapat berupa agen layanan cakupan konfigurasi atau agen layanan cakupan project Agen layanan cakupan project dapat mengakses dan menulis set data untuk semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam project, Anda hanya perlu memberikan izin yang diperlukan kepada agen layanan cakupan project satu kali. Hal ini memungkinkannya membaca dan menulis set data untuk semua konfigurasi set data dalam project. Jika konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.

Agen layanan **cakupan konfigurasi** hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika Anda memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan kepada setiap agen layanan cakupan konfigurasi. Jika konfigurasi set data dihapus, agen layanan cakupan konfigurasi akan dihapus.

Setelah menentukan properti konfigurasi dan memberikan izin yang diperlukan kepada agen layanan, tautkan set data ke BigQuery untuk dikueri.

Untuk mengetahui detail tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs dalam dokumentasi JSON API.

Setelah konfigurasi, layanan akan otomatis mengumpulkan dan memasukkan data ke dalam instance BigQuery milik Cloud Storage. Linimasa untuk pengisian data dalam set data adalah sebagai berikut:

  • Pemuatan set data awal dan data aktivitas untuk bucket atau objek yang baru ditambahkan mungkin memerlukan waktu 24–48 jam untuk muncul sebagai set data tertaut di BigQuery.

  • Data aktivitas biasanya disertakan dalam waktu empat jam setelah aktivitas (latensi terkadang mungkin lebih tinggi).

  • Snapshot metadata (untuk project, bucket, dan objek) diperbarui setiap 24 jam.

Pertimbangan

Pertimbangkan hal berikut untuk konfigurasi set data:

  • Saat Anda mengganti nama folder di bucket dengan namespace hierarkis yang diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat set data tertaut memasukkan snapshot objek ini, snapshot tersebut akan dianggap sebagai entri baru.

  • Checksum CRC32C dan hash MD5 tidak tersedia di tabel object metadata untuk objek yang dienkripsi dengan kunci enkripsi yang dikelola pelanggan (CMEK).

  • Set data hanya didukung di lokasi BigQuery berikut:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4
  • Batasan berikut berlaku saat menentukan status akses publik untuk objek menggunakan set data Insight Penyimpanan:

    • Status akses publik tidak tersedia untuk objek dalam folder terkelola.

    • Set data Insight Penyimpanan tidak mempertimbangkan Kontrol Layanan VPC atau pemfilteran IP konfigurasi bucket saat menentukan status akses publik objek.

Langkah berikutnya