Set data Storage Insights

Dokumen ini menjelaskan cara set data Insight Penyimpanan membantu Anda mengelola lingkungan Cloud Storage dengan memberikan visibilitas dan insight ke dalam data Anda.

Set data Storage Insights membuat indeks metadata dan aktivitas yang dapat dikueri untuk bucket dan objek Cloud Storage Anda di seluruh organisasi, folder, project, atau bucket tertentu. Untuk membuat kueri indeks metadata dan aktivitas, Anda harus menautkan set data ke BigQuery. Kemudian, Anda dapat menggunakan set data BigQuery yang ditautkan untuk menganalisis, mengkueri, dan memvisualisasikan data. Tautkan set data ke BigQuery untuk mengaktifkan kueri indeks metadata dan aktivitas.

Set data Storage Insights adalah fitur eksklusif yang tersedia dengan langganan Storage Intelligence. Google Cloud menawarkan uji coba pengantar selama 30 hari untuk Storage Intelligence. Anda dapat mengaktifkan uji coba untuk mendapatkan insight tentang penggunaan Cloud Storage dan mengambil tindakan. Untuk mengetahui informasi selengkapnya tentang uji coba, lihat Uji coba pengantar 30 hari untuk Storage Intelligence.

Ringkasan

Set data Storage Insights memberikan snapshot bergulir metadata, data aktivitas, error, dan peristiwa untuk semua project, bucket, dan objek dalam cakupan yang ditentukan. Dengan terus mengumpulkan dan mengindeks informasi, set data menciptakan tampilan komprehensif yang membantu Anda memahami status data, memantau resource Cloud Storage, dan mendapatkan insight untuk mengelola dan mengoptimalkan aset penyimpanan Anda.

Set data tersedia sebagai set data tertaut BigQuery, dengan sekumpulan tabel yang memiliki skema berikut:

  • Metadata: snapshot metadata untuk project, bucket, dan objek. Untuk mengetahui detail tentang skema metadata, lihat Skema set data metadata.

  • Data aktivitas: catatan mutasi dan error untuk objek dan insight aktivitas gabungan untuk bucket dan project Anda. Untuk mengetahui detail tentang skema data aktivitas, lihat Skema set data data aktivitas.

  • Error dan peristiwa: informasi tentang peristiwa dan error pemrosesan snapshot. Untuk mengetahui detail tentang skema error dan peristiwa, lihat Skema set data peristiwa dan error.

Kasus penggunaan untuk set data Storage Insights

Set data Storage Insights memberikan tampilan untuk mendapatkan insight terperinci dan di seluruh organisasi tentang data Anda. Bagian berikut menjelaskan kasus penggunaan untuk set data.

Memahami aset penyimpanan Anda

Anda bisa mendapatkan insight tentang data Anda dengan melihat metadata project, bucket, dan objek. Tampilan metadata membantu Anda melakukan tugas berikut:

  • Mendeteksi anomali, seperti data di region yang tidak terduga.
  • Mengidentifikasi peluang pengoptimalan, seperti menemukan file sementara atau duplikat.
  • Kueri untuk mendapatkan insight tertentu, seperti objek yang dibuat dalam 24 jam terakhir atau jumlah total file PDF.
  • Lihat objek yang ingin Anda tindak lanjuti dengan mengekstrak daftar awalan dari sekumpulan objek berdasarkan hasil kueri. Untuk mempelajari cara melakukan operasi pada miliaran objek secara serverless, lihat operasi batch penyimpanan.

Menganalisis pola aktivitas

Dengan menggunakan tampilan aktivitas bucket, tampilan aktivitas project, dan tampilan peristiwa objek, Anda dapat melakukan hal berikut:

  • Menganalisis pola operasional dan mengidentifikasi bucket yang tidak aktif.

  • Pantau operasi pada objek Anda untuk melihat perubahan kondisi penyimpanan Anda dari waktu ke waktu.

  • Petakan project, bucket, dan awalan yang paling aktif.

Memahami aktivitas bucket regional

Tampilan aktivitas regional bucket menampilkan kolom seperti byte permintaan dan respons, yang membantu Anda melihat region yang sering berinteraksi dengan bucket Anda. Menganalisis aktivitas bucket regional untuk menentukan apakah pemindahan bucket diperlukan:

  • Lihat total keluar dan masuk untuk bucket di suatu region guna mengidentifikasi bucket yang mungkin lebih cocok untuk kelas regional, bukan multi-region.

  • Menilai total traffic data di dalam dan di seluruh region.

Menilai status keamanan

Anda dapat menggunakan metadata bucket dan objek untuk mengidentifikasi objek yang terekspos secara publik, jenis enkripsi aktif, dan jadwal waktu habis masa berlaku untuk retensi data. Bagian berikut menjelaskan cara dataset Storage Insights membantu Anda menilai potensi kerentanan keamanan.

Mengidentifikasi objek yang dapat diakses secara publik

Anda dapat menggunakan set data Storage Insights untuk mengidentifikasi objek yang dapat diakses secara publik. Status akses publik objek Anda membantu Anda mengelola data penyimpanan dan memitigasi risiko pemindahan data yang tidak sah dengan memungkinkan Anda mengidentifikasi objek yang terekspos ke internet publik.

Skema metadata objek memberikan status akses publik, metrik terkomputasi yang membantu menyederhanakan analisis keamanan. Untuk menentukan status akses publik suatu objek, set data Storage Insights memvalidasi semua konfigurasi berikut:

Untuk membantu Anda mengidentifikasi konfigurasi tertentu yang memberikan akses publik, set data Storage Insights menyertakan informasi saat objek dapat dibaca atau ditulis oleh publik. Untuk objek yang dapat dibaca oleh publik, informasi ini menunjukkan apakah izin berasal dari tingkat objek, bucket, atau folder terkelola. Untuk objek yang dapat ditulis secara publik, perintah ini memberikan detail tentang apakah akses diberikan oleh ACL objek, ACL bucket, atau kebijakan IAM.

Anda dapat membuat kueri status akses publik objek menggunakan BigQuery, lalu memantau objek tersebut menggunakan dasbor Looker untuk mencantumkan semua objek yang dapat dibaca atau ditulis secara publik. Untuk mengetahui informasi selengkapnya tentang kolom status akses publik, lihat securityInsights dalam skema metadata objek.

Mengaudit konfigurasi enkripsi

Anda dapat menggunakan tampilan metadata bucket dan objek untuk mengaudit konfigurasi enkripsi. Tampilan ini mencakup informasi enkripsi di tingkat bucket dan objek, dengan kolom seperti encryption dalam metadata bucket dan encryptionType dalam metadata objek. Anda dapat menggunakan informasi ini untuk melakukan hal berikut:

  • Pastikan bucket telah dikonfigurasi dengan enkripsi default dengan memeriksa encryption.defaultEncryptionType dan encryption.defaultKmsKeyName.
  • Validasi kepatuhan terhadap kebijakan penerapan enkripsi dengan memeriksa encryptionType untuk melihat apakah objek menggunakan kunci enkripsi yang dikelola Google, dikelola pelanggan, atau disediakan pelanggan.
  • Identifikasi semua objek yang dienkripsi dengan kunci Cloud Key Management Service tertentu atau kunci enkripsi yang disediakan pelanggan.

Memantau kebijakan retensi data

Anda dapat menggunakan tampilan metadata bucket dan objek untuk memantau kebijakan retensi data. Tampilan ini mencakup kolom seperti retentionExpirationTime dalam metadata objek dan softDeletePolicy dalam metadata bucket. Anda dapat menggunakan kolom ini untuk melakukan hal berikut:

  • Melacak objek yang mendekati masa berlaku retensinya.
  • Identifikasi bucket yang mengaktifkan penghapusan sementara dan pantau durasi retensinya.
  • Identifikasi objek dalam status dihapus sementara dengan memeriksa softDeleteTime.

Mempercepat pemecahan masalah

Tampilan object_events_view berisi informasi error yang dapat membantu pemecahan masalah. Anda dapat menggunakan tampilan ini untuk memeriksa operasi yang menyebabkan error, mengidentifikasi alasan error, serta mendeteksi project dan bucket dengan rasio error yang tinggi. Misalnya, Anda dapat memecahkan masalah error 429 dengan mengidentifikasi bucket, project, dan penyebab utamanya yang terpengaruh, seperti kuota resource atau batas bandwidth.

Menganalisis data dan metadata objek menggunakan BigQuery

Anda dapat menganalisis data di set data Storage Insights menggunakan fungsi ObjectRef BigQuery. Misalnya, Anda dapat membuat kueri untuk membantu mendeteksi informasi sensitif dalam dokumen atau untuk membuat deskripsi gambar.

Untuk menganalisis konten objek, gunakan kolom ref dari tabel metadata objek dengan fungsi ObjectRef. Untuk mengetahui detailnya, lihat Menganalisis data dan metadata objek menggunakan BigQuery.

Manfaat set data Storage Insights

Dataset Storage Insights memberikan informasi metadata dan aktivitas tentang aset penyimpanan Anda dalam format yang dapat dikueri di BigQuery. Berikut adalah manfaat menggunakan set data Storage Insights:

  • Analisis aset penyimpanan Anda dalam cakupan yang dapat disesuaikan untuk mendapatkan insight di seluruh organisasi, atau tentukan folder, project, atau bucket untuk dianalisis.

  • Dengan data yang tersedia di BigQuery, gunakan kueri SQL dan bahasa alami dengan Gemini untuk menganalisis data Anda. Untuk mengetahui detailnya, lihat Menganalisis data dengan bantuan Gemini.

  • Anda dapat memvisualisasikan data dengan terhubung ke dasbor Looker. Anda dapat menggunakan dasbor Storage Intelligence sebagai template yang memberikan contoh insight yang dapat Anda peroleh dari set data. Anda dapat menggunakan template untuk terhubung ke set data atau menambahkan diagram kustom. Untuk informasi tentang cara menggunakan template, lihat Petunjuk koneksi dasbor Storage Intelligence.

Cara kerja set data Storage Insights

Untuk menggunakan set data Storage Insights, konfigurasikan set data terlebih dahulu dalam project. Tentukan organisasi, folder, atau project yang datanya ingin Anda lacak. Setelah pembuatan, berikan izin yang diperlukan kepada agen layanan untuk membuat set data. Selanjutnya, Anda dapat menghubungkan set data ke BigQuery untuk membuat kueri. Setelah dikonfigurasi, layanan ini akan otomatis mengumpulkan dan menyerap snapshot harian metadata objek, metadata bucket, operasi, dan error ke dalam instance BigQuery milik Cloud Storage. Data dipertahankan sesuai dengan periode retensi yang dikonfigurasi dan disimpan dengan cara yang dioptimalkan untuk meminimalkan biaya penyimpanan dan analisis.

Dalam konfigurasi set data, Anda menentukan data yang dikumpulkan, tempat data tersebut disimpan, dan cara pengelolaannya.

Tabel berikut menjelaskan properti utama yang harus Anda tentukan saat mengonfigurasi set data:

Properti Deskripsi Detail dan batas
Cakupan set data Menentukan resource (organisasi, project, atau folder) yang berisi bucket dan objek yang ingin Anda sertakan dalam set data. Anda dapat menentukan project atau folder satu per satu atau menggunakan file CSV. Setiap konfigurasi hanya mengizinkan satu cakupan set data. Anda dapat menentukan hingga 10,000 project atau folder.
Filter bucket Filter yang digunakan untuk menyertakan atau mengecualikan bucket tertentu dari set data.Anda dapat memfilter menurut nama bucket menggunakan ekspresi reguler atau memfilter menurut lokasi bucket.
Periode retensi untuk set data Jumlah hari set data merekam dan mempertahankan metadata dan data aktivitas, termasuk tanggal pembuatan set data. Untuk tabel data aktivitas, Anda dapat mengganti periode retensi data dengan menggunakan properti Periode retensi untuk data aktivitas. Periode retensi ini adalah periode berkelanjutan dan dapat berlangsung hingga 90 hari. Kumpulan data diperbarui dengan metadata baru setiap 24 jam. Sistem akan otomatis menghapus data yang direkam di luar periode retensi. Misalnya, jika Anda membuat set data pada 1 Oktober 2023, dengan periode retensi yang ditetapkan ke 30 hari. Pada 30 Oktober, set data mencerminkan data 30 hari sebelumnya (1 Oktober hingga 30 Oktober). Pada 31 Oktober, set data mencerminkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah periode retensi kapan saja. Secara default, periode retensi berlaku untuk tabel metadata dan juga untuk tabel data aktivitas jika periode retensi untuk data aktivitas tidak ditentukan.
Periode retensi untuk data aktivitas Jumlah hari saat set data merekam dan menyimpan data aktivitas. Jika ditentukan, nilai ini akan menggantikan Periode retensi untuk set data. Periode retensi dapat mencapai 365 days. Periode retensi data aktivitas berlaku untuk tabel data aktivitas.
Location Lokasi BigQuery yang digunakan untuk menyimpan set data dan data terkaitnya. Harus berupa lokasi yang didukung oleh BigQuery seperti us-central1. Sebaiknya pilih lokasi tabel BigQuery jika Anda memiliki tabel BigQuery yang sudah ada.
Jenis agen layanan Menentukan cakupan agen layanan yang membaca dan menulis data untuk konfigurasi set data. Ini dapat berupa agen layanan cakupan konfigurasi atau agen layanan cakupan project Agen layanan cakupan project dapat mengakses dan menulis set data untuk semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam sebuah project, Anda hanya perlu memberikan izin yang diperlukan kepada agen layanan yang tercakup dalam project satu kali. Hal ini memungkinkannya membaca dan menulis set data untuk semua konfigurasi set data dalam project. Jika konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.

Agen layanan cakupan konfigurasi hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika Anda memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan kepada setiap agen layanan yang tercakup dalam konfigurasi. Jika konfigurasi set data dihapus, agen layanan cakupan konfigurasi akan dihapus.

Setelah menentukan properti konfigurasi dan memberikan izin yang diperlukan kepada agen layanan, tautkan set data ke BigQuery untuk melakukan kueri.

Untuk mengetahui detail tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs dalam dokumentasi JSON API.

Setelah konfigurasi, layanan akan otomatis mengumpulkan dan menyerap data ke dalam instance BigQuery milik Cloud Storage. Linimasa untuk pengisian data dalam set data adalah sebagai berikut:

  • Pemuatan set data awal dan data aktivitas untuk bucket atau objek yang baru ditambahkan mungkin memerlukan waktu 24–48 jam untuk muncul sebagai set data tertaut di BigQuery.

  • Data aktivitas biasanya disertakan dalam waktu empat jam setelah aktivitas (latensi terkadang lebih tinggi).

  • Snapshot metadata (untuk project, bucket, dan objek) diperbarui setiap 24 jam.

Pertimbangan

Pertimbangkan hal berikut untuk konfigurasi set data:

  • Saat Anda mengganti nama folder di bucket dengan namespace hierarkis diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat set data tertaut mencerna snapshot objek ini, snapshot tersebut dianggap sebagai entri baru.

  • Checksum CRC32C dan hash MD5 tidak tersedia di tabel object metadata untuk objek yang dienkripsi dengan kunci enkripsi yang dikelola pelanggan (CMEK).

  • Set data hanya didukung di lokasi BigQuery berikut:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4
  • Batasan berikut berlaku saat menentukan status akses publik untuk objek menggunakan set data Storage Insights:

    • Status akses publik tidak tersedia untuk objek dalam folder terkelola.

    • Dataset Storage Insights tidak mempertimbangkan konfigurasi Kontrol Layanan VPC atau pemfilteran IP bucket saat menentukan status akses publik suatu objek.

Langkah berikutnya