Keamanan (Responsible AI)

Model AI generatif seperti Gemini memerlukan langkah-langkah keamanan yang kuat untuk mengurangi risiko seperti pembuatan konten berbahaya, kebocoran informasi sensitif, atau penyalahgunaan. Gemini Enterprise Agent Platform menyediakan serangkaian alat dan praktik untuk menerapkan keamanan holistik bagi model Gemini Anda.

Potensi risiko keamanan dan strategi mitigasi

Saat men-deploy model Gemini, penting untuk mengidentifikasi dan mengurangi berbagai potensi risiko. Pendekatan proaktif untuk memahami risiko ini memungkinkan penerapan langkah-langkah keamanan yang lebih efektif. Pendekatan berlapis pada keamanan sangat penting karena dapat mengurangi atau mencegah:

  • Risiko konten: Risiko ini dapat mencakup konten yang berbahaya, kata-kata tidak sopan dan seksualisasi, serta konten kekerasan dan menyeramkan.
  • Risiko keamanan merek: Konten yang dihasilkan mungkin tidak sesuai dengan nada atau nilai merek Anda, mungkin mendukung pesaing atau produk yang tidak pantas, atau menghasilkan konten yang dapat mengakibatkan kerusakan reputasi.
  • Risiko keselarasan: Konten yang dihasilkan mungkin tidak relevan atau tidak akurat.
  • Risiko keamanan dan privasi: Konten yang dihasilkan mungkin membocorkan data atau perintah pelatihan sensitif, atau pengguna yang berniat jahat dapat mencoba memaksa model untuk mengganti protokol keamanan atau berperilaku dengan cara yang tidak diinginkan.

Model yang kami deploy menawarkan berbagai fitur untuk mengatasi potensi masalah ini:

  • Model default dan filter yang tidak dapat dikonfigurasi menyediakan jaring pengaman umum.
  • Petunjuk sistem memberikan panduan langsung kepada model tentang perilaku dan topik yang diinginkan untuk dihindari.
  • Filter konten memungkinkan Anda menetapkan nilai minimum tertentu untuk jenis bahaya umum.
  • Gemini sebagai filter menawarkan pos pemeriksaan lanjutan yang dapat disesuaikan untuk masalah keamanan yang kompleks atau bernuansa yang mungkin terlewatkan oleh lapisan sebelumnya atau memerlukan evaluasi yang lebih sadar konteks.
  • DLP secara khusus menangani risiko kritis kebocoran data sensitif, jika model memiliki akses ke data sensitif. DLP juga memungkinkan kemampuan untuk membuat daftar blokir kustom.
  • Kredensial Konten menambahkan metadata C2PA yang ditandatangani secara kriptografis ke gambar yang dihasilkan menggunakan model Gemini 3 Pro Image, yang menunjukkan bahwa gambar tersebut dibuat oleh AI dan memberikan histori asal yang dapat diverifikasi.

Alat keamanan yang tersedia di Agent Platform untuk Gemini

Agent Platform menawarkan beberapa alat untuk mengelola keamanan model Gemini Anda. Memahami cara kerja setiap alat, pertimbangannya, dan kasus penggunaan yang ideal akan membantu Anda membangun solusi keamanan yang disesuaikan.

Pendekatan Cara kerjanya Perlindungan yang diberikan Risiko Kapan digunakan
Setelan default: Gemini + filter yang tidak dapat dikonfigurasi Model Gemini pada dasarnya dirancang dengan mempertimbangkan keamanan dan keadilan, bahkan saat menghadapi perintah yang berniat jahat. Google telah berinvestasi dalam evaluasi keamanan yang komprehensif termasuk untuk bias dan toksisitas. Setelan default mencakup lapisan perlindungan independen yang dirancang untuk mencegah pembuatan konten yang terkait dengan Materi Pelecehan Seksual terhadap Anak-Anak (CSAM) atau Konten yang Dilindungi Hak Cipta (Pembacaan). Perlindungan dasar terhadap Materi pelecehan seksual terhadap anak-anak dan hak cipta (Pembacaan) Keamanan default Gemini mungkin tidak memenuhi kebutuhan organisasi Anda. Model dapat berhalusinasi atau tidak mengikuti petunjuk. Penyerang yang termotivasi mungkin masih berhasil melakukan jailbreak dan injeksi perintah Alur kerja yang tidak mengharapkan input berbahaya
Filter yang Dapat Dikonfigurasi Filter konten bawaan Gemini memberikan perlindungan tambahan terhadap berbagai kategori konten berbahaya, seperti konten seksual, kebencian, pelecehan, atau berbahaya. Anda dapat mengonfigurasi nilai minimum pemblokiran untuk setiap kategori bahaya (misalnya, BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) berdasarkan probabilitas dan/atau tingkat keparahan konten berbahaya. Filter ini merupakan lapisan independen dari model sehingga kuat terhadap jailbreak. Kuat terhadap pelanggaran untuk kategori yang telah ditentukan, sensitivitas yang dapat disesuaikan Tidak memiliki penyesuaian mendetail di luar setelan nilai minimum untuk kategori yang telah ditentukan. Mungkin sesekali memblokir konten yang tidak berbahaya (positif palsu) atau melewatkan beberapa konten berbahaya konten (negatif palsu). Hanya tersedia untuk pemfilteran respons, bukan pemfilteran perintah. Memberikan tingkat keamanan dasar untuk aplikasi atau agen yang digunakan pengguna. Jika tujuan Anda adalah memastikan keamanan konten dan merek, filter konten harus dipasangkan dengan petunjuk sistem.
Petunjuk Sistem Anda dapat menginstruksikan model tentang pedoman keamanan merek dan konten Anda melalui petunjuk sistem atau pembukaan. Misalnya, Anda dapat memberi tahu model "jangan menjawab pertanyaan terkait politik" atau untuk mematuhi pedoman suara dan nada merek tertentu. Petunjuk sistem secara langsung memandu perilaku model. Dapat disesuaikan untuk keamanan konten/merek, dapat sangat efektif. Model dapat berhalusinasi atau tidak mengikuti petunjuk. Penyerang yang termotivasi mungkin masih berhasil melakukan jailbreak dan injeksi perintah Aplikasi atau agen yang memerlukan kepatuhan terhadap pedoman merek tertentu atau kebijakan konten yang bernuansa Jika tujuan Anda adalah memastikan keamanan konten dan merek, petunjuk sistem harus dipasangkan dengan filter konten.
DLP untuk daftar blokir kustom dan Perlindungan data sensitif DLP API dapat memeriksa teks untuk mengidentifikasi dan mengklasifikasikan informasi sensitif berdasarkan berbagai detektor infoType kustom dan yang telah ditentukan. Setelah diidentifikasi, DLP API dapat menerapkan teknik de-identifikasi seperti penyamaran, masking, atau tokenisasi. DLP API juga dapat digunakan untuk memblokir kata kunci. Perlindungan Input: Sebelum mengirim perintah atau data pengguna ke Gemini, Anda dapat meneruskan teks melalui DLP API untuk menyamarkan atau menyembunyikan informasi sensitif. Hal ini mencegah data sensitif diproses atau dicatat oleh model. Perlindungan Output: Jika ada risiko bahwa Gemini mungkin secara tidak sengaja membuat atau mengungkapkan informasi sensitif (misalnya, jika Gemini meringkas dokumen sumber yang berisi PII), output model dapat dipindai oleh DLP API sebelum dikirim ke pengguna. Pemfilteran yang kuat untuk kata-kata kotor atau kata-kata kustom. Pemfilteran yang kuat untuk data sensitif data. Menambahkan latensi. Dapat menyebabkan pemblokiran berlebihan. Perlindungan kebocoran data untuk agen yang memiliki akses ke data sensitif.
Gemini sebagai Filter Anda dapat menggunakan Gemini untuk memfilter perintah dan respons untuk agen atau aplikasi Anda. Hal ini melibatkan pembuatan panggilan kedua ke model Gemini yang cepat dan hemat biaya (seperti Gemini Flash atau Flash Lite) untuk mengevaluasi apakah input dari pengguna atau alat, atau output dari model Gemini utama Anda, aman. Model filter diberi petunjuk untuk memutuskan apakah konten aman atau tidak aman berdasarkan kebijakan yang Anda tentukan, termasuk keamanan konten, keamanan merek, dan ketidakselarasan agen. Hal ini menawarkan perlindungan yang kuat dan sangat dapat disesuaikan terhadap pelanggaran keamanan konten, masalah keamanan merek, penyimpangan model, dan halusinasi dan dapat menganalisis teks, gambar, video, dan audio untuk pemahaman holistik. Sangat kuat dan dapat disesuaikan untuk keamanan konten/merek, penyimpangan, halusinasi; pemahaman multimodal. Biaya dan latensi tambahan. Peluang negatif palsu yang sangat jarang terjadi. Memberikan tingkat keamanan kustom untuk aplikasi atau agen yang digunakan pengguna
Pendekatan gabungan: filter yang dapat dikonfigurasi + petunjuk sistem + DLP + Gemini sebagai filter Sangat kuat dan dapat disesuaikan untuk keamanan konten/merek, penyimpangan, halusinasi; pemahaman multimodal Biaya dan latensi tambahan. Memberikan tingkat keamanan yang kuat untuk aplikasi atau agen yang digunakan pengguna, terutama jika penggunaan yang berniat jahat dan berbahaya diperkirakan terjadi
Kredensial Konten C2PA Untuk model yang didukung, Gemini Enterprise Agent Platform secara otomatis menambahkan Kredensial Konten yang ditandatangani secara kriptografis ke gambar yang dihasilkan, yang menunjukkan bahwa gambar tersebut dibuat oleh AI dan memberikan histori asal yang dapat diverifikasi sesuai dengan standar C2PA. Untuk mengetahui informasi selengkapnya, lihat Kredensial Konten. Transparansi tentang asal konten; membantu pengguna mengidentifikasi gambar buatan AI. Penggunaan alat yang tidak sesuai dapat membahayakan keaslian file; tidak menjamin kepercayaan sumber media. Kasus penggunaan pembuatan media, yang transparansi tentang asal dan histori file penting untuk kepercayaan pengguna.

Evaluasi keamanan berkelanjutan

Evaluasi keamanan berkelanjutan sangat penting untuk sistem AI. Lanskap AI dan metode penyalahgunaan terus berkembang, sehingga evaluasi ini sangat penting.

Evaluasi rutin memberikan beberapa manfaat utama. Evaluasi ini membantu Anda mengidentifikasi kerentanan, menilai efektivitas mitigasi, beradaptasi dengan risiko yang terus berkembang, memastikan keselarasan dengan kebijakan dan nilai, membangun kepercayaan, dan mempertahankan kepatuhan.

Untuk mendapatkan manfaat ini, Anda dapat melakukan berbagai jenis evaluasi:

  • Evaluasi pengembangan
  • Evaluasi jaminan
  • Red teaming
  • Evaluasi eksternal
  • Pengujian benchmark

Cakupan evaluasi Anda harus mencakup beberapa area penting:

  • Keamanan konten
  • Keamanan merek
  • Relevansi
  • Bias dan keadilan
  • Kebenaran
  • Ketahanan terhadap serangan adversarial

Alat seperti layanan evaluasi AI generatif Agent Platform dapat membantu upaya ini. Ingatlah bahwa peningkatan berulang, berdasarkan temuan evaluasi, sangat penting untuk pengembangan AI yang bertanggung jawab.

Langkah berikutnya

Ringkasan

Dapatkan ringkasan tentang cara administrator keamanan dapat menentukan, menerapkan, dan mengelola kebijakan yang mengatur interaksi agen.

Panduan

Pelajari kontrol keamanan untuk Google Agent Platform.

Panduan

Membuat dan men-deploy agen dasar serta menggunakan layanan evaluasi AI generatif untuk mengevaluasi agen