Penyimpanan data

Penyimpanan data digunakan oleh alat penyimpanan data untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Penyimpanan data adalah kumpulan situs, dokumen, atau data dalam sistem pihak ketiga, yang masing-masing mereferensikan data Anda.

Saat pengguna akhir mengajukan pertanyaan kepada agen, agen akan menelusuri jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Di sini juga tersedia link dukungan ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.

Sumber penyimpanan data

Anda dapat menggunakan sumber yang berbeda untuk data Anda:

Sumber penyimpanan data akses terbatas

Google menawarkan banyak sumber penyimpanan data pihak pertama dan pihak ketiga tambahan sebagai fitur akses terbatas. Untuk melihat sumber yang tersedia dan meminta akses, lihat sumber penyimpanan data tambahan.

Konten situs

Saat menambahkan konten situs sebagai sumber, Anda dapat menambahkan dan mengecualikan beberapa situs. Saat menentukan situs, Anda dapat menggunakan halaman individual atau * sebagai karakter pengganti untuk pola. Semua konten HTML dan PDF akan diproses.

Anda harus memverifikasi domain Anda saat menggunakan konten situs sebagai sumber.

Batasan:

  • File dari URL publik harus telah di-crawl oleh pengindeks Google Penelusuran agar ada di indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
  • Hingga 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal pada saat itu, tetapi konten yang sudah diindeks akan tetap ada.

Mengimpor data

Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat berupa FAQ atau tidak terstruktur, dan dapat berupa data dengan metadata atau tanpa metadata.

Opsi Impor Data berikut tersedia:

  • Menambahkan/Memperbarui Data: Menambahkan dokumen yang diberikan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen yang ada, dokumen baru akan menggantikan dokumen lama.
  • Ganti Data yang Ada: Menghapus semua data yang ada dan mengupload data baru. Tindakan ini tidak dapat diurungkan.

Penyimpanan data FAQ

Penyimpanan data dapat menyimpan jawaban atas pertanyaan umum (FAQ). Jika pertanyaan pengguna cocok dengan pertanyaan yang diupload dengan tingkat keyakinan yang tinggi, agen akan menampilkan jawaban atas pertanyaan tersebut tanpa modifikasi. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan agen.

Upload data ke penyimpanan data dalam format CSV. Setiap file harus menyertakan baris header yang menjelaskan kolom.

Contoh:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Anda dapat menghilangkan kolom title dan url:

"answer","question"
"42","What is the meaning of life?"

Selama proses upload, Anda dapat memilih folder tempat setiap file diproses sebagai file CSV, terlepas dari ekstensi file.

Batasan:

  • Karakter spasi tambahan setelah , akan menyebabkan error.
  • Baris kosong (bahkan di akhir file) menyebabkan error.

Penyimpanan data tidak terstruktur

Penyimpanan data tidak terstruktur dapat berisi konten dalam format berikut:

  • HTML
  • PDF
  • TXT
  • CSV

Anda dapat mengimpor file dari bucket Cloud Storage project lain. Untuk melakukannya, berikan akses eksplisit ke proses impor. Ikuti petunjuk dalam pesan error, yang akan berisi nama pengguna yang memerlukan akses baca ke bucket untuk melakukan impor.

Batasan:

  • Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks dan 100 MB untuk format lainnya.

Penyimpanan data dengan metadata

Anda dapat memberikan judul dan URL sebagai metadata. Selama percakapan, agen dapat memberikan informasi ini untuk membantu pengguna dengan cepat menautkan ke halaman web internal yang tidak dapat diakses oleh pengindeks Google Penelusuran.

Untuk mengimpor konten dengan metadata, Anda harus menyediakan satu atau beberapa file JSON Lines. Setiap baris dalam file ini menjelaskan satu dokumen. Anda tidak mengupload dokumen secara langsung; URIs yang ditautkan ke jalur Cloud Storage disediakan dalam file JSON Lines.

Untuk menyediakan file JSON Lines, berikan folder Cloud Storage yang berisi file ini. Jangan masukkan file lain ke dalam folder ini.

Deskripsi kolom:

Kolom Jenis Deskripsi
id string ID unik dokumen.
content.mimeType string Jenis MIME dokumen. "application/pdf" dan "text/html" didukung.
content.uri string URI untuk dokumen di Cloud Storage.
structData string Objek JSON satu baris dengan kolom title dan url opsional.

Contoh:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Penyimpanan data tanpa metadata

Jenis konten ini tidak memiliki metadata. Sebagai gantinya, Anda memberikan link URI ke masing-masing dokumen. Jenis konten ditentukan oleh ekstensi file.

Konfigurasi penguraian dan pemotongan

Bergantung pada sumber data, Anda dapat mengonfigurasi setelan penguraian dan pengelompokan seperti yang ditentukan oleh Penelusuran Agen.

Menggunakan Cloud Storage untuk dokumen penyimpanan data

Jika konten Anda tidak bersifat publik, menyimpannya di Cloud Storage adalah opsi yang direkomendasikan. Saat membuat dokumen penyimpanan data, Anda memberikan URL untuk objek Cloud Storage dalam bentuk: gs://bucket-name/folder-name. Setiap dokumen dalam folder ditambahkan ke penyimpanan data.

Saat Anda membuat bucket Cloud Storage:

Ikuti mulai cepat Cloud Storage untuk membuat bucket dan mengupload file.

Bahasa

Untuk bahasa yang didukung, lihat kolom penyimpanan data di referensi bahasa.

Untuk performa terbaik, buat penyimpanan data dalam satu bahasa.

Setelah membuat penyimpanan data, Anda dapat secara opsional menentukan bahasa penyimpanan data. Jika Anda menyetel bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen yang dikonfigurasi untuk bahasa lain. Misalnya, Anda dapat membuat penyimpanan data berbahasa Prancis yang terhubung ke agen berbahasa Inggris.

Region yang didukung

Untuk mengetahui informasi tentang wilayah yang didukung, lihat referensi wilayah.

(Akses terbatas) Sumber penyimpanan data tambahan

Jenis penyimpanan data tambahan tercantum dalam tabel berikut. Fitur ini tersedia sebagai fitur akses terbatas. Anda dapat mengisi formulir permintaan akses untuk meminta akses. Setelah disetujui, Anda akan dapat melihat opsi ini saat membuat penyimpanan data di Vertex AI Agent Builder.

Sumber penyimpanan data pihak ketiga

Sumber penyimpanan data Deskripsi
Box Mengimpor data dari situs Box organisasi Anda.
Confluence Cloud Mengimpor data dari ruang kerja Confluence Cloud Anda.
Dropbox Mengimpor data dari penyimpanan Dropbox Anda.
EntraID Mengimpor data dari sistem EntraID organisasi Anda.
Jira Cloud Mengimpor data dari sistem pengelolaan tugas Jira Anda.
OneDrive Mengimpor data dari penyimpanan OneDrive organisasi Anda.
Microsoft Outlook Impor data dari Microsoft Outlook.
Salesforce Mengimpor data dari Salesforce.
ServiceNow Impor data dari ServiceNow.
SharePoint Mengimpor data dari sistem SharePoint organisasi Anda.
Slack Impor data dari Slack.
Microsoft Teams Impor data dari Microsoft Teams.

Menyiapkan penyimpanan data pihak ketiga menggunakan konektor

Bagian ini menguraikan proses penyiapan penyimpanan data menggunakan data pihak ketiga. Untuk mengetahui petunjuk khusus untuk setiap sumber data pihak ketiga, lihat dokumentasi Generative AI App Builder.

Penyedia identitas

Penyedia identitas memungkinkan Anda mengelola pengguna, grup, dan autentikasi. Saat menyiapkan penyimpanan data pihak ketiga, Anda dapat menggunakan penyedia identitas Google atau penyedia identitas pihak ketiga.

Penyedia identitas Google:

  • Pengguna agen login menggunakan kredensial Google mereka. Ini adalah alamat email @gmail.com atau akun apa pun yang menggunakan Google sebagai penyedia identitas (misalnya, Google Workspace). Langkah ini dilewati jika pengguna berbicara dengan agen menggunakan Google Cloud secara langsung, karena identitas Google otomatis disertakan dalam sistem.
  • Anda dapat memberikan akses ke akun Google menggunakan Identity and Access Management (IAM).

Penyedia identitas pihak ketiga:

  • Pengguna agen login menggunakan kredensial non-Google, misalnya alamat email Microsoft.
  • Anda harus membuat Workforce Pool menggunakan Google Cloud yang berisi penyedia identitas non-Google. Kemudian, Anda dapat menggunakan IAM untuk memberikan akses ke seluruh kumpulan atau pengguna individual dalam kumpulan tersebut.
  • Metode ini tidak dapat digunakan dengan project Google Cloud apa pun yang disiapkan di organisasi @google.com.

Konektor

Penyimpanan data pihak ketiga diimplementasikan menggunakan konektor. Setiap konektor dapat berisi beberapa penyimpanan data, yang disimpan sebagai entity dalam sistem Dialogflow CX.

  • Sebelum membuat penyimpanan data, Anda harus menyiapkan setiap region dengan satu penyedia identitas di Google Cloud > Agent Builder > Settings. Semua penyimpanan data di region tersebut menggunakan penyedia identitas yang sama. Anda dapat memilih identitas Google atau identitas pihak ketiga di kumpulan tenaga kerja. Kredensial Google yang sama dianggap sebagai identitas yang berbeda jika berada di kumpulan tenaga kerja. Misalnya, test@gmail.com dianggap sebagai identitas yang berbeda dengan workforcePools/test-pool/subject/test@gmail.com.
    • Buat workforce pool (jika diperlukan).
    • Buka Agent Builder Settings, lalu pilih Google Identity atau 3rd Party Identity. Klik Simpan untuk menyimpan identitas ke wilayah.
    • Sekarang Anda dapat membuat penyimpanan data di region tersebut.
  • Setiap penyimpanan data menyimpan data Daftar Kontrol Akses (ACL) dengan setiap dokumen. Catatan ini melacak pengguna atau grup mana yang memiliki akses baca ke entitas mana. Selama runtime, anggota pengguna atau grup menerima respons dari agen hanya jika respons berasal dari entitas yang memiliki akses baca. Jika pengguna tidak memiliki akses baca ke entitas apa pun di penyimpanan data, agen akan menampilkan respons kosong.
  • Karena data di penyimpanan data adalah salinan instance pihak ketiga, data tersebut perlu diperbarui secara berkala. Anda dapat mengonfigurasi interval refresh pada skala waktu per jam atau per hari.
  • Setelah Anda mengonfigurasi penyimpanan data dan mengklik Buat, diperlukan waktu hingga satu jam agar penyimpanan data muncul di daftar penyimpanan data Anda.

Pelacakan penyimpanan data

Fitur ini mencakup dua bagian:

  1. Menampilkan rekaman aktivitas eksekusi internal penyimpanan data dan latensi langkah di simulator agen.
  2. Mengekspor rekaman aktivitas eksekusi internal dan latensi langkah penyimpanan data ke Cloud Logging dan BigQuery.

Melihat data di simulator

Untuk menampilkan data tracing dan eksekusi di simulator agen, luaskan detail tentang giliran percakapan dengan mengklik panah peluas di sebelah kanan respons agen.

Tab eksekusi menampilkan rekaman aktivitas eksekusi penyimpanan data internal, termasuk:

  • Input pengguna asli.
  • Kueri yang ditulis ulang oleh mesin penyimpanan data.
  • Sinyal kualitas dari langkah-langkah eksekusi, seperti status pemeriksaan keamanan, status pemeriksaan stabilitas, hasil pemeriksaan perujukan, dan status pemeriksaan keamanan.
  • Cuplikan penelusuran dari penelusuran penyimpanan data.
  • Daftar dokumen pendukung untuk cuplikan.

Tab latensi menampilkan grafik waktu untuk berbagai langkah eksekusi penyimpanan data. Daftar langkah bervariasi bergantung pada cara penyimpanan data dikonfigurasi dan alur eksekusi. Data yang ditampilkan dapat mencakup hal berikut:

  • Pencocokan FAQ: Melakukan langkah pencocokan FAQ.
  • Penulisan ulang kueri: Menulis ulang kueri pengguna asli.
  • Penelusuran: Melakukan penelusuran cuplikan.
  • Peringkasan (Summarization): Meringkas respons.
  • Pemeriksaan keamanan: Melakukan langkah-langkah pemeriksaan keamanan.

Melihat data rekaman aktivitas di lokasi lain

  • Jika mengonfigurasi agen percakapan dengan logging histori percakapan, Anda dapat melihat penelusuran penyimpanan data di Histori Percakapan.
  • Jika mengonfigurasi agen percakapan dengan Logging, Anda dapat melihat rekaman aktivitas dan latensi di Logs Explorer cloud.
  • Jika mengonfigurasi agen percakapan dengan BigQuery Export, Anda dapat melihat rekaman aktivitas dan latensi dalam tabel BigQuery yang diekspor.

Langkah berikutnya

Untuk mempelajari cara membuat dan menggunakan penyimpanan data dengan agen, lihat dokumentasi alat penyimpanan data.