Penyimpanan data digunakan oleh alat penyimpanan data untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Penyimpanan data adalah kumpulan situs, dokumen, atau data dalam sistem pihak ketiga, yang masing-masing mereferensikan data Anda.
Saat pengguna akhir mengajukan pertanyaan kepada agen, agen akan menelusuri jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Di sini juga tersedia link dukungan ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.
Sumber penyimpanan data
Anda dapat menggunakan sumber yang berbeda untuk data Anda:
- URL situs: Otomatis meng-crawl konten situs dari daftar domain atau halaman web.
- BigQuery: Mengimpor data dari tabel BigQuery Anda.
- Cloud Storage: Impor data dari bucket Cloud Storage Anda.
- AlloyDB: Impor data dari cluster AlloyDB untuk PostgreSQL Anda.
- Bigtable: Mengimpor data dari tabel Bigtable.
- Firestore: Impor data dari koleksi Firestore Anda.
- Cloud SQL: Impor data dari tabel Cloud SQL.
- Spanner: Mengimpor data dari tabel Spanner.
Sumber penyimpanan data akses terbatas
Google menawarkan banyak sumber penyimpanan data pihak pertama dan pihak ketiga tambahan sebagai fitur akses terbatas. Untuk melihat sumber yang tersedia dan meminta akses, lihat sumber penyimpanan data tambahan.
Konten situs
Saat menambahkan konten situs sebagai sumber, Anda dapat menambahkan dan mengecualikan beberapa situs.
Saat menentukan situs, Anda dapat menggunakan halaman individual atau * sebagai karakter pengganti untuk pola. Semua konten HTML dan PDF akan diproses.
Anda harus memverifikasi domain Anda saat menggunakan konten situs sebagai sumber.
Batasan:
- File dari URL publik harus telah di-crawl oleh pengindeks Google Penelusuran agar ada di indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
- Hingga 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal pada saat itu, tetapi konten yang sudah diindeks akan tetap ada.
Mengimpor data
Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat berupa FAQ atau tidak terstruktur, dan dapat berupa data dengan metadata atau tanpa metadata.
Opsi Impor Data berikut tersedia:
- Menambahkan/Memperbarui Data: Menambahkan dokumen yang diberikan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen yang ada, dokumen baru akan menggantikan dokumen lama.
- Ganti Data yang Ada: Menghapus semua data yang ada dan mengupload data baru. Tindakan ini tidak dapat diurungkan.
Penyimpanan data FAQ
Penyimpanan data dapat menyimpan jawaban atas pertanyaan umum (FAQ). Jika pertanyaan pengguna cocok dengan pertanyaan yang diupload dengan tingkat keyakinan yang tinggi, agen akan menampilkan jawaban atas pertanyaan tersebut tanpa modifikasi. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan agen.
Upload data ke penyimpanan data dalam format CSV. Setiap file harus menyertakan baris header yang menjelaskan kolom.
Contoh:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Anda dapat menghilangkan kolom title dan url:
"answer","question"
"42","What is the meaning of life?"
Selama proses upload, Anda dapat memilih folder tempat setiap file diproses sebagai file CSV, terlepas dari ekstensi file.
Batasan:
- Karakter spasi tambahan setelah
,akan menyebabkan error. - Baris kosong (bahkan di akhir file) menyebabkan error.
Penyimpanan data tidak terstruktur
Penyimpanan data tidak terstruktur dapat berisi konten dalam format berikut:
HTMLPDFTXTCSV
Anda dapat mengimpor file dari bucket Cloud Storage project lain. Untuk melakukannya, berikan akses eksplisit ke proses impor. Ikuti petunjuk dalam pesan error, yang akan berisi nama pengguna yang memerlukan akses baca ke bucket untuk melakukan impor.
Batasan:
- Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks dan 100 MB untuk format lainnya.
Penyimpanan data dengan metadata
Anda dapat memberikan judul dan URL sebagai metadata. Selama percakapan, agen dapat memberikan informasi ini untuk membantu pengguna dengan cepat menautkan ke halaman web internal yang tidak dapat diakses oleh pengindeks Google Penelusuran.
Untuk mengimpor konten dengan metadata, Anda harus menyediakan satu atau beberapa file JSON Lines. Setiap baris dalam file ini menjelaskan satu dokumen. Anda tidak mengupload dokumen secara langsung; URIs yang ditautkan ke jalur Cloud Storage disediakan dalam file JSON Lines.
Untuk menyediakan file JSON Lines, berikan folder Cloud Storage yang berisi file ini. Jangan masukkan file lain ke dalam folder ini.
Deskripsi kolom:
| Kolom | Jenis | Deskripsi |
|---|---|---|
| id | string | ID unik dokumen. |
| content.mimeType | string | Jenis MIME dokumen. "application/pdf" dan "text/html" didukung. |
| content.uri | string | URI untuk dokumen di Cloud Storage. |
| structData | string | Objek JSON satu baris dengan kolom title dan url opsional. |
Contoh:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Penyimpanan data tanpa metadata
Jenis konten ini tidak memiliki metadata. Sebagai gantinya, Anda memberikan link URI ke masing-masing dokumen. Jenis konten ditentukan oleh ekstensi file.
Konfigurasi penguraian dan pemotongan
Bergantung pada sumber data, Anda dapat mengonfigurasi setelan penguraian dan pengelompokan seperti yang ditentukan oleh Penelusuran Agen.
Menggunakan Cloud Storage untuk dokumen penyimpanan data
Jika konten Anda tidak bersifat publik, menyimpannya di Cloud Storage adalah opsi yang direkomendasikan. Saat membuat dokumen penyimpanan data, Anda memberikan
URL untuk objek Cloud Storage dalam bentuk:
gs://bucket-name/folder-name. Setiap dokumen dalam folder ditambahkan ke
penyimpanan data.
Saat Anda membuat bucket Cloud Storage:
- Pilih project yang Anda gunakan untuk agen.
- Gunakan kelas penyimpanan Standard.
- Tetapkan lokasi bucket ke lokasi yang sama dengan agen Anda.
Ikuti mulai cepat Cloud Storage untuk membuat bucket dan mengupload file.
Bahasa
Untuk bahasa yang didukung, lihat kolom penyimpanan data di referensi bahasa.
Untuk performa terbaik, buat penyimpanan data dalam satu bahasa.
Setelah membuat penyimpanan data, Anda dapat secara opsional menentukan bahasa penyimpanan data. Jika Anda menyetel bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen yang dikonfigurasi untuk bahasa lain. Misalnya, Anda dapat membuat penyimpanan data berbahasa Prancis yang terhubung ke agen berbahasa Inggris.
Region yang didukung
Untuk mengetahui informasi tentang wilayah yang didukung, lihat referensi wilayah.
(Akses terbatas) Sumber penyimpanan data tambahan
Jenis penyimpanan data tambahan tercantum dalam tabel berikut. Fitur ini tersedia sebagai fitur akses terbatas. Anda dapat mengisi formulir permintaan akses untuk meminta akses. Setelah disetujui, Anda akan dapat melihat opsi ini saat membuat penyimpanan data di Vertex AI Agent Builder.
Sumber penyimpanan data pihak ketiga
| Sumber penyimpanan data | Deskripsi |
|---|---|
| Box | Mengimpor data dari situs Box organisasi Anda. |
| Confluence Cloud | Mengimpor data dari ruang kerja Confluence Cloud Anda. |
| Dropbox | Mengimpor data dari penyimpanan Dropbox Anda. |
| EntraID | Mengimpor data dari sistem EntraID organisasi Anda. |
| Jira Cloud | Mengimpor data dari sistem pengelolaan tugas Jira Anda. |
| OneDrive | Mengimpor data dari penyimpanan OneDrive organisasi Anda. |
| Microsoft Outlook | Impor data dari Microsoft Outlook. |
| Salesforce | Mengimpor data dari Salesforce. |
| ServiceNow | Impor data dari ServiceNow. |
| SharePoint | Mengimpor data dari sistem SharePoint organisasi Anda. |
| Slack | Impor data dari Slack. |
| Microsoft Teams | Impor data dari Microsoft Teams. |
Menyiapkan penyimpanan data pihak ketiga menggunakan konektor
Bagian ini menguraikan proses penyiapan penyimpanan data menggunakan data pihak ketiga. Untuk mengetahui petunjuk khusus untuk setiap sumber data pihak ketiga, lihat dokumentasi Generative AI App Builder.
Penyedia identitas
Penyedia identitas memungkinkan Anda mengelola pengguna, grup, dan autentikasi. Saat menyiapkan penyimpanan data pihak ketiga, Anda dapat menggunakan penyedia identitas Google atau penyedia identitas pihak ketiga.
Penyedia identitas Google:
- Pengguna agen login menggunakan kredensial Google mereka. Ini adalah alamat email
@gmail.comatau akun apa pun yang menggunakan Google sebagai penyedia identitas (misalnya, Google Workspace). Langkah ini dilewati jika pengguna berbicara dengan agen menggunakan Google Cloud secara langsung, karena identitas Google otomatis disertakan dalam sistem. - Anda dapat memberikan akses ke akun Google menggunakan Identity and Access Management (IAM).
Penyedia identitas pihak ketiga:
- Pengguna agen login menggunakan kredensial non-Google, misalnya alamat email Microsoft.
- Anda harus membuat Workforce Pool menggunakan Google Cloud yang berisi penyedia identitas non-Google. Kemudian, Anda dapat menggunakan IAM untuk memberikan akses ke seluruh kumpulan atau pengguna individual dalam kumpulan tersebut.
- Metode ini tidak dapat digunakan dengan project Google Cloud apa pun yang disiapkan di organisasi
@google.com.
Konektor
Penyimpanan data pihak ketiga diimplementasikan menggunakan konektor. Setiap konektor dapat berisi beberapa penyimpanan data, yang disimpan sebagai entity dalam sistem Dialogflow CX.
- Sebelum membuat penyimpanan data, Anda harus menyiapkan setiap region dengan satu
penyedia identitas di Google Cloud > Agent Builder > Settings. Semua penyimpanan data di region tersebut menggunakan penyedia identitas yang sama. Anda dapat memilih identitas Google atau identitas pihak ketiga di kumpulan tenaga kerja. Kredensial Google yang sama dianggap sebagai identitas yang berbeda jika berada di kumpulan tenaga kerja.
Misalnya,
test@gmail.comdianggap sebagai identitas yang berbeda denganworkforcePools/test-pool/subject/test@gmail.com.- Buat workforce pool (jika diperlukan).
- Buka Agent Builder Settings, lalu pilih Google Identity atau 3rd Party Identity. Klik Simpan untuk menyimpan identitas ke wilayah.
- Sekarang Anda dapat membuat penyimpanan data di region tersebut.
- Setiap penyimpanan data menyimpan data Daftar Kontrol Akses (ACL) dengan setiap dokumen. Catatan ini melacak pengguna atau grup mana yang memiliki akses baca ke entitas mana. Selama runtime, anggota pengguna atau grup menerima respons dari agen hanya jika respons berasal dari entitas yang memiliki akses baca. Jika pengguna tidak memiliki akses baca ke entitas apa pun di penyimpanan data, agen akan menampilkan respons kosong.
- Karena data di penyimpanan data adalah salinan instance pihak ketiga, data tersebut perlu diperbarui secara berkala. Anda dapat mengonfigurasi interval refresh pada skala waktu per jam atau per hari.
- Setelah Anda mengonfigurasi penyimpanan data dan mengklik Buat, diperlukan waktu hingga satu jam agar penyimpanan data muncul di daftar penyimpanan data Anda.
Pelacakan penyimpanan data
Fitur ini mencakup dua bagian:
- Menampilkan rekaman aktivitas eksekusi internal penyimpanan data dan latensi langkah di simulator agen.
- Mengekspor rekaman aktivitas eksekusi internal dan latensi langkah penyimpanan data ke Cloud Logging dan BigQuery.
Melihat data di simulator
Untuk menampilkan data tracing dan eksekusi di simulator agen, luaskan detail tentang giliran percakapan dengan mengklik panah peluas di sebelah kanan respons agen.
Tab eksekusi menampilkan rekaman aktivitas eksekusi penyimpanan data internal, termasuk:
- Input pengguna asli.
- Kueri yang ditulis ulang oleh mesin penyimpanan data.
- Sinyal kualitas dari langkah-langkah eksekusi, seperti status pemeriksaan keamanan, status pemeriksaan stabilitas, hasil pemeriksaan perujukan, dan status pemeriksaan keamanan.
- Cuplikan penelusuran dari penelusuran penyimpanan data.
- Daftar dokumen pendukung untuk cuplikan.
Tab latensi menampilkan grafik waktu untuk berbagai langkah eksekusi penyimpanan data. Daftar langkah bervariasi bergantung pada cara penyimpanan data dikonfigurasi dan alur eksekusi. Data yang ditampilkan dapat mencakup hal berikut:
- Pencocokan FAQ: Melakukan langkah pencocokan FAQ.
- Penulisan ulang kueri: Menulis ulang kueri pengguna asli.
- Penelusuran: Melakukan penelusuran cuplikan.
- Peringkasan (Summarization): Meringkas respons.
- Pemeriksaan keamanan: Melakukan langkah-langkah pemeriksaan keamanan.
Melihat data rekaman aktivitas di lokasi lain
- Jika mengonfigurasi agen percakapan dengan logging histori percakapan, Anda dapat melihat penelusuran penyimpanan data di Histori Percakapan.
- Jika mengonfigurasi agen percakapan dengan Logging, Anda dapat melihat rekaman aktivitas dan latensi di Logs Explorer cloud.
- Jika mengonfigurasi agen percakapan dengan BigQuery Export, Anda dapat melihat rekaman aktivitas dan latensi dalam tabel BigQuery yang diekspor.
Langkah berikutnya
Untuk mempelajari cara membuat dan menggunakan penyimpanan data dengan agen, lihat dokumentasi alat penyimpanan data.