Setelah dokumen di-ingest, Mesin RAG di Platform Agen Gemini Enterprise menjalankan serangkaian transformasi untuk menyiapkan data agar dapat diindeks. Anda dapat mengontrol kasus penggunaan menggunakan parameter berikut:
| Parameter | Deskripsi |
|---|---|
chunk_size |
Saat dokumen di-ingest ke dalam indeks, dokumen tersebut akan dibagi menjadi potongan. Parameter
chunk_size (dalam token) menentukan ukuran
potongan. Ukuran potongan default adalah 1.024 token.
|
chunk_overlap |
Secara default, dokumen dibagi menjadi potongan dengan jumlah tumpang-tindih tertentu untuk meningkatkan relevansi dan kualitas pengambilan. Tumpang-tindih potongan default adalah 256 token. |
Ukuran potongan yang lebih kecil berarti embedding lebih presisi. Ukuran potongan yang lebih besar berarti embedding mungkin lebih umum, tetapi mungkin tidak menyertakan detail tertentu.
Misalnya, jika Anda mengonversi 1.000 kata menjadi array embedding yang dimaksudkan untuk 200 kata, Anda mungkin kehilangan detail. Kapasitas embedding ditetapkan untuk setiap potongan. Potongan teks yang besar mungkin tidak sesuai dengan model jendela kecil.
Langkah berikutnya
- Menggunakan parser tata letak Document AI dengan Mesin RAG.