Menyesuaikan transformasi RAG

Setelah dokumen di-ingest, Mesin RAG di Platform Agen Gemini Enterprise menjalankan serangkaian transformasi untuk menyiapkan data agar dapat diindeks. Anda dapat mengontrol kasus penggunaan menggunakan parameter berikut:

Parameter Deskripsi
chunk_size Saat dokumen di-ingest ke dalam indeks, dokumen tersebut akan dibagi menjadi potongan. Parameter chunk_size (dalam token) menentukan ukuran potongan. Ukuran potongan default adalah 1.024 token.
chunk_overlap Secara default, dokumen dibagi menjadi potongan dengan jumlah tumpang-tindih tertentu untuk meningkatkan relevansi dan kualitas pengambilan. Tumpang-tindih potongan default adalah 256 token.

Ukuran potongan yang lebih kecil berarti embedding lebih presisi. Ukuran potongan yang lebih besar berarti embedding mungkin lebih umum, tetapi mungkin tidak menyertakan detail tertentu.

Misalnya, jika Anda mengonversi 1.000 kata menjadi array embedding yang dimaksudkan untuk 200 kata, Anda mungkin kehilangan detail. Kapasitas embedding ditetapkan untuk setiap potongan. Potongan teks yang besar mungkin tidak sesuai dengan model jendela kecil.

Langkah berikutnya