Dopo l'importazione di un documento, RAG Engine sulla piattaforma Gemini Enterprise Agent Platform esegue una serie di trasformazioni per preparare i dati per l'indicizzazione. Puoi controllare i tuoi casi d'uso utilizzando i seguenti parametri:
| Parametro | Descrizione |
|---|---|
chunk_size |
Quando i documenti vengono importati in un indice, vengono suddivisi in blocchi. Il parametro
chunk_size (in token) specifica le dimensioni del
chunk. La dimensione predefinita del chunk è 1024 token.
|
chunk_overlap |
Per impostazione predefinita, i documenti vengono suddivisi in chunk con una certa quantità di sovrapposizione per migliorare la pertinenza e la qualità di recupero. La sovrapposizione predefinita dei chunk è di 256 token. |
Un chunk più piccolo indica che gli embedding sono più precisi. Un chunk più grande indica che gli embedding potrebbero essere più generici, ma potrebbero mancare dettagli specifici.
Ad esempio, se converti 1000 parole in un array di embedding destinato a 200 parole, potresti perdere dettagli. La capacità di incorporamento è fissa per ogni blocco. Una porzione di testo di grandi dimensioni potrebbe non rientrare in un modello con una finestra piccola.
Passaggi successivi
- Utilizza il parser del layout di Document AI con RAG Engine.