Questa pagina fornisce i prerequisiti e istruzioni dettagliate per il perfezionamento dei modelli Gemini sui dati dei documenti utilizzando l'apprendimento supervisionato.
Casi d'uso
Il fine-tuning ti consente di personalizzare potenti modelli linguistici in base alle tue esigenze specifiche. Ecco alcuni casi d'uso chiave in cui il perfezionamento con il tuo set di PDF può migliorare significativamente le prestazioni di un modello:
- Knowledge base interna: converti i tuoi documenti interni in una knowledge base basata sull'AI che fornisce risposte e approfondimenti immediati. Ad esempio, un rappresentante di vendita potrebbe accedere immediatamente alle specifiche del prodotto e ai dettagli dei prezzi dai materiali di formazione precedenti.
- Assistente di ricerca: crea un assistente di ricerca in grado di analizzare una raccolta di documenti di ricerca, articoli e libri. Un ricercatore che studia il cambiamento climatico potrebbe analizzare rapidamente articoli scientifici per identificare le tendenze dell'innalzamento del livello del mare o valutare l'efficacia di diverse strategie di mitigazione.
- Conformità legale o normativa: il perfezionamento dei documenti legali può contribuire ad automatizzare la revisione dei contratti, segnalando potenziali incongruenze o aree di rischio. Ciò consente ai professionisti legali di concentrarsi su attività di livello superiore, garantendo al contempo la conformità.
- Generazione automatica di report: automatizza l'analisi di report finanziari complessi, estraendo gli indicatori chiave di prestazione e generando riepiloghi per gli stakeholder. In questo modo puoi risparmiare tempo e ridurre il rischio di errori rispetto all'analisi manuale.
- Riepilogo e analisi dei contenuti: riassumi documenti PDF lunghi, estrai informazioni chiave e analizza le tendenze. Ad esempio, un team di ricerche di mercato potrebbe analizzare una raccolta di sondaggi sui clienti per identificare i temi e il sentiment chiave.
- Confronto di documenti e controllo della versione: confronta diverse versioni di un documento per identificare le modifiche e monitorare le revisioni. Questo può essere particolarmente utile in ambienti collaborativi in cui più autori contribuiscono a un documento.
Limitazioni
Di seguito sono riportate le limitazioni relative all'inclusione di PDF nel set di dati:
- Numero massimo di pagine PDF per esempio: 300
- Numero massimo di file PDF per esempio: 4
- Dimensioni massime del file PDF: 20 MB
Per saperne di più sui requisiti di Document Understanding, consulta la sezione Document Understanding.
Formato del set di dati
fileUri per il set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.
Per visualizzare l'esempio di formato generico, vedi Esempio di set di dati per Gemini.
Di seguito è riportato un esempio di set di dati di documenti.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
}
},
{
"text": "You are a very professional document summarization specialist. Please summarize the given document."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."
}
]
}
]
}
(Solo modelli Gemini 3 e successivi) A partire dai modelli Gemini 3, puoi anche impostare la risoluzione dei contenuti multimediali per ogni singolo contenuto Part.
In questo modo puoi combinare le risoluzioni nel tuo set di dati (ad esempio, impostando
MEDIA_RESOLUTION_HIGH per un elemento e MEDIA_RESOLUTION_LOW per un altro).
Le impostazioni di risoluzione dei contenuti multimediali a livello di Part hanno la precedenza su quelle globali.
Se non specifichi un Part per un determinato media, il valore predefinito
è lo stesso dei valori predefiniti lato pubblicazione. Per saperne di più sulla risoluzione a livello di parte e sui conteggi dei token corrispondenti, consulta Risoluzione dei contenuti multimediali.
Di seguito è riportato un esempio di set di dati che imposta la risoluzione dei contenuti multimediali sia a livello
Part che globale:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
}
},
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://<path to another PDF>"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these documents in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "PDF 1 is low resolution while PDF 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Passaggi successivi
- Per saperne di più sulla funzionalità di comprensione dei documenti dei modelli Gemini, consulta la panoramica Comprensione dei documenti.
- Per iniziare l'ottimizzazione, consulta Ottimizza i modelli Gemini utilizzando il fine-tuning supervisionato
- Per scoprire come è possibile utilizzare il fine-tuning supervisionato in una soluzione che crea una knowledge base di AI generativa, consulta Soluzione Jump Start: knowledge base di AI generativa.