La preparazione dei dati dipende dal tipo di dati che stai importando e dal modo in cui scegli di importarli. Inizia con il tipo di dati che prevedi di importare:
- Dati sui siti web
- Dati non strutturati
- Dati strutturati
- Dati multimediali strutturati
- Dati FHIR Healthcare
Per informazioni sulla ricerca combinata, in cui è possibile collegare più datastore a una singola app di ricerca personalizzata, consulta Informazioni sul collegamento di più datastore.
Dati sui siti web
Quando crei un datastore per i dati dei siti web, fornisci gli URL delle pagine web che Google deve eseguire la scansione e indicizzare per la ricerca o i consigli.
Prima di indicizzare i dati del tuo sito web:
Decidi quali pattern URL includere nell'indicizzazione e quali escludere.
Escludi i pattern per gli URL dinamici. Gli URL dinamici sono URL che cambiano al momento della pubblicazione a seconda della richiesta.
Ad esempio, i pattern URL per le pagine web che pubblicano i risultati di ricerca, come
www.example.com/search/*. Supponiamo che un utente cerchi la fraseNobel prize, l'URL di ricerca dinamica potrebbe essere un URL univoco:www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Se il pattern URLwww.example.com/search/*non viene escluso, vengono indicizzati tutti gli URL di ricerca dinamica univoci che seguono questo pattern. Ciò comporta un indice eccessivo e una qualità di ricerca diluita.Elimina gli URL duplicati utilizzando i pattern URL canonici. In questo modo viene fornito un singolo URL canonico per la Ricerca Google durante la scansione del sito web e viene rimossa l'ambiguità. Per esempi di canonicalizzazione e ulteriori informazioni, consulta Che cos'è la canonicalizzazione degli URL e Come specificare un URL canonico con rel="canonical" e altri metodi.
Puoi includere pattern URL dello stesso dominio o di domini diversi che devono essere indicizzati ed escludere i pattern che non devono essere indicizzati. Il numero di pattern URL che puoi includere ed escludere varia nel seguente modo:
Tipo di indicizzazione Siti inclusi Siti esclusi Ricerca di base su sito web Massimo 50 pattern URL Massimo 50 pattern URL Indicizzazione avanzata dei siti web Massimo 500 pattern URL Massimo 500 pattern URL Se utilizzi il file
robots.txtnel tuo sito web:Assicurati che Google-CloudVertexBot possa accedere ai tuoi contenuti. Il bot di Ricerca agente deve eseguire la scansione e indicizzare le tue informazioni, inclusi i contenuti protetti da paywall.
La tabella seguente elenca la stringa dello user agent così come appare nelle richieste HTTP e il token dello user agent in
robots.txtper Google-CloudVertexBot.User agent nelle richieste HTTP Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.7559.132 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
robots.txt Token dello user agent in robots.txtGoogle-CloudVertexBotEsempio di gruppo robots.txtuser-agent: Google-CloudVertexBot allow: /È necessario che il bot di Ricerca agente esegua la scansione e indicizzi le tue informazioni, inclusi i contenuti protetti da paywall. Per ulteriori informazioni sulla scansione e sull'indicizzazione dei contenuti, inclusi i contenuti protetti da paywall, consulta:
- Dati strutturati per contenuti in abbonamento e protetti da paywall
Verifica che le pagine web che prevedi di aggiungere al datastore non blocchino l'indicizzazione.
Per saperne di più, consulta Introduzione a robots.txt e Come scrivere e inviare un file robots.txt.
Oltre a consentire al crawler nel file
robots.txt, la tua organizzazione deve consentire le richieste di ricerca tramite tutti i server proxy upstream che gli utenti potrebbero incontrare.Se prevedi di utilizzare l'indicizzazione avanzata dei siti web, devi essere in grado di verificare i domini per i pattern URL nel datastore.
Aggiungi dati strutturati sotto forma di tag
metae PageMap allo schema del datastore per arricchire l'indicizzazione come spiegato in Utilizzare i dati strutturati per l'indicizzazione avanzata dei siti web.
Dati non strutturati
Ricerca agente supporta la ricerca nei documenti in formato TXT, JSON, Markdown, PDF, HTML, DOCX, PPTX, XLSX e XLSM.
La dimensione massima di un file è di 200 MB e puoi importare fino a 100.000 file alla volta.
Importa i documenti da un Cloud Storage
bucket. Puoi importare utilizzando Google Cloud la console, il metodo
ImportDocuments o l'importazione di flussi di dati
tramite i metodi CRUD.
Per informazioni di riferimento sull'API, consulta DocumentService
e documents.
Se prevedi di includere incorporamenti nei dati non strutturati, consulta
Utilizzare incorporamenti personalizzati.
Se hai PDF non ricercabili (PDF scansionati o PDF con testo all'interno delle immagini, ad esempio infografiche), ti consigliamo di attivare l'analizzatore di layout durante la creazione del datastore. In questo modo, Ricerca agente può estrarre elementi come blocchi di testo e tabelle. Se hai PDF ricercabili composti principalmente da testo leggibile da una macchina e contenenti molte tabelle, puoi prendere in considerazione l'attivazione dell'elaborazione OCR con l'opzione per il testo leggibile da una macchina abilitata per migliorare il rilevamento e l'analisi. Per saperne di più, consulta Analizzare e dividere i documenti in blocchi.
Se vuoi utilizzare Ricerca agente per la Retrieval-Augmented Generation (RAG), attiva la suddivisione dei documenti in blocchi quando crei il datastore. Per saperne di più, consulta Analizzare e dividere i documenti in blocchi.
Puoi importare dati non strutturati dalle seguenti origini:
Cloud Storage
Puoi importare dati da Cloud Storage con o senza metadati.
L'importazione dei dati è ricorsiva. Ciò significa che, se sono presenti cartelle all'interno del bucket o della cartella che specifichi, vengono importati i file contenuti in queste cartelle.
Se prevedi di importare documenti da Cloud Storage senza metadati, inserisci i documenti direttamente in un bucket Cloud Storage. L'ID documento è un esempio di metadati.
Per i test, puoi utilizzare le seguenti cartelle di Cloud Storage disponibili pubblicamente, che contengono PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfsgs://cloud-samples-data/gen-app-builder/search/CUAD_v1gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveysgs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Se prevedi di importare dati da Cloud Storage con metadati, inserisci un file JSON contenente i metadati in un bucket Cloud Storage di cui fornisci la località durante l'importazione.
I documenti non strutturati possono trovarsi nello stesso bucket Cloud Storage dei metadati o in un bucket diverso.
Il file di metadati deve essere un file JSON Lines o NDJSON. L'ID documento è un esempio di metadati. Ogni riga del file di metadati deve seguire uno dei seguenti formati JSON:
- Utilizzo di
jsonData:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Utilizzo di
structData:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Utilizza il campo uri in ogni riga per indirizzare alla località Cloud Storage del documento.
Di seguito è riportato un esempio di file di metadati NDJSON per un documento non strutturato. In questo esempio, ogni riga del file di metadati punta a un documento PDF e contiene i metadati per quel documento. Le prime due righe utilizzano jsonData e le seconde due righe utilizzano structData. Con structData non è necessario eseguire l'escape delle virgolette che appaiono all'interno delle virgolette.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html", "description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Per creare il datastore, consulta Creare un datastore di ricerca.
BigQuery
Se prevedi di importare metadati da BigQuery, crea una tabella BigQuery contenente i metadati. L'ID documento è un esempio di metadati.
Inserisci i documenti non strutturati in un bucket Cloud Storage.
Utilizza il seguente schema BigQuery. Utilizza il campo uri in ogni record per indirizzare alla località Cloud Storage del documento.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Per saperne di più, consulta Creare e utilizzare le tabelle nella documentazione di BigQuery.
Per creare il datastore, consulta Creare un datastore di ricerca.
Google Drive
La sincronizzazione dei dati da Google Drive è supportata per la ricerca personalizzata.
Se prevedi di importare dati da Google Drive, devi configurare Google Identity come provider di identità in Ricerca agente. Per informazioni sulla configurazione del controllo dell'accesso, consulta Utilizzare il controllo dell'accesso all'origine dati.
Per creare il datastore, consulta Creare un datastore di ricerca.
Dati strutturati
Prepara i dati in base al metodo di importazione che prevedi di utilizzare. Se prevedi di importare dati multimediali, consulta anche Dati multimediali strutturati.
Puoi importare dati strutturati dalle seguenti origini:
Quando importi dati strutturati da BigQuery o da Cloud Storage, hai la possibilità di importarli con i metadati. I dati strutturati con metadati sono anche chiamati dati strutturati avanzati.
BigQuery
Puoi importare dati strutturati dai set di dati BigQuery.
Lo schema viene rilevato automaticamente. Dopo l'importazione, Google consiglia di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Se importi utilizzando l'API anziché la Google Cloud console, hai la possibilità di fornire il tuo schema come oggetto JSON. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
Per esempi di dati strutturati disponibili pubblicamente, consulta i set di dati pubblici di BigQuery.
Se prevedi di includere incorporamenti nei dati strutturati, consulta Utilizzare incorporamenti personalizzati.
Se scegli di importare dati strutturati con metadati, includi due campi nelle tabelle BigQuery:
Un campo
idper identificare il documento. Se importi dati strutturati senza metadati, l'idviene generato automaticamente. L'inclusione dei metadati ti consente di specificare il valore diid.Un campo
jsonDatacontenente i dati. Per esempi di stringhejsonData, consulta la sezione precedente Cloud Storage.
Utilizza il seguente schema BigQuery per le importazioni di dati strutturati con metadati:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Per istruzioni sulla creazione del datastore, consulta Creare un datastore di ricerca o Creare un datastore di consigli.
Cloud Storage
I dati strutturati in Cloud Storage devono essere in formato JSON Lines o NDJSON. Le dimensioni di ogni file non devono superare i 2 GB e quelle di ogni riga del file non devono superare 1 MB. Puoi importare fino a 1000 file in un'unica richiesta di importazione.
Per esempi di dati strutturati disponibili pubblicamente, consulta le seguenti cartelle in Cloud Storage, che contengono file NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_moviesgs://cloud-samples-data/gen-app-builder/search/austin_311
Se prevedi di includere incorporamenti nei dati strutturati, consulta Utilizzare incorporamenti personalizzati.
Di seguito è riportato un esempio di file di metadati NDJSON di dati strutturati. Ogni riga del file rappresenta un documento ed è composta da un insieme di campi.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di consigli.
Dati JSON locali
Puoi caricare direttamente un documento o un oggetto JSON utilizzando l'API.
Google consiglia di fornire il tuo schema come oggetto JSON per ottenere risultati migliori. Se non fornisci il tuo schema, lo schema viene rilevato automaticamente. Dopo l'importazione, ti consigliamo di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
Se prevedi di includere incorporamenti nei dati strutturati, consulta Utilizzare incorporamenti personalizzati.
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di consigli.
Dati multimediali strutturati
Se prevedi di importare dati multimediali strutturati, come video, notizie o musica, esamina quanto segue:
- Informazioni sul metodo di importazione (BigQuery o Cloud Storage): Dati strutturati
- Schemi e campi obbligatori per documenti e datastore multimediali: Informazioni sui documenti e sui datastore multimediali
- Requisiti e schemi degli eventi utente: Informazioni sugli eventi utente multimediali
- Informazioni sui tipi di consigli sui contenuti multimediali: Informazioni sui tipi di consigli sui contenuti multimediali
Dati FHIR Healthcare
Se prevedi di importare dati FHIR dall'API Cloud Healthcare, assicurati di quanto segue:
- Località: il datastore FHIR di origine deve trovarsi in un set di dati dell'API Cloud Healthcare che si trova
nella località
us-central1,usoeu. Per saperne di più, consulta Creare e gestire set di dati nell'API Cloud Healthcare. - Tipo di datastore FHIR: il datastore FHIR di origine deve essere un datastore R4. Puoi controllare le versioni dei datastore FHIR elencando i datastore FHIR nel set di dati. Per creare un datastore FHIR R4, consulta Creare datastore FHIR.
- Quota di importazione: il datastore FHIR di origine deve contenere meno di 1 milione di risorse FHIR. Se sono presenti più di 1 milione di risorse FHIR, il processo di importazione si interrompe al raggiungimento di questo limite. Per saperne di più, consulta Quote e limiti.
- Esamina l'elenco delle risorse FHIR R4 supportate da Ricerca agente. Per saperne di più, consulta Riferimento allo schema dei dati FHIR R4 Healthcare.
Riferimenti alle risorse: assicurati che i riferimenti alle risorse relative siano nel formato
Resource/resourceId. Ad esempio,subject.referencedeve avere il valorePatient/034AB16. Per saperne di più su come l'API Cloud Healthcare supporta i riferimenti alle risorse FHIR, consulta Riferimenti alle risorse FHIR.I file a cui viene fatto riferimento in una risorsa
DocumentReferencedevono essere file PDF, RTF o immagine archiviati in Cloud Storage. Il link ai file a cui viene fatto riferimento deve essere nel campocontent[].attachment.urlfield della risorsa nel formato del percorso standard di Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.La tabella seguente elenca i limiti di dimensione dei file di ogni tipo di file con configurazioni diverse (per saperne di più, consulta Analizzare e dividere i documenti in blocchi). Puoi importare fino a 100.000 file alla volta.