As empresas têm frequentemente aplicações personalizadas criadas internamente. Se quiser que o Gemini Enterprise se ligue às origens de dados nestas aplicações personalizadas, primeiro tem de preparar os dados. A forma como prepara os dados depende do tipo de dados que está a importar da sua origem de dados personalizada e da forma como opta por importá-los. Comece por indicar o tipo de dados que planeia importar:
Para ver as limitações da pesquisa combinada, em que é possível associar várias bases de dados a uma única app, consulte o artigo Acerca da associação de várias bases de dados.
Dados não estruturados
O Gemini Enterprise suporta a pesquisa em documentos nos formatos HTML, PDF com texto incorporado e TXT. Os formatos PPTX e DOCX estão disponíveis na pré-visualização.
A tabela seguinte lista os limites de tamanho dos ficheiros de cada tipo de ficheiro com diferentes configurações (para mais informações, consulte o artigo Analise e divida documentos em partes). Pode importar até 100 000 ficheiros de cada vez.
Tipo de ficheiro | Importação predefinida |
---|---|
Ficheiros baseados em texto, como HTML, TXT, JSON, XHTML e XML | < 200 MB |
PPTX, DOCX e XLSX | < 200 MB |
< 200 MB |
Se planeia incluir incorporações nos seus dados não estruturados, consulte o artigo Use incorporações personalizadas.
Se tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto em imagens, como infografias), recomendamos que ative o analisador de esquemas durante a criação do arquivo de dados. Isto permite ao Gemini Enterprise extrair elementos como blocos de texto e tabelas. Se tiver PDFs pesquisáveis compostos principalmente por texto legível por máquina e contiverem muitas tabelas, pode considerar ativar o processamento de OCR com a opção de texto legível por máquina ativada para melhorar a deteção e a análise. Para mais informações, consulte o artigo Analise e divida documentos em partes.
Se quiser usar o Gemini Enterprise para a geração aumentada por obtenção (RAG), ative a divisão de documentos em blocos quando criar o seu repositório de dados. Para mais informações, consulte o artigo Analise e divida documentos em blocos.
Pode importar dados não estruturados das seguintes origens:
Cloud Storage
Pode importar dados do Cloud Storage com ou sem metadados através da
Google Cloud consola,
pelo método ImportDocuments
ou através da ingestão por streaming
com métodos CRUD. Para informações de referência da API, consulte
DocumentService
e documents
.
A importação de dados é recursiva. Ou seja, se existirem pastas no contentor ou na pasta especificada, os ficheiros nessas pastas são importados.
Se planear importar documentos do Cloud Storage sem metadados, coloque os documentos diretamente num contentor do Cloud Storage. O ID do documento é um exemplo de metadados.
Para testes, pode usar as seguintes pastas do Cloud Storage disponíveis publicamente, que contêm PDFs:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Se planeia importar dados do Cloud Storage com metadados, coloque um ficheiro JSON que contenha os metadados num contentor do Cloud Storage cuja localização indica durante a importação.
Os seus documentos não estruturados podem estar no mesmo contentor do Cloud Storage que os metadados ou num diferente.
O ficheiro de metadados tem de ser um ficheiro JSON Lines ou NDJSON. O ID do documento é um exemplo de metadados. Cada linha do ficheiro de metadados tem de seguir um dos seguintes formatos JSON:
Usar o
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usar o
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Use o campo uri
em cada linha para indicar a localização do documento no Cloud Storage.
Segue-se um exemplo de um ficheiro de metadados NDJSON para um documento não estruturado. Neste exemplo, cada linha do ficheiro de metadados aponta para um documento PDF e contém os metadados desse documento. As duas primeiras linhas usam jsonData
e as duas últimas linhas usam structData
. Com o structData
, não precisa de
usar carateres de escape para as aspas que aparecem entre aspas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.
BigQuery
Se planeia importar metadados do BigQuery, siga estes passos:
Crie uma tabela do BigQuery que contenha metadados. O ID do documento é um exemplo de metadados.
Coloque os seus documentos não estruturados num contentor do Cloud Storage.
Pode importar através da Google Cloud consola, pelo método
ImportDocuments
ou através do carregamento por streaming com métodos CRUD. Para informações de referência da API, consulteDocumentService
edocuments
.
Use o seguinte esquema do BigQuery. Use o campo uri
em cada registo para indicar a localização do documento no Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para mais informações, consulte o artigo Crie e use tabelas na documentação do BigQuery.
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.
Google Drive
A sincronização de dados do Google Drive é suportada para a pesquisa.
Se planeia importar dados do Google Drive, tem de configurar a identidade Google como fornecedor de identidade no Gemini Enterprise. Para obter informações sobre como configurar o controlo de acesso, consulte o artigo Identidade e autorizações.
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.
Dados estruturados
Prepare os dados de acordo com o método de importação que planeia usar.
Pode importar dados estruturados das seguintes origens:
Quando importa dados estruturados do BigQuery ou do Cloud Storage, tem a opção de importar os dados com metadados. (Os dados estruturados com metadados também são denominados dados estruturados melhorados.)
BigQuery
Pode importar dados estruturados de conjuntos de dados do BigQuery.
O seu esquema é detetado automaticamente. Após a importação, a Google recomenda que edite o esquema detetado automaticamente para mapear propriedades importantes, como títulos. Se fizer a importação através da API em vez da Google Cloud consola, tem a opção de fornecer o seu próprio esquema como um objeto JSON. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.
Para ver exemplos de dados estruturados disponíveis publicamente, consulte os conjuntos de dados públicos do BigQuery.
Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.
Se selecionar a importação de dados estruturados com metadados, inclui dois campos nas tabelas do BigQuery:
Um campo
id
para identificar o documento. Se importar dados estruturados sem metadados, oid
é gerado automaticamente. A inclusão de metadados permite-lhe especificar o valor deid
.Um campo
jsonData
que contém os dados. Para ver exemplos de stringsjsonData
, consulte a secção anterior Cloud Storage.
Use o seguinte esquema do BigQuery para dados estruturados com importações de metadados:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.
Cloud Storage
Os dados estruturados no Cloud Storage têm de estar no formato JSON Lines ou NDJSON. Cada ficheiro tem de ter 2 GB ou menos. Pode importar até 1000 ficheiros num único pedido de importação.
Para ver exemplos de dados estruturados disponíveis publicamente, consulte as seguintes pastas no Cloud Storage, que contêm ficheiros NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.
Segue-se um exemplo de um ficheiro de metadados NDJSON de dados estruturados. Cada linha do ficheiro representa um documento e é composta por um conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.
Dados JSON locais
Pode carregar diretamente um documento ou um objeto JSON através da API.
A Google recomenda que forneça o seu próprio esquema como um objeto JSON para obter melhores resultados. Se não fornecer o seu próprio esquema, o esquema é detetado automaticamente. Após a importação, recomendamos que edite o esquema detetado automaticamente para mapear as propriedades principais, como os títulos. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.
Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.
Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.