Esta página foi traduzida pela API Cloud Translation.

Prepare os dados para origens de dados personalizadas

As empresas têm frequentemente aplicações personalizadas criadas internamente. Se quiser que o Gemini Enterprise se ligue às origens de dados nestas aplicações personalizadas, primeiro tem de preparar os dados. A forma como prepara os dados depende do tipo de dados que está a importar da sua origem de dados personalizada e da forma como opta por importá-los. Comece por indicar o tipo de dados que planeia importar:

Dados não estruturados
Dados estruturados

Para ver as limitações da pesquisa combinada, em que é possível associar várias bases de dados a uma única app, consulte o artigo Acerca da associação de várias bases de dados.

Dados não estruturados

O Gemini Enterprise suporta a pesquisa em documentos nos formatos HTML, PDF com texto incorporado e TXT. Os formatos PPTX e DOCX estão disponíveis na pré-visualização.

A tabela seguinte lista os limites de tamanho dos ficheiros de cada tipo de ficheiro com diferentes configurações (para mais informações, consulte o artigo Analise e divida documentos em partes). Pode importar até 100 000 ficheiros de cada vez.

Tipo de ficheiro	Importação predefinida
Ficheiros baseados em texto, como HTML, TXT, JSON, XHTML e XML	< 200 MB
PPTX, DOCX e XLSX	< 200 MB
PDF	< 200 MB

Se planeia incluir incorporações nos seus dados não estruturados, consulte o artigo Use incorporações personalizadas.

Se tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto em imagens, como infografias), recomendamos que ative o analisador de esquemas durante a criação do arquivo de dados. Isto permite ao Gemini Enterprise extrair elementos como blocos de texto e tabelas. Se tiver PDFs pesquisáveis compostos principalmente por texto legível por máquina e contiverem muitas tabelas, pode considerar ativar o processamento de OCR com a opção de texto legível por máquina ativada para melhorar a deteção e a análise. Para mais informações, consulte o artigo Analise e divida documentos em partes.

Se quiser usar o Gemini Enterprise para a geração aumentada por obtenção (RAG), ative a divisão de documentos em blocos quando criar o seu repositório de dados. Para mais informações, consulte o artigo Analise e divida documentos em blocos.

Pode importar dados não estruturados das seguintes origens:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Pode importar dados do Cloud Storage com ou sem metadados através da Google Cloud consola, pelo método ImportDocuments ou através da ingestão por streaming com métodos CRUD. Para informações de referência da API, consulte DocumentService e documents.

A importação de dados é recursiva. Ou seja, se existirem pastas no contentor ou na pasta especificada, os ficheiros nessas pastas são importados.

Se planear importar documentos do Cloud Storage sem metadados, coloque os documentos diretamente num contentor do Cloud Storage. O ID do documento é um exemplo de metadados.

Para testes, pode usar as seguintes pastas do Cloud Storage disponíveis publicamente, que contêm PDFs:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Se planeia importar dados do Cloud Storage com metadados, coloque um ficheiro JSON que contenha os metadados num contentor do Cloud Storage cuja localização indica durante a importação.

Os seus documentos não estruturados podem estar no mesmo contentor do Cloud Storage que os metadados ou num diferente.

O ficheiro de metadados tem de ser um ficheiro JSON Lines ou NDJSON. O ID do documento é um exemplo de metadados. Cada linha do ficheiro de metadados tem de seguir um dos seguintes formatos JSON:

Usar o jsonData:

{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usar o structData:

{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Use o campo uri em cada linha para indicar a localização do documento no Cloud Storage.

Segue-se um exemplo de um ficheiro de metadados NDJSON para um documento não estruturado. Neste exemplo, cada linha do ficheiro de metadados aponta para um documento PDF e contém os metadados desse documento. As duas primeiras linhas usam jsonData e as duas últimas linhas usam structData. Com o structData, não precisa de usar carateres de escape para as aspas que aparecem entre aspas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

BigQuery

Se planeia importar metadados do BigQuery, siga estes passos:

Crie uma tabela do BigQuery que contenha metadados. O ID do documento é um exemplo de metadados.
Coloque os seus documentos não estruturados num contentor do Cloud Storage.

Pode importar através da Google Cloud consola, pelo método ImportDocuments ou através do carregamento por streaming com métodos CRUD. Para informações de referência da API, consulte DocumentService e documents.

Use o seguinte esquema do BigQuery. Use o campo uri em cada registo para indicar a localização do documento no Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para mais informações, consulte o artigo Crie e use tabelas na documentação do BigQuery.

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

Google Drive

A sincronização de dados do Google Drive é suportada para a pesquisa.

Se planeia importar dados do Google Drive, tem de configurar a identidade Google como fornecedor de identidade no Gemini Enterprise. Para obter informações sobre como configurar o controlo de acesso, consulte o artigo Identidade e autorizações.

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

Dados estruturados

Prepare os dados de acordo com o método de importação que planeia usar.

Pode importar dados estruturados das seguintes origens:

BigQuery
Cloud Storage
Dados JSON locais

Quando importa dados estruturados do BigQuery ou do Cloud Storage, tem a opção de importar os dados com metadados. (Os dados estruturados com metadados também são denominados dados estruturados melhorados.)

BigQuery

Pode importar dados estruturados de conjuntos de dados do BigQuery.

O seu esquema é detetado automaticamente. Após a importação, a Google recomenda que edite o esquema detetado automaticamente para mapear propriedades importantes, como títulos. Se fizer a importação através da API em vez da Google Cloud consola, tem a opção de fornecer o seu próprio esquema como um objeto JSON. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.

Para ver exemplos de dados estruturados disponíveis publicamente, consulte os conjuntos de dados públicos do BigQuery.

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Se selecionar a importação de dados estruturados com metadados, inclui dois campos nas tabelas do BigQuery:

Um campo id para identificar o documento. Se importar dados estruturados sem metadados, o id é gerado automaticamente. A inclusão de metadados permite-lhe especificar o valor de id.
Um campo jsonData que contém os dados. Para ver exemplos de strings jsonData, consulte a secção anterior Cloud Storage.

Use o seguinte esquema do BigQuery para dados estruturados com importações de metadados:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

Cloud Storage

Os dados estruturados no Cloud Storage têm de estar no formato JSON Lines ou NDJSON. Cada ficheiro tem de ter 2 GB ou menos. Pode importar até 1000 ficheiros num único pedido de importação.

Para ver exemplos de dados estruturados disponíveis publicamente, consulte as seguintes pastas no Cloud Storage, que contêm ficheiros NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Segue-se um exemplo de um ficheiro de metadados NDJSON de dados estruturados. Cada linha do ficheiro representa um documento e é composta por um conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

Dados JSON locais

Pode carregar diretamente um documento ou um objeto JSON através da API.

A Google recomenda que forneça o seu próprio esquema como um objeto JSON para obter melhores resultados. Se não fornecer o seu próprio esquema, o esquema é detetado automaticamente. Após a importação, recomendamos que edite o esquema detetado automaticamente para mapear as propriedades principais, como os títulos. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Para criar o seu repositório de dados, consulte o artigo Associe uma origem de dados Google.

Prepare os dados para origens de dados personalizadas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Dados não estruturados

Cloud Storage

BigQuery

Google Drive

Dados estruturados

BigQuery

Cloud Storage

Dados JSON locais

Prepare os dados para origens de dados personalizadas