A forma como você prepara os dados depende do tipo de dados que você está importando e da maneira como escolhe importá-los. Comece com o tipo de dados que você planeja importar:
- Dados de sites
- Dados não estruturados
- Dados estruturados
- Dados de mídia estruturados
- Dados de FHIR saúde
Para informações sobre a pesquisa combinada, em que vários repositórios de dados podem ser conectados a um único app de pesquisa personalizada, consulte Como se conectar a vários repositórios de dados.
Dados de sites
Ao criar um repositório de dados para dados de sites, você fornece os URLs das páginas da Web que o Google precisa rastrear e indexar para pesquisa ou recomendação.
Antes de indexar os dados do seu site:
Decida quais padrões de URL incluir na indexação e quais excluir.
Exclua os padrões de URLs dinâmicos. Os URLs dinâmicos são URLs que mudam no momento da exibição, dependendo da solicitação.
Por exemplo, os padrões de URL das páginas da Web que exibem os resultados da pesquisa, como
www.example.com/search/*. Suponha que um usuário pesquise por a fraseNobel prize. O URL de pesquisa dinâmica pode ser um URL exclusivo:www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Se o padrão do URLwww.example.com/search/*não for excluído, todos os URLs de pesquisa dinâmicos e exclusivos que seguem esse padrão serão indexados. Isso resulta em um índice inchado e uma qualidade de pesquisa diluída.Elimine URLs duplicados usando padrões de URL canônicos. Isso fornece um único URL canônico para a Pesquisa Google ao rastrear o site e remove a ambiguidade. Para exemplos de canonização e mais informações, consulte O que é canonização de URL e Como especificar um URL canônico com rel="canonical" e outros métodos.
Você pode incluir padrões de URL do mesmo domínio ou de domínios diferentes que precisam ser indexados e excluir padrões que não devem ser indexados. O número de padrões de URL que você pode incluir e excluir difere da seguinte maneira:
Tipo de indexação Sites incluídos Sites excluídos Pesquisa básica no site Máximo de 50 padrões de URL Máximo de 50 padrões de URL Indexação avançada de sites Máximo de 500 padrões de URL Máximo de 500 padrões de URL Se você usar o arquivo
robots.txtno seu site, faça o seguinte:Confira se Google-CloudVertexBot pode acessar seu conteúdo. O bot da Vertex AI para Pesquisa precisa rastrear e indexar suas informações, incluindo qualquer conteúdo com paywall.
A tabela a seguir lista a string do user agent conforme aparece nas solicitações HTTP e o token do user agent em
robots.txtpara o Google-CloudVertexBot.User agent em solicitações HTTP Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.7559.132 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
robots.txt Token do user agent em robots.txtGoogle-CloudVertexBotExemplo de grupo robots.txtuser-agent: Google-CloudVertexBot allow: /É necessário que o bot da Vertex AI para Pesquisa rastreie e indexe suas informações, incluindo o conteúdo com paywall. Para mais informações sobre como rastrear e indexar seu conteúdo, incluindo conteúdo com paywall, consulte o seguinte:
- Dados estruturados de assinatura e conteúdo com paywall
Verifique se as páginas da Web que você planeja adicionar ao repositório de dados não bloqueiam a indexação.
Para mais informações, consulte Introdução ao robots.txt e Como escrever e enviar um arquivo robots.txt.
Além de permitir o rastreador no arquivo
robots.txt, sua organização precisa permitir as solicitações de pesquisa em todos os servidores proxy upstream que seus usuários podem encontrar.Se você planeja usar a indexação avançada de sites, você precisa verificar os domínios dos padrões de URL no seu repositório de dados.
Adicione dados estruturados na forma de
metatags e PageMaps ao esquema do repositório de dados para enriquecer a indexação, conforme explicado em Usar dados estruturados para indexação avançada de sites.
Dados não estruturados
A Vertex AI para Pesquisa oferece suporte à pesquisa em documentos nos formatos TXT, JSON, Markdown, PDF, HTML, DOCX, PPTX, XLSX e XLSM.
O tamanho máximo de um arquivo é de 200 MB, e você pode importar até 100.000 arquivos por vez.
Você importa seus documentos de um Cloud Storage
bucket. É possível importar usando Google Cloud console, pelo método
ImportDocuments ou pela ingestão de streaming
usando métodos CRUD.
Para informações de referência da API, consulte DocumentService
e documents.
Se você planeja incluir incorporações nos seus dados não estruturados, consulte
Usar incorporações personalizadas.
Se você tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto dentro de imagens, como infográficos), recomendamos ativar o analisador de layout durante a criação do repositório de dados. Isso permite que a Vertex AI para Pesquisa extraia elementos como blocos de texto e tabelas. Se você tiver PDFs pesquisáveis que são compostos principalmente de texto legível por máquina e contêm muitas tabelas, considere ativar o processamento de OCR com a opção de texto legível por máquina ativada para melhorar a detecção e a análise. Para mais informações, consulte Analisar e dividir documentos.
Se você quiser usar a Vertex AI para Pesquisa para geração aumentada por recuperação (RAG, na sigla em inglês), ative a divisão de documentos ao criar o repositório de dados. Para mais informações, consulte Analisar e dividir documentos.
É possível importar dados não estruturados das seguintes fontes:
Cloud Storage
É possível importar dados do Cloud Storage com ou sem metadados.
A importação de dados é recursiva. Ou seja, se houver pastas no bucket ou na pasta especificada, os arquivos dessas pastas serão importados.
Se você planeja importar documentos do Cloud Storage sem metadados, coloque seus documentos diretamente em um bucket do Cloud Storage. O ID do documento é um exemplo de metadados.
Para testes, você pode usar as seguintes pastas do Cloud Storage disponíveis publicamente, que contêm PDFs:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfsgs://cloud-samples-data/gen-app-builder/search/CUAD_v1gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveysgs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Se você planeja importar dados do Cloud Storage com metadados, coloque um arquivo JSON que contenha os metadados em um bucket do Cloud Storage cujo local você forneça durante a importação.
Seus documentos não estruturados podem estar no mesmo bucket do Cloud Storage que os metadados ou em um diferente.
O arquivo de metadados precisa ser um arquivo JSON Lines ou NDJSON. O ID do documento é um exemplo de metadados. Cada linha do arquivo de metadados precisa seguir um destes formatos JSON:
- Usando
jsonData:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Usando
structData:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Use o campo uri em cada linha para apontar para o local do documento no Cloud Storage.
Confira um exemplo de arquivo de metadados NDJSON para um documento não estruturado. Neste exemplo, cada linha do arquivo de metadados aponta para um documento PDF e contém os metadados desse documento. As duas primeiras linhas usam jsonData, e as duas segundas linhas usam structData. Com structData, não é necessário fazer o escape de aspas que aparecem dentro de aspas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html", "description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para criar o repositório de dados, consulte Criar um repositório de dados de pesquisa.
BigQuery
Se você planeja importar metadados do BigQuery, crie uma tabela do BigQuery que contenha metadados. O ID do documento é um exemplo de metadados.
Coloque seus documentos não estruturados em um bucket do Cloud Storage.
Use o seguinte esquema do BigQuery. Use o campo uri em cada registro para apontar para o local do documento no Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para mais informações, consulte Criar e usar tabelas na documentação do BigQuery.
Para criar o repositório de dados, consulte Criar um repositório de dados de pesquisa.
Google Drive
A sincronização de dados do Google Drive é compatível com a pesquisa personalizada.
Se você planeja importar dados do Google Drive, precisa configurar o Google Identity como seu provedor de identidade na Vertex AI para Pesquisa. Para informações sobre como configurar o controle de acesso, consulte Usar o controle de acesso à fonte de dados .
Para criar o repositório de dados, consulte Criar um repositório de dados de pesquisa.
Dados estruturados
Prepare seus dados de acordo com o método de importação que você planeja usar. Se você planeja ingerir dados de mídia, consulte também Dados de mídia estruturados.
É possível importar dados estruturados das seguintes fontes:
Ao importar dados estruturados do BigQuery ou do Cloud Storage, você tem a opção de importar os dados com metadados. Os dados estruturados com metadados também são chamados de dados estruturados aprimorados.
BigQuery
É possível importar dados estruturados de conjuntos de dados do BigQuery.
O esquema é detectado automaticamente. Após a importação, o Google recomenda editar o esquema detectado automaticamente para mapear propriedades importantes, como títulos. Se você importar usando a API em vez do Google Cloud console, terá a opção de fornecer seu próprio esquema como um objeto JSON. Para mais informações, consulte Fornecer ou detectar automaticamente um esquema.
Para exemplos de dados estruturados disponíveis publicamente, consulte os conjuntos de dados públicos do BigQuery.
Se você planeja incluir incorporações nos seus dados estruturados, consulte Usar incorporações personalizadas.
Se você selecionar a importação de dados estruturados com metadados, inclua dois campos nas tabelas do BigQuery:
Um campo
idpara identificar o documento. Se você importar dados estruturados sem metadados, oidserá gerado para você. A inclusão de metadados permite especificar o valor deid.Um campo
jsonDataque contém os dados. Para exemplos de stringsjsonData, consulte a seção anterior Cloud Storage.
Use o seguinte esquema do BigQuery para dados estruturados com importações de metadados:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para instruções sobre como criar o repositório de dados, consulte Criar um repositório de dados de pesquisa ou Criar um repositório de dados de recomendações.
Cloud Storage
Os dados estruturados no Cloud Storage precisam estar no formato JSON Lines ou NDJSON. Cada arquivo precisa ter menos de 2 GB, e cada linha do arquivo menos de 1 MB. É possível importar até 1.000 arquivos em uma única solicitação de importação.
Para exemplos de dados estruturados disponíveis publicamente, consulte as seguintes pastas no Cloud Storage, que contêm arquivos NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_moviesgs://cloud-samples-data/gen-app-builder/search/austin_311
Se você planeja incluir incorporações nos seus dados estruturados, consulte Usar incorporações personalizadas.
Confira um exemplo de arquivo de metadados NDJSON de dados estruturados. Cada linha do arquivo representa um documento e é composta por um conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para criar o repositório de dados, consulte Criar um repositório de dados de pesquisa ou Criar um repositório de dados de recomendações.
Dados JSON locais
É possível fazer upload direto de um documento ou objeto JSON usando a API.
O Google recomenda fornecer seu próprio esquema como um objeto JSON para melhores resultados. Se você não fornecer seu próprio esquema, ele será detectado automaticamente. Após a importação, recomendamos editar o esquema detectado automaticamente para mapear propriedades importantes, como títulos. Para mais informações, consulte Fornecer ou detectar automaticamente um esquema.
Se você planeja incluir incorporações nos seus dados estruturados, consulte Usar incorporações personalizadas.
Para criar o repositório de dados, consulte Criar um repositório de dados de pesquisa ou Criar um repositório de dados de recomendações.
Dados de mídia estruturados
Se você planeja ingerir dados de mídia estruturados, como vídeos, notícias ou músicas, revise o seguinte:
- Informações sobre o método de importação (BigQuery ou Cloud Storage): Dados estruturados
- Esquemas e campos obrigatórios para documentos de mídia e repositórios de dados: Sobre documentos de mídia e repositórios de dados
- Requisitos e esquemas de eventos do usuário: Sobre eventos de usuários de mídia
- Informações sobre tipos de recomendações de mídia: Sobre tipos de recomendações de mídia
Dados de FHIR saúde
Se você planeja ingerir dados de FHIR da API Cloud Healthcare, verifique o seguinte:
- Local: o repositório de FHIR de origem precisa estar em um conjunto de dados da API Cloud Healthcare que esteja
no local
us-central1,usoueu. Para mais informações, consulte Criar e gerenciar conjuntos de dados na API Cloud Healthcare. - Tipo de armazenamento de FHIR: o armazenamento de FHIR de origem precisa ser um repositório de dados R4. É possível verificar as versões dos repositórios de FHIR listando os repositórios de FHIR no conjunto de dados. Para criar um repositório FHIR R4, consulte Criar repositórios FHIR.
- Cota de importação: o repositório de FHIR de origem precisa ter menos de 1 milhão de recursos de FHIR. Se houver mais de 1 milhão de recursos de FHIR, o processo de importação será interrompido após esse limite ser atingido. Para mais informações, consulte Cotas e limites.
- Consulte a lista de recursos FHIR R4 com suporte da Vertex AI para Pesquisa. Para mais informações, consulte Referência do esquema de dados FHIR R4 de saúde.
Referências de recursos: verifique se as referências de recursos relativos estão no formato
Resource/resourceId. Por exemplo,subject.referenceprecisa ter o valorPatient/034AB16. Para mais informações sobre como a API Cloud Healthcare oferece suporte a referências de recursos FHIR, consulte Referências de recursos FHIR.Os arquivos referenciados em um
DocumentReferencerecurso precisam ser arquivos PDF, RTF ou de imagem armazenados no Cloud Storage. O link para os arquivos referenciados precisa estar no campocontent[].attachment.urlcampo do recurso no formato de caminho padrão do Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.A tabela a seguir lista os limites de tamanho de arquivo de cada tipo de arquivo com configurações diferentes (para mais informações, consulte Analisar e dividir documentos). É possível importar até 100.000 arquivos por vez.