Se a indexação avançada de sites estiver ativada no seu repositório de dados, você poderá enviar e usar sitemaps para indexar e atualizar as páginas da Web no seu repositório de dados. Esse recurso oferece suporte apenas a sitemaps XML e índices de sitemaps.
Esta página descreve como enviar um sitemap ou índice de sitemap para acionar a indexação e a atualização com base no sitemap. Para entender e implementar a atualização automática e manual sem um sitemap, consulte Atualizar páginas da Web.
Além disso, esta página descreve como visualizar os sitemaps no seu repositório de dados ou excluir um sitemap.
Conceitos de atualização com base em sitemaps
Confira alguns conceitos e termos importantes para começar:
Protocolo de sitemap: todos os sitemaps e índices de sitemaps com suporte da Pesquisa de agentes precisam seguir o protocolo de sitemaps.
Sitemap: um sitemap é um arquivo XML codificado em UTF-8 que contém uma lista de URLs das páginas da Web e dos arquivos de um site. Também contém outras informações importantes, mas opcionais, como a data da última modificação da página e a prioridade dela para um rastreador em relação às outras páginas do site. De acordo com o protocolo de sitemaps, um único sitemap pode conter no máximo 50.000 URLs e ter no máximo 50 MB.
Índice de sitemap: quando o sitemap excede o número máximo de URLs ou o tamanho máximo, você pode criar vários sitemaps e listá-los em um arquivo de índice de sitemaps. De acordo com o protocolo de sitemaps, um único índice de sitemaps pode aninhar no máximo 50.000 sitemaps e ter no máximo 50 MB.
É possível enviar um ou mais sitemaps, um ou mais índices de sitemaps ou uma combinação de sitemaps e índices de sitemaps para a Pesquisa de agentes.
Ao enviar o sitemap ou índice de sitemap para o repositório de dados da Pesquisa de agentes, você aciona as seguintes ações:
Indexação dos URLs incluídos no índice do repositório de dados.
- Para uma atualização somente de sitemap, essa lista contém apenas os URLs no sitemap ou índice de sitemap que se ajustam ao padrão do URL incluído no repositório de dados.
- Para uma atualização combinada, essa lista contém todos os URLs que o processo de atualização automática descobre.
Para mais informações sobre esses dois processos de atualização, consulte Métodos de atualização do repositório de dados do site e Atualização somente de sitemap.
Atualização diária de todos os URLs adicionados, excluídos e atualizados no sitemap. Um exemplo de URL atualizado é quando você atualiza o campo
lastmodde um URL no sitemap.Atualização periódica de URLs inalterados a cada 14 dias.
Métodos de atualização do repositório de dados do site
Você pode escolher uma das seguintes maneiras de incorporar a atualização com base em sitemaps no seu repositório de dados:
- Atualização somente de sitemap: use a atualização com base em sitemaps exclusivamente desativando a indexação inicial e a atualização automática.
- Atualização combinada: use a atualização com base em sitemaps com indexação inicial e atualização automática.
É possível atualizar manualmente páginas da Web específicas no índice do repositório de dados a qualquer momento, independentemente do método de atualização escolhido.
Atualização somente de sitemap
Ao criar um repositório de dados do site, você precisa fornecer padrões de URL para as páginas da Web que quer incluir no índice do repositório de dados. Por padrão, quando você termina de criar um repositório de dados do site, a Pesquisa de agentes gera um índice inicial para essas páginas da Web incluídas.
Para repositórios de dados do site com indexação avançada de sites, o processo de indexação inicial faz parte da atualização automática. O processo de indexação inicial indexa todos os URLs incluídos que estão disponíveis na Pesquisa Google. A atualização inicial desses URLs reflete a atualização disponível na Pesquisa Google. Após a indexação inicial, o processo de atualização automática descobre novas páginas e as atualiza da melhor maneira possível. Isso pode resultar em páginas relativamente desatualizadas e um índice maior, porque esse processo descobre URLs que podem estar além do que é necessário.
Em vez disso, você pode realizar a atualização somente de sitemap, que é útil nos seguintes cenários:
- Você tem um sitemap bem mantido e atualizado.
- Você tem um site grande e precisa de um controle mais rigoroso sobre quais páginas da Web são indexadas. Isso resulta em um índice mais enxuto e gerenciável.
- Você precisa atualizar as páginas adicionadas e atualizadas diariamente e remover as páginas excluídas. Isso resulta em um índice mais atualizado que reflete o sitemap.
A tabela a seguir compara os diferentes métodos que atualizam o índice do repositório de dados:
| Método de atualização | Precisão | Intervenção manual | Frequência | Discovery |
|---|---|---|---|---|
| Atualização com base em sitemaps | Exata. Indexa apenas os URLs nos sitemaps. | Não é necessário após o envio do sitemap ou índice de sitemap | Diariamente para URLs adicionados, excluídos e atualizados no sitemap. 14 dias para URLs inalterados | Não além daqueles especificados no sitemap. |
| Atualização manual (também conhecida como novo rastreamento) | Exata. Indexa apenas os URLs especificados na solicitação de novo rastreamento. | Obrigatório | Sob demanda | Não. |
| Atualização automática | Não exata. O repositório de dados é atualizado da melhor maneira possível. | Não obrigatório | Aleatório e da melhor maneira possível | Sim. Descobre URLs além do que está disponível na Pesquisa Google. |
Antes de começar
Antes de enviar um sitemap ou índice de sitemap para o repositório de dados da Pesquisa de agentes:
Crie um sitemap XML ou um índice de sitemap que faça referência a todos os sitemaps do seu site de acordo com o protocolo de sitemaps.
- Entenda os fundamentos da criação de um sitemap. Para mais informações, consulte Conceitos de atualização com base em sitemaps e Criar e enviar um sitemap.
Para enviar um sitemap ou índice de sitemap para o repositório de dados da Pesquisa de agentes, não é necessário enviá-los para a Pesquisa Google.
Todos os URLs no sitemap que você quer indexar precisam pertencer a domínios públicos verificados no seu repositório de dados. Para mais informações, consulte Verificar domínios de sites.
O URI do sitemap ou o URI do índice de sitemap com os URIs de sitemap aninhados precisam estar disponíveis publicamente.
Se você usar o arquivo
robots.txtno seu site, atualize-o. Para mais informações, consulte como preparar o arquivo do seu siterobots.txt.
Enviar um sitemap ou índice de sitemap para um repositório de dados
Para acionar a indexação e a atualização das páginas da Web incluídas no seu repositório de dados, siga estas etapas:
Decida se você quer realizar uma atualização somente de sitemap ou uma atualização combinada com outros métodos.
Para realizar uma atualização somente de sitemap, siga esta etapa. Caso contrário, pule para a próxima etapa.
Não é possível usar um repositório de dados que já tenha indexação e atualização inicial. É necessário criar um novo repositório de dados desativando a indexação inicial e a atualização automática usando a
AdvancedSiteSearchConfigconfiguração.REST
Crie um repositório de dados em que apenas a atualização do sitemap esteja ativada. Isso é feito desativando o índice inicial e a atualização automática.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'Observação: definir
disableAutomaticRefreshcomotruedesativa apenas a atualização automática com base na descoberta. Isso não afeta a atualização automática diária que ocorre com base no sitemap fornecido (verificando mudanças como o campolastmod).Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa de agentes que você quer criar. Esse ID pode conter apenas letras minúsculas, dígitos, sublinhados e hifens.DATA_STORE_DISPLAY_NAME: o nome de exibição do repositório de dados da Pesquisa de agentes que você quer criar.
Atualize os padrões de URL dos sites para incluir e excluir no seu repositório de dados. Para mais informações, Crie um repositório de dados usando o conteúdo do site.
Verifique os domínios das páginas da Web incluídas no seu repositório de dados.
Se você escolher a atualização somente de sitemap ou uma atualização combinada refresh, envie um URI de sitemap ou índice de sitemap para um repositório de dados usando o
sitemaps.createmétodo.REST
Envie um sitemap ou índice de sitemap.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa de agentes.SITEMAP_URI: o URI público do sitemap individual ou do índice de sitemap que você quer enviar. Ao enviar um índice de sitemap, é suficiente enviar o URI do índice de sitemap. A Pesquisa de agentes indexa automaticamente os URLs incluídos em todos os sitemaps aninhados no índice de sitemap.
Depois de enviar o sitemap ou índice de sitemap para o repositório de dados, a Pesquisa de agentes aciona o seguinte:
- Uma indexação dos URLs qualificados no sitemap, ou seja, aqueles que estão incluídos no seu repositório de dados. Esse processo leva algumas horas em média para ser concluído. Sitemaps maiores podem levar mais tempo para serem indexados.
- Uma atualização diária das páginas da Web com URLs qualificados.
Para saber como as modificações no sitemap ou índice de sitemap afetam a atualização, consulte Mudanças no sitemap e no índice de sitemap.
Visualize os sitemaps no seu repositório de dados.
Mudanças no sitemap e no índice de sitemap
Após o envio inicial, a Pesquisa de agentes detecta modificações no sitemap ou índice de sitemap diariamente e processa essas modificações da seguinte maneira:
- Mudanças em um sitemap:
- Quando você adiciona URLs: os URLs que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
- Quando você remove URLs: se os URLs removidos estiverem no índice, eles serão removidos do índice e não serão mais atualizados.
- Quando você atualiza os URLs atuais, por exemplo, quando atualiza o campo
lastmodde um URL no sitemap: todos os URLs atualizados que correspondem ao padrão de URLs incluídos para o repositório de dados são atualizados. A atualização geralmente ocorre em até 24 horas após a atualização.
- Mudanças em um índice de sitemap:
- Quando você adiciona um sitemap: os URLs no novo sitemap que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
- Quando você remove um sitemap: os URLs que correspondem ao padrão de URLs incluídos para o repositório de dados não são mais atualizados. No entanto, eles ainda permanecem no índice. Para remover o sitemap e os URLs do índice, consulte Remover um sitemap e os URLs do índice.
Listar os sitemaps e índices de sitemaps em um repositório de dados
Para listar todos os sitemaps e índices de sitemaps em um repositório de dados, use o
sitemaps.fetch método. Se você tiver enviado um índice de sitemap, esse método retornará o índice de sitemap e não os sitemaps individuais aninhados.
Se não houver sitemaps no repositório de dados, essa solicitação retornará um arquivo JSON vazio.
REST
Liste os sitemaps e índices de sitemaps em um repositório de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa de agentes.
Verificar se um sitemap ou índice de sitemap está presente em um repositório de dados
Para verificar se um sitemap ou índice de sitemap está presente em um repositório de dados, use o método sitemaps.fetch. Se o sitemap ou índice de sitemap para o qual você está verificando for enviado ao repositório de dados, a resposta vai conter o nome e o URI do sitemap. Se você tiver enviado um índice de sitemap, a verificação de sitemaps individuais no índice de sitemap não retornará os resultados corretos.
REST
Verifique um sitemap ou índice de sitemap em um repositório de dados.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa de agentes.SITEMAP_URI_N: o URI público do sitemap ou o índice de sitemap que você quer verificar no repositório de dados.
Excluir um sitemap ou índice de sitemap do repositório de dados
Para excluir um sitemap do repositório de dados, use o
sitemap.delete método.
A exclusão de um sitemap não remove os URLs do índice. Para remover
o sitemap e os URLs do índice, consulte Remover um sitemap e os URLs
do índice.
REST
Exclua um sitemap ou índice de sitemap.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa de agentes.SITEMAP_ID: um ID exclusivo que identifica um sitemap ou índice de sitemap. Você pode encontrar esse ID no campo "name" da resposta ao enviar um sitemap ou índice de sitemap, ou listar os sitemaps e índices de sitemaps no seu repositório de dados.
Remover um sitemap ou índice de sitemap e os URLs do índice do repositório de dados
Para remover um sitemap ou índice de sitemap e os URLs do índice, siga estas etapas:
Esvazie o sitemap ou o índice de sitemap que foi enviado ao repositório de dados removendo todos os URLs.
Se você enviou um índice de sitemap para o repositório de dados, esvazie os sitemaps aninhados removendo todos os URLs e remova o sitemap do índice de sitemap.
Aguarde um período de 48 horas para que a Pesquisa de agentes processe essas mudanças e remova os URLs do índice do repositório de dados.