사이트맵을 사용하여 웹페이지 색인 생성 및 새로고침

데이터 스토어에서 고급 웹사이트 색인 생성이 사용 설정된 경우 사이트맵을 제출하고 사용하여 데이터 스토어의 웹페이지에 색인을 생성하고 새로고침할 수 있습니다. 이 기능은 XML 사이트맵 및 사이트맵 색인만 지원합니다.

이 페이지에서는 사이트맵 기반 색인 생성 및 새로고침을 트리거하기 위해 사이트맵 또는 사이트맵 색인을 제출하는 방법을 설명합니다. 사이트맵 없이 자동 및 수동 새로고침을 이해하고 구현하려면 웹페이지 새로고침을 참고하세요.

또한 이 페이지에서는 데이터 스토어에서 사이트맵을 보거나 사이트맵을 삭제하는 방법을 설명합니다.

사이트맵 기반 새로고침 개념

다음은 시작하는 데 도움이 되는 몇 가지 주요 개념과 용어입니다.

  • 사이트맵 프로토콜: Agent Search에서 지원하는 모든 사이트맵 및 사이트맵 색인은 사이트맵 프로토콜을 따라야 합니다.

  • 사이트맵: 사이트맵은 UTF-8로 인코딩된 XML 파일로, 웹사이트 내 웹페이지 및 파일의 URL 목록과 중요하지만 선택적인 기타 정보(예: 웹페이지의 마지막 수정 날짜, 웹사이트 내 다른 웹페이지에 대한 크롤러의 웹페이지 우선순위)가 포함되어 있습니다. 사이트맵 프로토콜에 따르면 단일 사이트맵은 최대 50,000개의 URL을 포함할 수 있으며 최대 50MB일 수 있습니다.

  • 사이트맵 색인: 사이트맵이 최대 URL 또는 최대 크기를 초과하는 경우 여러 사이트맵을 만들고 이러한 사이트맵을 사이트맵 색인 파일에 나열할 수 있습니다. 사이트맵 프로토콜에 따르면 단일 사이트맵 색인은 최대 50,000개의 사이트맵을 중첩할 수 있으며 최대 50MB일 수 있습니다.

Agent Search에 하나 이상의 사이트맵, 하나 이상의 사이트맵 색인 또는 사이트맵과 사이트맵 색인의 조합을 제출할 수 있습니다.

사이트맵 또는 사이트맵 색인을 Agent Search 데이터 스토어에 제출하면 다음 작업이 트리거됩니다.

  • 데이터 스토어 색인에 포함된 URL의 색인 생성.

    • 사이트맵 전용 새로고침의 경우 이 목록에는 데이터 스토어에 포함된 URL 패턴에 맞는 사이트맵 또는 사이트맵 색인의 URL만 포함됩니다.
    • 조합 새로고침의 경우 이 목록에는 자동 새로고침 프로세스에서 발견하는 모든 URL이 포함됩니다.

    이러한 두 가지 새로고침 프로세스에 관한 자세한 내용은 웹사이트 데이터 스토어 새로고침 방법사이트맵 전용 새로고침을 참고하세요.

  • 사이트맵에 추가, 삭제, 업데이트된 URL의 일일 새로고침. 업데이트된 URL의 예는 사이트맵에서 URL의 lastmod 필드를 업데이트하는 경우입니다.

  • 변경되지 않은 URL의 14일마다 주기적 새로고침.

웹사이트 데이터 스토어 새로고침 방법

다음 방법 중 하나를 선택하여 데이터 스토어에 사이트맵 기반 새로고침을 통합할 수 있습니다.

  • 사이트맵 전용 새로고침: 초기 색인 생성 및 자동 새로고침을 사용 중지하여 사이트맵 기반 새로고침만 사용합니다.
  • 조합 새로고침: 초기 색인 생성 및 자동 새로고침과 함께 사이트맵 기반 새로고침을 사용합니다.

선택한 새로고침 방법과 관계없이 언제든지 데이터 스토어 색인에서 특정 웹페이지를 수동으로 새로고침할 수 있습니다.

사이트맵 전용 새로고침

웹사이트 데이터 스토어를 만들 때는 데이터 스토어의 색인에 포함할 웹페이지의 URL 패턴을 제공해야 합니다. 기본적으로 웹사이트 데이터 스토어 만들기를 완료하면 Agent Search에서 이러한 포함된 웹페이지의 초기 색인을 생성합니다.

고급 웹사이트 색인 생성을 사용하는 웹사이트 데이터 스토어의 경우 초기 색인 생성 프로세스는 자동 새로고침의 일부입니다. 초기 색인 생성 프로세스는 Google 검색에서 사용할 수 있는 모든 포함된 URL의 색인을 생성합니다. 이러한 URL의 초기 최신 상태는 Google 검색에서 사용할 수 있는 최신 상태를 반영합니다. 초기 색인 생성 후 자동 새로고침 프로세스는 새 페이지를 발견하고 최선을 다해 새로고침합니다. 이 프로세스는 필요한 것 이상일 수 있는 URL을 발견하므로 상대적으로 오래된 페이지와 더 큰 색인이 생성될 수 있습니다.

대신 사이트맵 전용 새로고침을 실행하도록 선택할 수 있습니다. 이는 다음과 같은 시나리오에서 유용합니다.

  • 최신 상태로 유지되는 사이트맵이 있습니다.
  • 웹사이트가 크고 색인이 생성되는 웹페이지를 더 엄격하게 제어해야 합니다. 이렇게 하면 더 간결하고 관리 가능한 색인이 생성됩니다.
  • 추가 및 업데이트된 페이지를 매일 새로고침하고 삭제된 페이지를 삭제해야 합니다. 이렇게 하면 사이트맵을 반영하는 더 최신 색인이 생성됩니다.

다음 표에서는 데이터 스토어 색인을 새로고침하는 다양한 방법을 비교합니다.

새로고침 방법 정밀도 수동 개입 빈도 탐색
사이트맵 기반 새로고침 정확함. 사이트맵의 URL만 색인이 생성됩니다. 사이트맵 또는 사이트맵 색인을 제출한 후에는 필요하지 않음 사이트맵에서 추가, 삭제, 업데이트된 URL의 경우 매일. 변경되지 않은 URL의 경우 14일 사이트맵에 지정된 것 이상이 아님.
수동 새로고침 (재크롤링이라고도 함) 정확함. 재크롤링 요청에 지정된 URL만 색인이 생성됩니다. 필수 주문형 아니요.
자동 새로고침 정확하지 않음. 데이터 스토어는 최선을 다해 새로고침됩니다. 필수 아님 무작위 및 최선을 다해 예. Google 검색에서 사용할 수 있는 것 이상의 URL을 발견합니다.

시작하기 전에

사이트맵 또는 사이트맵 색인을 Agent Search 데이터 스토어에 제출하기 전에 다음을 수행합니다.

사이트맵 또는 사이트맵 색인을 데이터 스토어에 제출

데이터 스토어에 포함된 웹페이지의 색인 생성 및 새로고침을 트리거하려면 다음 단계를 따르세요.

  1. 사이트맵 전용 새로고침을 실행할지 아니면 다른 방법과 조합하여 새로고침할지 결정합니다.

  2. 사이트맵 전용 새로고침을 실행하려면 이 단계를 따르고, 그렇지 않으면 다음 단계로 건너뜁니다.

    초기 색인 생성 및 새로고침이 있는 기존 데이터 스토어는 사용할 수 없습니다. 구성을 사용하여 초기 색인 생성 및 자동 새로고침을 사용 중지하여 새 데이터 스토어를 만들어야 합니다.AdvancedSiteSearchConfig

    REST

    사이트맵 새로고침만 사용 설정된 데이터 스토어를 만듭니다. 이는 초기 색인 및 자동 새로고침을 사용 중지하여 수행됩니다.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    참고: disableAutomaticRefreshtrue로 설정하면 탐색 기반 자동 새로고침만 비활성화됩니다. 제공된 사이트맵을 기반으로 발생하는 일일 자동 새로고침 (lastmod 필드와 같은 변경사항 확인)에는 영향을 미치지 않습니다.

    다음을 바꿉니다.

    • PROJECT_ID: 프로젝트의 ID입니다. Google Cloud
    • DATA_STORE_ID: 만들려는 Agent Search 데이터 스토어의 ID입니다. 이 ID는 소문자, 숫자, 밑줄, 하이픈만 포함할 수 있습니다.
    • DATA_STORE_DISPLAY_NAME: 만들려는 Agent Search 데이터 스토어의 표시 이름입니다.

  3. 데이터 스토어에 포함하고 제외할 사이트의 URL 패턴을 업데이트합니다. 자세한 내용은 웹사이트 콘텐츠를 사용하여 데이터 스토어 만들기를 참고하세요.

  4. 웹페이지의 도메인을 확인합니다. 데이터 스토어에 포함된

  5. 사이트맵 전용 새로고침 또는 조합 새로고침을 선택하든 관계없이 사이트맵 또는 사이트맵 색인 URI를 데이터 스토어에 제출합니다. sitemaps.create 메서드를 사용하여

    REST

    사이트맵 또는 사이트맵 색인을 제출합니다.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    다음을 바꿉니다.

    • PROJECT_ID: 프로젝트의 ID입니다. Google Cloud
    • DATA_STORE_ID: Agent Search 데이터 스토어의 ID입니다.
    • SITEMAP_URI: 제출하려는 개별 사이트맵 또는 사이트맵 색인의 공개 URI입니다. 사이트맵 색인을 제출할 때는 사이트맵 색인의 URI를 제출하는 것으로 충분합니다. Agent Search는 사이트맵 색인 내에 중첩된 모든 사이트맵에 포함된 URL의 색인을 자동으로 생성합니다.

    사이트맵 또는 사이트맵 색인을 데이터 스토어에 제출하면 Agent Search에서 다음을 트리거합니다.

    • 사이트맵의 적격 URL(데이터 스토어에 포함된 URL)의 색인 생성. 이 프로세스는 완료하는 데 평균 몇 시간이 걸립니다. 사이트맵이 클수록 색인을 생성하는 데 시간이 더 오래 걸릴 수 있습니다.
    • 적격 URL이 있는 웹페이지의 일일 새로고침.

    사이트맵 또는 사이트맵 색인 수정이 새로고침에 미치는 영향을 알아보려면 사이트맵 및 사이트맵 색인 변경사항을 참고하세요.

  6. 데이터 스토어에서 사이트맵을 봅니다.

사이트맵 및 사이트맵 색인 변경사항

초기 제출 후 Agent Search는 매일 사이트맵 또는 사이트맵 색인의 수정을 감지하고 다음과 같은 방식으로 이러한 수정을 처리합니다.

  • 사이트맵 변경사항:
    • URL을 추가할 때: 데이터 스토어의 포함된 URL 패턴과 일치하는 URL이 색인에 추가되고 매일 새로고침됩니다.
    • URL을 삭제할 때: 삭제된 URL이 색인에 있는 경우 색인에서 삭제되고 더 이상 새로고침되지 않습니다.
    • 기존 URL을 업데이트할 때(예: 사이트맵에서 URL의 lastmod 필드를 업데이트할 때): 데이터 스토어의 포함된 URL 패턴과 일치하는 업데이트된 URL이 새로고침됩니다. 새로고침은 일반적으로 업데이트 후 24시간 이내에 발생합니다.
  • 사이트맵 색인 변경사항:
    • 사이트맵을 추가할 때: 데이터 스토어의 포함된 URL 패턴과 일치하는 새 사이트맵의 URL이 색인에 추가되고 매일 새로고침됩니다.
    • 사이트맵을 삭제할 때: 데이터 스토어의 포함된 URL 패턴과 일치하는 URL은 더 이상 새로고침되지 않습니다. 하지만 색인에는 계속 남아 있습니다. 색인에서 사이트맵과 URL을 삭제하려면 색인에서 사이트맵과 URL 삭제를 참고하세요.

데이터 스토어의 사이트맵 및 사이트맵 색인 나열

데이터 스토어의 모든 사이트맵 및 사이트맵 색인을 나열하려면 sitemaps.fetch 메서드를 사용합니다. 사이트맵 색인을 제출한 경우 이 메서드는 개별 중첩 사이트맵이 아닌 사이트맵 색인을 반환합니다. 데이터 스토어에 사이트맵이 없는 경우 이 요청은 빈 JSON 파일을 반환합니다.

REST

데이터 스토어의 사이트맵 및 사이트맵 색인을 나열합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

다음을 바꿉니다.

  • PROJECT_ID: 프로젝트의 ID입니다. Google Cloud
  • DATA_STORE_ID: Agent Search 데이터 스토어의 ID입니다.

사이트맵 또는 사이트맵 색인이 데이터 스토어에 있는지 확인

사이트맵 또는 사이트맵 색인이 데이터 스토어에 있는지 확인하려면 sitemaps.fetch 메서드를 사용합니다. 확인하려는 사이트맵 또는 사이트맵 색인이 데이터 스토어에 제출된 경우 응답에는 사이트맵 이름과 사이트맵 URI가 포함됩니다. 사이트맵 색인을 제출한 경우 사이트맵 색인 내에서 개별 사이트맵을 확인해도 올바른 결과가 반환되지 않습니다.

REST

데이터 스토어에서 사이트맵 또는 사이트맵 색인을 확인합니다.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

다음을 바꿉니다.

  • PROJECT_ID: 프로젝트의 ID입니다. Google Cloud
  • DATA_STORE_ID: Agent Search 데이터 스토어의 ID입니다.
  • SITEMAP_URI_N: 데이터 스토어에서 확인하려는 사이트맵 또는 사이트맵 색인의 공개 URI입니다.

데이터 스토어에서 사이트맵 또는 사이트맵 색인 삭제

데이터 스토어에서 사이트맵을 삭제하려면 sitemap.delete 메서드를 사용합니다. 사이트맵을 삭제해도 색인에서 URL이 삭제되지는 않습니다. 색인에서 사이트맵과 URL을 삭제하려면 색인에서 사이트맵과 URL 삭제를 참고하세요.

REST

사이트맵 또는 사이트맵 색인을 삭제합니다.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

다음을 바꿉니다.

  • PROJECT_ID: 프로젝트의 ID입니다. Google Cloud
  • DATA_STORE_ID: Agent Search 데이터 스토어의 ID입니다.
  • SITEMAP_ID: 사이트맵 또는 사이트맵 색인을 식별하는 고유 ID입니다. 사이트맵 또는 사이트맵 색인을 제출하거나 데이터 스토어의 사이트맵 및 사이트맵 색인을 나열할 때 응답의 이름 필드에서 이 ID를 찾을 수 있습니다.

데이터 스토어 색인에서 사이트맵 또는 사이트맵 색인 및 URL 삭제

색인에서 사이트맵 또는 사이트맵 색인 및 URL을 삭제하려면 다음 단계를 따르세요.

  1. 모든 URL을 삭제하여 데이터 스토어에 제출된 사이트맵 또는 사이트맵 색인을 비웁니다.

    사이트맵 색인을 데이터 스토어에 제출한 경우 모든 URL을 삭제하여 중첩된 사이트맵을 비우고 사이트맵 색인에서 사이트맵을 삭제합니다.

  2. Agent Search에서 이러한 변경사항을 처리하고 데이터 스토어의 색인에서 URL을 삭제하는 데 48시간 동안 기다립니다.

  3. 사이트맵 또는 사이트맵 색인을 삭제합니다.