REST Resource: projects.locations.collections.dataStores.branches.documents.chunks

资源:Chunk

块会捕获以块模式推荐或搜索的商品的所有原始元数据信息。

JSON 表示法
{
  "name": string,
  "id": string,
  "content": string,
  "documentMetadata": {
    object (DocumentMetadata)
  },
  "derivedStructData": {
    object
  },
  "pageSpan": {
    object (PageSpan)
  },
  "chunkMetadata": {
    object (ChunkMetadata)
  },
  "dataUrls": [
    string
  ],
  "annotationContents": [
    string
  ],
  "annotationMetadata": [
    {
      object (AnnotationMetadata)
    }
  ],
  "relevanceScore": number
}
字段
name

string

块的完整资源名称。格式:projects/{project}/locations/{location}/collections/{collection}/dataStores/{dataStore}/branches/{branch}/documents/{documentId}/chunks/{chunk_id}

此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。

id

string

当前块的唯一块 ID。

content

string

内容是文档中的字符串(已解析的内容)。

documentMetadata

object (DocumentMetadata)

当前块中相应文档的元数据。

derivedStructData

object (Struct format)

仅限输出。此字段为 OUTPUT_ONLY。它包含原始输入文档中没有的派生数据。

pageSpan

object (PageSpan)

块的页面跨度。

chunkMetadata

object (ChunkMetadata)

仅限输出。当前块的元数据。

dataUrls[]

string

仅限输出。如果当前块包含图片,则为图片数据网址。数据网址由四部分组成:前缀 (data:)、指示数据类型的 MIME 类型、可选的 base64 令牌(如果是非文本数据)和数据本身:data:[][;base64],

annotationContents[]

string

仅限输出。如果当前块包含注释,则为注释内容。

annotationMetadata[]

object (AnnotationMetadata)

仅限输出。注解元数据包含当前块中的结构化内容。

relevanceScore

number

仅限输出。表示基于相似性的相关性得分。得分越高,表示块的相关性越高。得分介于 [-1.0, 1.0] 范围内。仅在 SearchResponse 上填充。

DocumentMetadata

文档元数据包含当前块的文档信息。

JSON 表示法
{
  "uri": string,
  "title": string,
  "mimeType": string,
  "structData": {
    object
  }
}
字段
uri

string

文档的 URI。

title

string

文档的标题。

mimeType

string

文档的 MIME 类型。https://www.iana.org/assignments/media-types/media-types.xhtml

structData

object (Struct format)

数据表示法。相应文档的结构化 JSON 数据。它应符合已注册的 Schema,否则会抛出 INVALID_ARGUMENT 错误。

PageSpan

块的页面跨度。

JSON 表示法
{
  "pageStart": integer,
  "pageEnd": integer
}
字段
pageStart

integer

块的起始网页。

pageEnd

integer

块的结束页面。

ChunkMetadata

当前块的元数据。此字段仅在 SearchService.Search API 上填充。

JSON 表示法
{
  "previousChunks": [
    {
      object (Chunk)
    }
  ],
  "nextChunks": [
    {
      object (Chunk)
    }
  ]
}
字段
previousChunks[]

object (Chunk)

当前块的前几个块。该数量由 SearchRequest.ContentSearchSpec.ChunkSpec.num_previous_chunks 控制。此字段仅在 SearchService.Search API 上填充。

nextChunks[]

object (Chunk)

当前块的后续块。该数量由 SearchRequest.ContentSearchSpec.ChunkSpec.num_next_chunks 控制。此字段仅在 SearchService.Search API 上填充。

AnnotationMetadata

注解元数据包含当前块中的结构化内容。

JSON 表示法
{
  "structuredContent": {
    object (StructuredContent)
  },
  "imageId": string
}
字段
structuredContent

object (StructuredContent)

仅限输出。结构化内容信息。

imageId

string

仅限输出。如果结构化内容基于图片,则提供图片 ID。

StructuredContent

结构化内容信息。

JSON 表示法
{
  "structureType": enum (StructureType),
  "content": string
}
字段
structureType

enum (StructureType)

仅限输出。结构化内容的结构类型。

content

string

仅限输出。结构化内容的内容。

StructureType

定义可提取的结构化内容类型。

枚举
STRUCTURE_TYPE_UNSPECIFIED 默认值。
SHAREHOLDER_STRUCTURE 股东结构。
SIGNATURE_STRUCTURE 签名结构。
CHECKBOX_STRUCTURE 复选框结构。

方法

get

获取 Document

list

获取 Chunk 的列表。