GcsSource

输入内容的 Cloud Storage 位置。

JSON 表示法
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
字段
inputUris[]

string

必需。输入文件的 Cloud Storage URI。每个 URI 最多可包含 2,000 个字符。URI 可以与完整对象路径(例如 gs://bucket/directory/object.json)匹配,也可以与匹配一个或多个文件的模式(例如 gs://bucket/directory/*.json)匹配。

一个请求最多可包含 100 个文件(如果 dataSchemacontent,则最多可包含 10 万个文件)。每个文件的大小上限为 2 GB(如果 dataSchemacontent,则上限为 100 MB)。

dataSchema

string

从来源解析数据时要使用的架构。

支持的文档导入值:

  • document(默认):每行一个 JSON Document。每个文档都必须具有有效的 Document.id
  • content:非结构化数据(例如 PDF、HTML)。inputUris 匹配的每个文件都会成为一个文档,其 ID 设置为 SHA256(URI) 的前 128 位(以十六进制字符串形式编码)。
  • custom:每行一个自定义数据 JSON,采用符合数据存储区定义的 Schema 的任意格式。此功能只能由“宽泛”数据存储区垂直行业使用。
  • csv:一个 CSV 文件,其标头符合数据存储区的已定义 Schema。标题后的每个条目都会作为文档导入。此功能只能由“宽泛”数据存储区垂直行业使用。

支持的用户事件导入值:

  • user_event(默认):每行一个 JSON UserEvent