GcsSource

输入内容的 Cloud Storage 位置。

JSON 表示法
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
字段
inputUris[]

string

必需。输入文件的 Cloud Storage URI。每个 URI 最多可包含 2,000 个字符。URI 可以匹配完整的对象路径(例如 gs://bucket/directory/object.json),也可以匹配一个或多个文件的模式(例如 gs://bucket/directory/*.json)。

一个请求最多可包含 100 个文件(如果 dataSchemacontent,则最多可包含 10 万个文件)。每个文件的大小上限为 2 GB(如果 dataSchemacontent,则上限为 100 MB)。

dataSchema

string

从来源解析数据时要使用的模式。

文档导入支持的值:

  • document(默认):每行一个 JSON Document。每个文档必须有一个有效的 Document.id
  • content:非结构化数据(例如 PDF、HTML)。inputUris 匹配到的每个文件都成为一个文档,其 ID 设置为 SHA256(URI) 的前 128 位(以十六进制字符串形式编码)。
  • custom:每行一个自定义数据 JSON,采用符合数据存储区定义的 Schema 的任意格式。此字段仅可用于通用数据存储区垂直领域。
  • csv:一个带有标头的 CSV 文件,采用符合数据存储区定义的 Schema 的格式。标头后的每个条目都作为一个文档导入。此字段仅可用于通用数据存储区垂直领域。

用户事件导入支持的值:

  • user_event(默认):每行一个 JSON UserEvent