GcsSource

入力コンテンツの Cloud Storage のロケーション。

JSON 表現
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
フィールド
inputUris[]

string

必須。入力ファイルの Cloud Storage URI。各 URI の長さは 2,000 文字までです。URI は、完全なオブジェクト パス(gs://bucket/directory/object.json など)または 1 つ以上のファイルに一致するパターン(gs://bucket/directory/*.json など)に一致できます。

リクエストには最大 100 個のファイル(dataSchemacontent の場合は 100,000 個のファイル)を含めることができます。各ファイルのサイズは最大 2 GB(dataSchemacontent の場合は 100 MB)です。

dataSchema

string

ソースからのデータ解析に使用するスキーマ。

ドキュメントのインポートでサポートされている値は次のとおりです。

  • document(デフォルト): 1 行に 1 つの JSON Document。各ドキュメントには有効な Document.id が必要です。
  • content: 非構造化データ(PDF、HTML など)。inputUris に一致する各ファイルはドキュメントになり、ID は SHA256(URI) の最初の 128 ビットを 16 進文字列としてエンコードした値に設定されます。
  • custom: データストアの定義された Schema に準拠した任意の形式のカスタムデータ JSON。行ごとに 1 つ。これは、一般的なデータストアの業種でのみ使用できます。
  • csv: データストアの定義された Schema に準拠するヘッダーを含む CSV ファイル。ヘッダーの後の各エントリはドキュメントとしてインポートされます。これは、GENERIC データストア業種でのみ使用できます。

ユーザー イベントのインポートでサポートされている値は次のとおりです。

  • user_event(デフォルト): 1 行に 1 つの JSON UserEvent