GcsSource

מיקום ב-Cloud Storage של תוכן הקלט.

ייצוג ב-JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
שדות
inputUris[]

string

חובה. ‫Cloud Storage URIs לקובצי קלט. כל URI יכול להיות באורך של עד 2,000 תווים. מזהי ה-URI יכולים להתאים לנתיב המלא של האובייקט (לדוגמה, gs://bucket/directory/object.json) או לדפוס שמתאים לקובץ אחד או יותר, כמו gs://bucket/directory/*.json.

בקשה יכולה להכיל לכל היותר 100 קבצים (או 100,000 קבצים אם dataSchema הוא content). כל קובץ יכול להיות בגודל של עד 2GB (או 100MB אם dataSchema הוא content).

dataSchema

string

הסכמה שמשמשת לניתוח הנתונים מהמקור.

ערכים נתמכים לייבוא מסמכים:

  • document (ברירת מחדל): קובץ JSON אחד Document בכל שורה. לכל מסמך צריך להיות Document.id חוקי.
  • content: נתונים לא מובנים (למשל PDF, ‏ HTML). כל קובץ שתואם ל- inputUris הופך למסמך, והמזהה שלו מוגדר ל-128 הביטים הראשונים של SHA256(URI) שמקודדים כמחרוזת הקסדצימלית.
  • custom: קובץ JSON אחד של נתונים מותאמים אישית לכל שורה בפורמט שרירותי שתואם לSchema המוגדר של מאגר הנתונים. אפשר להשתמש בזה רק ב-GENERIC Data Store vertical.
  • csv: קובץ CSV עם כותרת שמתאימה ל-Schema המוגדר של מאגר הנתונים. כל רשומה אחרי הכותרת מיובאת כמסמך. אפשר להשתמש בזה רק ב-Data Store האנכי GENERIC.

ערכים נתמכים לייבוא אירועים ברמת המשתמש:

  • user_event (ברירת מחדל): קובץ JSON אחד UserEvent בכל שורה.