Crea un almacén de datos de medios

En esta página, se explica cómo crear un almacén de datos para contenido multimedia y cómo importar datos a él.

Antes de comenzar

Asegúrate de hacer lo siguiente:

Elige el procedimiento según tu fuente de datos

Para crear un almacén de datos de contenido multimedia y, luego, importar documentos, ve a la sección de la fuente que planeas usar:

Importa desde BigQuery

Console

Para usar la Google Cloud consola y crear un almacén de datos de contenido multimedia, además de importar documentos y eventos de usuarios desde BigQuery, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página AI Applications.

    Aplicaciones basadas en IA

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona BigQuery.

  5. Selecciona Multimedia: Tabla de BigQuery con datos estructurados de contenido multimedia como el tipo de datos que importarás.

  6. En el campo Ruta de BigQuery , haz clic en Explorar , selecciona los datos de BigQuery que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo Ruta de BigQuery.

  7. Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y salta al paso 11.

  8. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  9. Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.

  10. Haz clic en Continuar.

    No puedes continuar hasta que se asignen las propiedades clave obligatorias, que se indican con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  11. Ingresa un nombre para tu almacén de datos y haz clic en Crear.

Importa desde Cloud Storage

Console

Para usar la Google Cloud consola y crear un almacén de datos de contenido multimedia, además de importar documentos desde Cloud Storage, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página AI Applications.

    Aplicaciones basadas en IA

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona Cloud Storage.

  5. Selecciona Datos estructurados de contenido multimedia (JSONL que contiene archivos multimedia) como el tipo de datos que importarás.

  6. En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.

  7. Haz clic en Explorar , elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo gs://.

  8. Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y salta al paso 11.

  9. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  10. Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.

  11. Haz clic en Continuar.

    No puedes continuar hasta que se asignen las propiedades clave obligatorias, que se indican con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  12. Ingresa un nombre para tu almacén de datos y haz clic en Crear.

Importa documentos con la API

Si usas el esquema predefinido de Google, puedes importar tus documentos haciendo una solicitud POST al método REST Documents:import con el objeto InlineSource para especificar tus datos.

Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.

Requisitos de importación

Estos son los requisitos para importar documentos multimedia con la API:

  • Cada documento debe estar en su propia línea.

  • La cantidad máxima de documentos en una sola importación es 100.

Procedimiento

Para importar documentos multimedia con la API, haz lo siguiente:

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu Google Cloud proyecto
    • DATA_STORE_ID: el ID del almacén de datos de Agent Search que deseas crear (este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones)
    • DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Agent Search que deseas crear
  2. Crea el archivo JSON para tu documento y llámalo ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Llama al método POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto
    • DATA_STORE_ID: el ID de tu almacén de datos

Formato de documento JSON

En los siguientes ejemplos, se muestran entradas Document en formato JSON.

Proporciona un documento completo en una sola línea. Cada documento debe estar en su propia línea.

Campos obligatorios mínimos:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objeto completo:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Supervisa la importación y visualiza los datos

  1. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del almacén de datos para ver los detalles en la página Datos.

  2. Haz clic en la pestaña Actividad.

    Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

  3. Haz clic en Documentos para ver los datos que importaste.

Importa eventos de usuario

Para importar eventos de usuarios a tu almacén de datos de contenido multimedia, haz lo siguiente:

¿Qué sigue?

  • Crea una app de recomendaciones de contenido multimedia o una app de búsqueda de contenido multimedia.

  • Mantén actualizados los datos de tus documentos.

    Lo ideal es actualizar tu almacén de datos a diario importando datos nuevos. La programación de importaciones periódicas evita que la calidad del modelo se degrade con el tiempo. También puedes usar Google Cloud Scheduler para automatizar las importaciones.

    Solo puedes actualizar los documentos nuevos o modificados, o puedes importar todo el almacén de datos. Si importas documentos que ya están en tu almacén de datos, no se vuelven a agregar. Se actualiza cualquier documento que haya cambiado.

  • Mantén actualizados los datos de eventos de usuarios.

    Es particularmente importante que mantengas actualizados tus eventos de usuarios. La app de recomendaciones deja de funcionar si no hay suficientes eventos de usuarios nuevos para cumplir con los requisitos de datos.

    Para obtener información sobre cómo importar datos de eventos de usuarios en tiempo real, consulta Registra eventos de usuarios en tiempo real.

    Para obtener información sobre cómo supervisar los requisitos de eventos de usuarios, consulta Verifica la calidad de los datos para las recomendaciones de contenido multimedia.