Nesta página, explicamos como criar um repositório de dados de mídia e importar dados para ele.
Antes de começar
É necessário fazer o seguinte:
Confira os conceitos relacionados a dados e esquemas de mídia:
Decida se você vai usar o esquema predefinido do Google para seus dados de mídia ou seu próprio esquema.
Se você estiver usando seu próprio esquema, verifique se ele tem campos que são bem mapeados para as propriedades de mídia do esquema personalizado:
title,url,category, e assim por diante.Coloque seus documentos de mídia no esquema JSON e faça o upload dos dados para o BigQuery ou o Cloud Storage.
Consulte Sobre eventos de usuário de mídia e prepare seus eventos de usuário para importação. Os eventos de usuário são necessários para todos os apps de mídia.
Escolher o procedimento de acordo com a fonte de dados
Para criar um repositório de dados de mídia e importar documentos, acesse a seção da fonte que você planeja usar:
Importar do BigQuery
Console
Para usar o Google Cloud console e criar um repositório de dados de mídia e importar documentos e eventos de usuário do BigQuery, siga estas etapas:
No Google Cloud console, acesse a página Aplicativos de IA.
Acesse a página Repositório de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione BigQuery.
Selecione Mídia: tabela do BigQuery com dados de mídia estruturados como o tipo de dados que você está importando.
No campo Caminho do BigQuery , clique em Procurar , selecione os dados do BigQuery que você preparou para ingestão e clique em Selecionar. Como alternativa, insira o local diretamente no campo Caminho do BigQuery.
Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.
Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não é possível continuar até que as propriedades principais necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranjas .
Insira um nome para o repositório de dados e clique em Criar.
Importar do Cloud Storage
Console
Para usar o Google Cloud console e criar um repositório de dados de mídia e importar documentos do Cloud Storage, siga estas etapas:
No Google Cloud console, acesse a página Aplicativos de IA.
Acesse a página Repositório de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione Cloud Storage.
Selecione Dados estruturados de mídia (JSONL contendo arquivos de mídia) como o tipo de dados que você está importando.
Na seção Selecionar uma pasta ou um arquivo para importar, selecione Pasta ou Arquivo.
Clique em Procurar, escolha os dados que você preparou para ingestão e clique em Selecionar. Como alternativa, insira o local diretamente no campo
gs://.Se os dados estiverem no esquema predefinido do Google, escolha Esquema predefinido do Google, clique em Continuar e pule para a etapa 11.
Se os dados estiverem no seu próprio esquema, escolha Esquema personalizado e clique em Continuar.
Analise o esquema detectado e use o menu Propriedades principais para atribuir propriedades aos campos do esquema.
Clique em Continuar.
Não é possível continuar até que as propriedades principais necessárias sejam mapeadas, indicadas por marcas de seleção verdes em vez de marcas de aviso laranjas .
Insira um nome para o repositório de dados e clique em Criar.
Importar documentos usando a API
Se você estiver usando o esquema predefinido do Google, poderá importar seus documentos
fazendo uma solicitação POST para o método REST
Documents:import, usando o objeto
InlineSource para especificar seus dados.
Para ver um exemplo do formato de documento JSON, consulte Formato de documento JSON.
Requisitos de importação
Confira os requisitos para importar documentos de mídia usando a API:
Cada documento precisa estar em uma linha.
O número máximo de documentos em uma única importação é 100.
Procedimento
Para importar documentos de mídia usando a API, siga estas etapas:
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'Substitua:
PROJECT_ID: o ID do Google Cloud projeto.DATA_STORE_ID: o ID do repositório de dados da Pesquisa do agente que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hífens.DATA_STORE_DISPLAY_NAME: o nome de exibição do repositório de dados da Pesquisa do agente que você quer criar.
Crie o arquivo JSON para seu documento e chame-o
./data.json:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }Chame o método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
Substitua:
PROJECT_ID: o ID do projeto.DATA_STORE_ID: o ID do repositório de dados.
Formato de documento JSON
Os exemplos a seguir mostram entradas Document no formato JSON.
Forneça um documento inteiro em uma única linha. Cada documento precisa estar em uma linha.
Campos obrigatórios mínimos:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Monitorar a importação e visualizar dados
Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do repositório de dados para conferir os detalhes na página Dados.
Clique na guia Atividade.
Quando a coluna de status na guia Atividade mudar de Em andamento para Importação concluída, a ingestão será concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
Clique em Documentos para visualizar os dados importados.
Importar eventos de usuário
Para importar eventos de usuário para o repositório de dados de mídia:
- Siga as instruções em Importar eventos históricos do usuário events.
A seguir
Crie um app de recomendações de mídia ou um app de pesquisa de mídia.
Mantenha os dados do documento atualizados.
O ideal é atualizar o repositório de dados diariamente, importando dados novos. A programação de importações periódicas evita que a qualidade do modelo diminua com o tempo. Use o Google Cloud Scheduler para automatizar importações.
É possível atualizar apenas documentos novos ou alterados ou importar todo o repositório de dados. Se você importar documentos que já estão no seu repositório de dados, eles não serão adicionados novamente. Todos os documentos que foram alterados serão atualizados.
Mantenha os dados de eventos do usuário atualizados.
É muito importante manter os eventos do usuário atualizados. O app de recomendações para de funcionar se não houver eventos de usuário novos suficientes para atender aos requisitos de dados.
Para informações sobre como importar dados de eventos do usuário em tempo real, consulte Gravar eventos do usuário em tempo real.
Para informações sobre monitoramento dos requisitos de eventos do usuário, consulte Verificar a qualidade de dados para recomendações de mídia.