Sincronize a partir do armazenamento na nuvem

Pode criar arquivos de dados a partir de tabelas do Cloud Storage de duas formas:

  • Carregamento único: importa dados de uma pasta ou de um ficheiro do Cloud Storage para um arquivo de dados. Os dados no repositório de dados não são alterados, a menos que atualize os dados manualmente.

  • Ingestão periódica: importa dados de uma pasta ou de um ficheiro do Cloud Storage e define uma frequência de sincronização que determina a frequência com que o armazenamento de dados é atualizado com os dados mais recentes dessa localização do Cloud Storage.

A tabela seguinte compara as duas formas de importar dados do Cloud Storage para os repositórios de dados do Gemini Enterprise.

Carregamento único Carregamento periódico
Disponível de forma geral (GA). Pré-visualização pública.
Os dados têm de ser atualizados manualmente. Os dados são atualizados automaticamente a cada um, três ou cinco dias. Não é possível atualizar os dados manualmente.
O Gemini Enterprise cria um único repositório de dados a partir de uma pasta ou um ficheiro no Cloud Storage. O Gemini Enterprise cria um conetor de dados e associa-lhe um arquivo de dados (denominado arquivo de dados de entidades) para o ficheiro ou a pasta especificados. Cada conetor de dados do Cloud Storage pode ter um único arquivo de dados de entidades.
Os dados de vários ficheiros, pastas e contentores podem ser combinados num único repositório de dados. Para tal, comece por carregar dados de uma localização do Cloud Storage e, em seguida, carregue mais dados de outra localização. Uma vez que a importação manual de dados não é suportada, os dados num arquivo de dados de entidades só podem ser provenientes de um ficheiro ou uma pasta do Cloud Storage.
O controlo de acesso à origem de dados é suportado. Para mais informações, consulte o artigo Controlo de acesso à origem de dados. O controlo de acesso à origem de dados não é suportado. Os dados importados podem conter controlos de acesso, mas estes controlos não são respeitados.
Pode criar um arquivo de dados através da Google Cloud consola ou da API. Tem de usar a consola para criar conetores de dados e os respetivos armazenamentos de dados de entidades.
Em conformidade com as CMEK. Em conformidade com as CMEK.

Importe uma vez a partir do Cloud Storage

Para carregar dados do Cloud Storage, siga estes passos para criar um arquivo de dados e carregar dados através da Google Cloud consola ou da API.

Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.

Consola

Para usar a consola para carregar dados de um contentor do Cloud Storage, siga estes passos:

  1. Na Google Cloud consola, aceda à página Gemini Enterprise.

    Gemini Enterprise

  2. Aceda à página Armazenamentos de dados.

  3. Clique em Criar arquivo de dados.

  4. Na página Selecione uma origem de dados, selecione Cloud Storage.

  5. Na secção Selecione uma pasta ou um ficheiro que quer importar, selecione Pasta ou Ficheiro.

  6. Clique em Procurar e escolha os dados que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo gs://.

  7. Selecione o tipo de dados que está a importar.

  8. Clique em Continuar.

  9. Se estiver a fazer uma importação única de dados estruturados:

    1. Mapeie campos para propriedades principais.

    2. Se faltarem campos importantes no esquema, use Adicionar novo campo para os adicionar.

      Para mais informações, consulte o artigo Acerca da deteção e edição automáticas.

    3. Clique em Continuar.

  10. Escolha uma região para o seu repositório de dados.

  11. Introduza um nome para o arquivo de dados.

  12. Opcional: se selecionou documentos não estruturados, pode selecionar opções de análise e divisão em blocos para os seus documentos. Para comparar analisadores, consulte o artigo Analise documentos. Para obter informações sobre a divisão em partes, consulte o artigo Divida documentos para a geração aumentada de recuperação (RAG).

    O analisador de OCR e o analisador de esquemas podem incorrer em custos adicionais.

    Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções do analisador que quer usar.

  13. Clique em Criar.

  14. Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do armazenamento de dados para ver os respetivos detalhes na página Dados. Quando a coluna de estado no separador Atividade muda de Em curso para Importação concluída, a ingestão está concluída.

    Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos ou várias horas.

REST

Para usar a linha de comandos para criar um arquivo de dados e carregar dados do Cloud Storage, siga estes passos.

  1. Crie um repositório de dados.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Substitua o seguinte:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do armazenamento de dados que quer criar. Este ID só pode conter letras minúsculas, dígitos, sublinhados e hífenes.
    • DATA_STORE_DISPLAY_NAME: o nome a apresentar da base de dados que quer criar.

    Opcional: para configurar a análise de documentos ou ativar a divisão de documentos em partes para a RAG, especifique o objeto documentProcessingConfig e inclua-o no seu pedido de criação do repositório de dados. Recomendamos que configure um analisador de OCR para PDFs se estiver a carregar PDFs digitalizados. Para saber como configurar as opções de análise ou divisão, consulte o artigo Analise e divida documentos.

  2. Importe dados do Cloud Storage.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Substitua o seguinte:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do armazenamento de dados.
    • INPUT_FILE_PATTERN: um padrão de ficheiro no Cloud Storage que contém os seus documentos.

      Para dados estruturados ou dados não estruturados com metadados, um exemplo do padrão de ficheiro de entrada é gs://<your-gcs-bucket>/directory/object.jsone um exemplo de padrão que corresponde a um ou mais ficheiros é gs://<your-gcs-bucket>/directory/*.json.

      Para documentos não estruturados, um exemplo é gs://<your-gcs-bucket>/directory/*.pdf. Cada ficheiro que corresponda ao padrão torna-se um documento.

      Se <your-gcs-bucket> não estiver em PROJECT_ID, tem de conceder à conta de serviço service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com autorizações de "Visualizador de objetos do Storage" para o contentor do Cloud Storage. Por exemplo, se estiver a importar um contentor do Cloud Storage do projeto de origem "123" para o projeto de destino "456", conceda autorizações service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com no contentor do Cloud Storage no projeto "123".

    • DATA_SCHEMA: opcional. Os valores são document, custom, csv e content. A predefinição é document.

      • document: carregue dados não estruturados com metadados para documentos não estruturados. Cada linha do ficheiro tem de seguir um dos seguintes formatos. Pode definir o ID de cada documento:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: carregue JSON para documentos estruturados. Os dados são organizados de acordo com um esquema. Pode especificar o esquema; caso contrário, é detetado automaticamente. Pode colocar a string JSON do documento num formato consistente diretamente em cada linha e o Gemini Enterprise gera automaticamente os IDs para cada documento importado.

      • content: carregar documentos não estruturados (PDF, HTML, DOC, TXT, PPTX). O ID de cada documento é gerado automaticamente como os primeiros 128 bits de SHA256(GCS_URI) codificados como uma string hexadecimal. Pode especificar vários padrões de ficheiros de entrada, desde que os ficheiros correspondentes não excedam o limite de 100 000 ficheiros.

      • csv: Inclua uma linha de cabeçalho no ficheiro CSV, com cada cabeçalho mapeado para um campo do documento. Especifique o caminho para o ficheiro CSV através do campo inputUris.

    • ERROR_DIRECTORY: opcional. Um diretório do Cloud Storage para informações de erro sobre a importação, por exemplo, gs://<your-gcs-bucket>/directory/import_errors. A Google recomenda deixar este campo vazio para permitir que o Gemini Enterprise crie automaticamente um diretório temporário.

    • RECONCILIATION_MODE: opcional. Os valores são FULL e INCREMENTAL. A predefinição é INCREMENTAL. A especificação de INCREMENTAL provoca uma atualização incremental dos dados do Cloud Storage para o seu repositório de dados. Esta ação executa uma operação de inserção/atualização, que adiciona novos documentos e substitui os documentos existentes por documentos atualizados com o mesmo ID. A especificação de FULL provoca uma nova base completa dos documentos no seu arquivo de dados. Por outras palavras, os documentos novos e atualizados são adicionados ao seu repositório de dados, e os documentos que não estão no Cloud Storage são removidos do seu repositório de dados. O modo FULL é útil se quiser eliminar automaticamente documentos de que já não precisa.

    • AUTO_GENERATE_IDS: opcional. Especifica se os IDs dos documentos devem ser gerados automaticamente. Se estiver definido como true, os IDs dos documentos são gerados com base num hash da carga útil. Tenha em atenção que os IDs dos documentos gerados podem não permanecer consistentes em várias importações. Se gerar automaticamente IDs em várias importações, a Google recomenda vivamente definir reconciliationMode como FULL para manter IDs de documentos consistentes.

      Especifique autoGenerateIds apenas quando gcsSource.dataSchema estiver definido como custom ou csv. Caso contrário, é devolvido um erro INVALID_ARGUMENT. Se não especificar autoGenerateIds ou o definir como false, tem de especificar idField. Caso contrário, a importação dos documentos falha.

    • ID_FIELD: opcional. Especifica os campos que são os IDs dos documentos. Para documentos de origem do Cloud Storage, idField especifica o nome nos campos JSON que são IDs de documentos. Por exemplo, se {"my_id":"some_uuid"} for o campo de ID do documento num dos seus documentos, especifique "idField":"my_id". Isto identifica todos os campos JSON com o nome "my_id" como IDs de documentos.

      Especifique este campo apenas quando: (1) gcsSource.dataSchema estiver definido como custom ou csv e (2) auto_generate_ids estiver definido como false ou não estiver especificado. Caso contrário, é devolvido um erro INVALID_ARGUMENT.

      Tenha em atenção que o nome do campo JSON especificado por id_field tem de ser do tipo string, ter entre 1 e 63 carateres e estar em conformidade com a RFC-1034. Caso contrário, a importação dos documentos falha.

Estabeleça ligação ao Cloud Storage com sincronização periódica

Antes de importar os seus dados, reveja o artigo Prepare os dados para carregamento.

O procedimento seguinte descreve como criar um conector de dados que associa uma localização do Cloud Storage a um conector de dados do Gemini Enterprise e como especificar uma pasta ou um ficheiro nessa localização para o armazenamento de dados que quer criar. Os repositórios de dados que são filhos de conetores de dados são denominados repositórios de dados de entidades.

Os dados são sincronizados periodicamente com o repositório de dados de entidades. Pode especificar a sincronização diária, a cada três dias ou a cada cinco dias.

Consola

  1. Na Google Cloud consola, aceda à página Gemini Enterprise.

    Gemini Enterprise

  2. Aceda à página Armazenamentos de dados.

  3. Clique em Criar arquivo de dados.

  4. Na página Origem, selecione Cloud Storage.

  5. Selecione o tipo de dados que está a importar.

  6. Clique em Periódico.

  7. Selecione a Frequência de sincronização, ou seja, a frequência com que quer que o conector do Gemini Enterprise seja sincronizado com a localização do Cloud Storage. Pode alterar a frequência mais tarde.

  8. Na secção Selecione uma pasta ou um ficheiro que quer importar, selecione Pasta ou Ficheiro.

  9. Clique em Procurar e escolha os dados que preparou para carregamento e, de seguida, clique em Selecionar. Em alternativa, introduza a localização diretamente no campo gs://.

  10. Clique em Continuar.

  11. Escolha uma região para o conetor de dados.

  12. Introduza um nome para o conetor de dados.

  13. Opcional: se selecionou documentos não estruturados, pode selecionar opções de análise e divisão em blocos para os seus documentos. Para comparar analisadores, consulte o artigo Analise documentos. Para obter informações sobre a divisão em partes, consulte o artigo Divida documentos para a geração aumentada de recuperação (RAG).

    O analisador de OCR e o analisador de esquemas podem incorrer em custos adicionais.

    Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções do analisador que quer usar.

  14. Clique em Criar.

    Criou um conetor de dados que vai sincronizar periodicamente os dados com a localização do Cloud Storage. Também criou um arquivo de dados de entidades com o nome gcs_store.

  15. Para verificar o estado do carregamento, aceda à página Armazenamentos de dados e clique no nome do conetor de dados para ver os respetivos detalhes na página Dados

    Separador Atividade de carregamento de dados. Quando a coluna de estado no separador Atividade de carregamento de dados muda de Em curso para Concluído com êxito, o primeiro carregamento está concluído.

    Consoante o tamanho dos seus dados, a carregamento pode demorar vários minutos a várias horas.

Depois de configurar a origem de dados e importar dados pela primeira vez, os dados são sincronizados a partir dessa origem com uma frequência que seleciona durante a configuração. Cerca de uma hora após a criação do conetor de dados, ocorre a primeira sincronização. A sincronização seguinte ocorre cerca de 24 horas, 72 horas ou 120 horas mais tarde.

Passos seguintes

  • Para anexar o seu arquivo de dados a uma app, crie uma app e selecione o seu arquivo de dados seguindo os passos em Crie uma app de pesquisa.

  • Para pré-visualizar a apresentação dos resultados da pesquisa após a configuração da app e do arquivo de dados, consulte o artigo Pré-visualizar resultados da pesquisa.