Caricamento dati delle conversazioni

I dati delle conversazioni vengono accettati come trascrizioni (Risposta rapida) e trascrizioni più dati di annotazione (Riassunto). Per utilizzare Risposta rapida e Riassunto durante il runtime, devi fornire i tuoi dati delle conversazioni.

Questa pagina ti guida nella procedura per utilizzare i set di dati pubblici e per formattare i tuoi dati per il caricamento in Cloud Storage. Devi fornire i dati delle conversazioni come file di testo in formato JSON.

Formato dei dati di Risposta rapida

Risposta rapida può essere utilizzata insieme a qualsiasi funzionalità di Agent Assist o come funzionalità autonoma. Per implementare Risposta rapida, devi fornire ad Agent Assist i dati delle conversazioni.

Formato dei dati di Riassunto

La riassunto può essere utilizzata insieme a qualsiasi funzionalità di Agent Assist o come funzionalità autonoma. Per implementare Riassunto, devi fornire ad Agent Assist i dati delle conversazioni che includono annotazioni. Un'annotazione è un riepilogo di una trascrizione della conversazione associata. Le annotazioni vengono utilizzate per addestrare un modello che puoi utilizzare per generare riepiloghi per i tuoi agenti alla fine di ogni conversazione con un utente finale.

Formattare le annotazioni

I modelli personalizzati di Riassunto di Assistente agente vengono addestrati utilizzando i set di dati delle conversazioni. Un set di dati delle conversazioni contiene i dati di trascrizione e annotazione caricati.

Prima di poter iniziare a caricare i dati, devi assicurarti che ogni trascrizione della conversazione sia in JSON formato, abbia un'annotazione associata e sia archiviata in un bucket Cloud Storage.

Per creare annotazioni, aggiungi le stringhe key e value previste al campo annotation associato a ogni conversazione nel set di dati. Per risultati ottimali, i dati di addestramento delle annotazioni devono rispettare le seguenti linee guida:

  1. Il numero minimo consigliato di annotazioni di addestramento è 1000. Il numero minimo applicato è 100.
  2. I dati di addestramento non devono contenere PII.
  3. Le annotazioni non devono includere informazioni su genere, razza o età.
  4. Le annotazioni non devono utilizzare un linguaggio tossico o volgare.
  5. Le annotazioni non devono contenere informazioni che non possono essere dedotte dalla trascrizione della conversazione corrispondente.
  6. Ogni annotazione può contenere fino a 3 sezioni. Puoi scegliere i nomi delle sezioni.
  7. Le annotazioni devono avere ortografia e grammatica corrette.

Di seguito è riportato un esempio che mostra il formato di una trascrizione della conversazione con l'annotazione associata:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Dati della trascrizione della conversazione

I dati delle conversazioni di testo devono essere forniti in file in formato JSON, in cui ogni file contiene i dati di una singola conversazione. Di seguito viene descritto il formato JSON richiesto.

Conversazione

L'oggetto di primo livello per i dati delle conversazioni.

Campo Tipo Descrizione
conversation_info ConversationInfo { } Facoltativo. Metadati per la conversazione.
entries Entry [ ] Obbligatorio. I messaggi della conversazione in ordine cronologico.

ConversationInfo

I metadati di una conversazione.

Campo Tipo Descrizione
categories Category [ ] Facoltativo. Categorie personalizzate per i dati delle conversazioni.

Categoria

Categoria dei dati delle conversazioni. Se fornisci le categorie con i dati delle conversazioni, queste verranno utilizzate per identificare gli argomenti nelle conversazioni. Se non fornisci le categorie, il sistema classificherà automaticamente le conversazioni in base ai contenuti.

Campo Tipo Descrizione
display_name string Obbligatorio. Un nome visualizzato per la categoria.

Entry

I dati di un singolo messaggio della conversazione.

Campo Tipo Descrizione
text string Obbligatorio. Il testo di questo messaggio della conversazione. Tutto il testo deve essere scritto con le maiuscole in modo appropriato. La qualità del modello può essere influenzata in modo significativo se tutte le lettere del testo sono maiuscole o minuscole. Se questo campo viene lasciato vuoto, verrà restituito un errore.
user_id integer Facoltativo. Un numero che identifica il partecipante alla conversazione. Ogni partecipante deve avere un singolo user_id, utilizzato ripetutamente se partecipa a più conversazioni.
role string Obbligatorio. Il ruolo del partecipante alla conversazione. Uno dei seguenti: "AGENT", "CUSTOMER".
start_timestamp_usec integer Facoltativo se la conversazione viene utilizzata solo per l'assistenza per le domande frequenti, il suggerimento di articoli e il riassunto, altrimenti obbligatorio. Il timestamp dell'inizio di questo turno di conversazione in microsecondi.

Esempio

Di seguito è riportato un esempio di file di dati delle conversazioni.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Caricare le conversazioni in Cloud Storage

Devi fornire i dati delle conversazioni in un bucket Cloud Storage contenuto nel tuo progetto Google Cloud Platform. Quando crei il bucket:

  • Assicurati di aver selezionato il progetto Google Cloud Platform che utilizzi per Dialogflow.
  • Utilizza la classe di archiviazione Standard Storage.
  • Imposta la località del bucket su una località più vicina a te. Quando fornisci i dati delle conversazioni, avrai bisogno dell'ID località (ad esempio us-west1), quindi prendi nota della tua scelta.
  • Quando fornisci i dati delle conversazioni, avrai bisogno anche del nome del bucket.

Segui le istruzioni della Guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.