Sube datos de conversaciones

Los datos de conversación se aceptan como transcripciones (Respuestas inteligentes) y transcripciones más datos de anotación (Resumen). Para usar Respuesta inteligente y Resumen durante el tiempo de ejecución, debes proporcionar tus propios datos de conversación.

En esta página, se explican los pasos necesarios para usar los conjuntos de datos públicos y dar formato a tus propios datos para subirlos a Cloud Storage. Debes proporcionar tus datos de conversación como archivos de texto con formato JSON.

Formato de datos de Respuesta inteligente

La Respuesta inteligente se puede usar junto con cualquier función de Agent Assist o como una función independiente. Para implementar Respuesta inteligente, debes proporcionar datos de conversación a Agent Assist.

Formato de datos de resumen

El resumen se puede usar junto con cualquier función de Agent Assist o como una función independiente. Para implementar la función de Resumen, debes proporcionar a Asistente de agente datos de conversaciones que incluyan anotaciones. Una anotación es un resumen de la transcripción de una conversación asociada. Las anotaciones se usan para entrenar un modelo que puedes usar para generar resúmenes para tus agentes al final de cada conversación con un usuario final.

Anotaciones de formato

Los modelos personalizados de Resúmenes con Agent Assist se entrenan con conjuntos de datos de conversaciones. Un conjunto de datos de conversación contiene los datos de transcripción y anotación que subiste.

Antes de comenzar a subir datos, debes asegurarte de que cada transcripción de conversación esté en formato JSON, tenga una anotación asociada y se almacene en un bucket de Google Cloud Storage.

Para crear anotaciones, agrega las cadenas key y value esperadas al campo annotation asociado con cada conversación de tu conjunto de datos. Para obtener los mejores resultados, los datos de entrenamiento de las anotaciones deben cumplir con los siguientes lineamientos:

  1. La cantidad mínima recomendada de anotaciones de entrenamiento es de 1,000. La cantidad mínima obligatoria es 100.
  2. Los datos de entrenamiento no deben contener PII.
  3. Las anotaciones no deben incluir información sobre el género, la raza o la edad.
  4. Las anotaciones no deben usar lenguaje tóxico ni profano.
  5. Las anotaciones no deben contener información que no se pueda inferir de la transcripción de la conversación correspondiente.
  6. Cada anotación puede contener hasta 3 secciones. Puedes elegir los nombres de las secciones.
  7. Las anotaciones deben tener la ortografía y la gramática correctas.

A continuación, se muestra un ejemplo que ilustra el formato de una transcripción de conversación con la anotación asociada:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Datos de transcripción de conversaciones

Los datos de conversaciones de texto deben proporcionarse en archivos con formato JSON, en los que cada archivo contiene datos de una sola conversación. A continuación, se describe el formato JSON requerido.

Conversación

Es el objeto de nivel superior para los datos de conversación.

Campo Tipo Descripción
conversation_info ConversationInfo { } Es opcional. Son los metadatos de la conversación.
entradas Entrada [ ] Obligatorio. Son los mensajes de la conversación ordenados cronológicamente.

ConversationInfo

Son los metadatos de una conversación.

Campo Tipo Descripción
categories Categoría [ ] Es opcional. Son categorías personalizadas para los datos de la conversación.

Categoría

Es la categoría de datos de conversación. Si proporcionas categorías con los datos de tus conversaciones, se usarán para identificar temas en ellas. Si no proporcionas categorías, el sistema clasificará automáticamente las conversaciones según el contenido.

Campo Tipo Descripción
display_name cadena Obligatorio. Es el nombre visible de la categoría.

Entrada

Son los datos de un solo mensaje de conversación.

Campo Tipo Descripción
texto cadena Obligatorio. Es el texto de este mensaje de conversación. Todas las palabras deben tener la primera letra en mayúscula. La calidad del modelo puede verse afectada de manera significativa si todas las letras del texto están en mayúsculas o minúsculas. Se mostrará un error si se deja vacío este campo.
user_id integer Es opcional. Número que identifica al participante de la conversación. Cada participante debe tener un solo user_id, que se usará repetidamente si participa en varias conversaciones.
rol cadena Obligatorio. Es el rol del participante de la conversación. Puede ser uno de los siguientes: "AGENT" o "CUSTOMER".
start_timestamp_usec integer Es opcional si la conversación solo se usa para la asistencia de preguntas frecuentes, la sugerencia y el resumen de artículos; de lo contrario, es obligatorio. Es la marca de tiempo del inicio de este turno de conversación en microsegundos.

Ejemplo

A continuación, se muestra un ejemplo de un archivo de datos de conversación.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Sube conversaciones a Cloud Storage

Debes proporcionar tus datos de conversación en un bucket de Cloud Storage incluido en tu proyecto de Google Cloud Platform. Cuando crees el bucket, haz lo siguiente:

  • Asegúrate de seleccionar el proyecto de Google Cloud Platform que usas para Dialogflow.
  • Usa la clase Standard Storage.
  • Como ubicación de bucket, selecciona la opción más cercana a la ubicación en la que te encuentres. Necesitarás el ID de ubicación (por ejemplo, us-west1) cuando proporciones los datos de la conversación, así que toma nota de tu elección.
  • También necesitarás el nombre del bucket cuando proporciones los datos de conversación.

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.