대화 데이터는 스크립트 (스마트 답장) 및 스크립트와 주석 데이터 (요약)로 허용됩니다. 런타임 중에 스마트 답장 및 요약을 사용하려면 고유한 대화 데이터를 제공해야 합니다.
이 페이지에서는 공개 데이터 세트를 사용하고 Cloud Storage에 업로드할 자체 데이터를 포맷하는 데 필요한 단계를 안내합니다. 대화 데이터는 JSON 형식의 텍스트 파일로 제공해야 합니다.
스마트 답장 데이터 형식
스마트 답장은 모든 Agent Assist 기능과 함께 사용하거나 독립형 기능으로 사용할 수 있습니다. 스마트 답장을 구현하려면 Agent Assist에 대화 데이터를 제공해야 합니다.
요약 데이터 형식
요약은 모든 Agent Assist 기능과 함께 사용하거나 독립형 기능으로 사용할 수 있습니다. 요약 기능을 구현하려면 주석이 포함된 대화 데이터를 Agent Assist에 제공해야 합니다. 주석은 연결된 대화 스크립트의 요약입니다. 주석은 최종 사용자와의 각 대화가 끝날 때 에이전트의 요약을 생성하는 데 사용할 수 있는 모델을 학습하는 데 사용됩니다.
주석 서식 지정
Agent Assist 요약 맞춤 모델은 대화 데이터 세트를 사용하여 학습됩니다. 대화 데이터 세트에는 직접 업로드한 스크립트 및 주석 데이터가 포함됩니다.
데이터 업로드를 시작하기 전에 각 대화 스크립트가 JSON 형식이고 연결된 주석이 있으며 Google Cloud Storage 버킷에 저장되어 있는지 확인해야 합니다.
주석을 만들려면 데이터 세트의 각 대화와 연결된 annotation 필드에 예상되는 key 및 value 문자열을 추가합니다. 최상의 결과를 얻으려면 주석 학습 데이터가 다음 가이드라인을 준수해야 합니다.
- 권장되는 최소 학습 주석 수는 1,000개입니다. 강제 적용되는 최소 개수는 100입니다.
- 학습 데이터에 개인 식별 정보가 포함되어서는 안 됩니다.
- 주석에는 성별, 인종 또는 연령에 관한 정보가 포함되어서는 안 됩니다.
- 주석에 유해하거나 불경한 언어를 사용해서는 안 됩니다.
- 주석에는 해당 대화 스크립트에서 추론할 수 없는 정보가 포함되어서는 안 됩니다.
- 각 주석에는 최대 3개의 섹션이 포함될 수 있습니다. 섹션 이름을 직접 선택할 수 있습니다.
- 주석에는 올바른 맞춤법과 문법을 사용해야 합니다.
다음은 연결된 주석이 있는 대화 스크립트의 형식을 보여주는 예입니다.
{
"entries": [
{
"text": "How can I help?",
"role": "AGENT"
},
{
"text": "I cannot login",
"role": "CUSTOMER"
},
{
"text": "Ok, let me confirm. Are you experiencing issues accessing your account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "CUSTOMER"
},
{
"text": "Got it. Do you still have access to the registered email for the account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "AGENT"
},
{
"text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
"role": "AGENT"
},
{
"text": "That's nice",
"role": "CUSTOMER"
},
{
"text": "Is there anything else I can help",
"role": "AGENT"
},
{
"text": "No that's all",
"role": "CUSTOMER"
},
{
"text": "Thanks for calling. You have a nice day",
"role": "AGENT"
}
],
"conversation_info": {
"annotations": [
{
"annotation": {
"conversation_summarization_suggestion": {
"text_sections": [
{
"key": "Situation",
"value": "Customer was unable to login to account"
},
{
"key": "Action",
"value": "Agent sent an email with password reset instructions"
},
{
"key": "Outcome",
"value": "Problem was resolved"
}
]
}
}
}
]
}
}
대화 스크립트 데이터
텍스트 대화 데이터는 각 파일마다 단일 대화의 데이터가 포함된 JSON 형식의 파일로 제공되어야 합니다. 다음은 필수 JSON 형식을 설명합니다.
대화
대화 데이터의 최상위 객체입니다.
| 필드 | 유형 | 설명 |
|---|---|---|
| conversation_info | ConversationInfo { } | 선택사항. 대화의 메타데이터입니다. |
| entries | Entry [ ] | 필수 항목입니다. 시간순으로 정렬된 대화 메시지입니다. |
대화 정보
대화의 메타데이터입니다.
| 필드 | 유형 | 설명 |
|---|---|---|
| categories | Category [ ] | 선택사항. 대화 데이터의 커스텀 카테고리입니다. |
카테고리
대화 데이터 카테고리입니다. 대화 데이터와 함께 카테고리를 제공하면 대화의 주제를 식별하는 데 카테고리가 사용됩니다. 카테고리를 제공하지 않으면 시스템에서 콘텐츠에 따라 대화를 자동으로 분류합니다.
| 필드 | 유형 | 설명 |
|---|---|---|
| display_name | 문자열 | 필수 항목입니다. 카테고리의 표시 이름입니다. |
항목
단일 대화 메시지의 데이터입니다.
| 필드 | 유형 | 설명 |
|---|---|---|
| 텍스트 | 문자열 | 필수 항목입니다. 이 대화 메시지의 텍스트입니다. 모든 텍스트를 대문자로 적절하게 표기해야 합니다. 텍스트의 모든 문자가 대문자이거나 소문자일 경우 모델 품질이 크게 영향을 받을 수 있습니다. 이 필드를 비워두면 오류가 반환됩니다. |
| user_id | 정수 | 선택사항. 대화 참여자를 식별하는 번호입니다. 여러 대화에 참여하는 경우 참가자마다 반복적으로 사용하는 단일 user_id가 있어야 합니다. |
| role | 문자열 | 필수 항목입니다. 대화 참여자 역할입니다. 'AGENT', 'CUSTOMER' 중 하나입니다. |
| start_timestamp_usec | 정수 | 대화가 FAQ 지원, 자료 추천, 요약에만 사용되는 경우 선택사항이고, 그렇지 않으면 필수입니다. 이 대화의 시작 타임스탬프가 마이크로초 단위로 표시됩니다. |
예시
다음은 대화 데이터 파일의 예시입니다.
{
"conversation_info":{
"categories":[
{
"display_name":"Category 1"
}
]
},
"entries": [
{
"start_timestamp_usec": 1000000,
"text": "Hello, I'm calling in regards to ...",
"role": "CUSTOMER",
"user_id": 1
},
{
"start_timestamp_usec": 5000000,
"text": "Yes, I can answer your question ...",
"role": "AGENT",
"user_id": 2
},
...
]
}
Cloud Storage에 대화 업로드
Google Cloud Platform 프로젝트에 포함된 Cloud Storage 버킷에 대화 데이터를 제공해야 합니다. 버킷을 만들려면 다음 안내를 따르세요.
- Dialogflow에 사용할 Google Cloud Platform 프로젝트를 선택했는지 확인합니다.
- 표준 스토리지 클래스를 사용합니다.
- 버킷 위치를 자신과 가장 가까운 위치로 설정합니다.
대화 데이터를 제공할 때 위치 ID(예:
us-west1)가 필요하므로 선택한 위치 ID를 기록합니다. - 대화 데이터를 제공할 때 버킷 이름도 필요합니다.
Cloud Storage 빠른 시작의 안내를 따라 버킷을 만들고 파일을 업로드합니다.