个性化通用聊天机器人
FAIR今年公开了一个基于Persona的聊天数据集(见论文《Personalizing Dialogue Agents: I have a dog, do you have pets too?》),并且基于此数据集举办了CONVAI2比赛。我在这里简要记录论文阅读笔记。
本文贡献了一个基于Persona的聊天数据集,致力于解决
- 聊天机器人缺乏一致性格特征
- 聊天机器人缺乏长期记忆
- 聊天机器人经常给出模糊的回应,例如I don't know
相关工作
- 任务型Bot
- POMDP
- 非任务型Bot
- hand-coded
- IR模型:依据与最近对话历史的匹配程度,对答复进行排序、提取
- 生成式循环模型(Seq2Seq): 不依赖具体规则;源于语言模型和机器翻译,文法正确,可以生成全新的答复;但是需要大量数据,依据最近文本生成而不使用外部记忆,无法具有领域知识和一致的性格。
- memory-augmented network
- 个性化Bot
- 任务型Bot意识到用户Profile,调整对话
- 使用embedding来捕获用户个体特点
数据集
- OpenSubtitles
- Cornell Movie-Dialogue Corpus
- dialogue from web platforms such as Reddit and Twitter
这些数据集涵盖各色人等,训练得到的模型无法具有一致的性格特征,无法学着了解对话者的性格和感兴趣的话题。
PERSONA-CHAT数据集
收集三步骤
用户画像(Personas)
- 1155 personas,每个包含至少5句描述,100 personas for validation, 100 personas for test
- 关于个人的有趣的话题
修正用户画像
- 重写上述persona,使得文法更加突出性格特征,接近自然描述
基于用户画像的聊天
- 匹配两用户,为他们各指定一个人设,请他们聊天
- 10981 对话, 968 validation,1000 test
Evaluation
- 给定对话历史,预测下一句
- 提供profile
- 己方profile
- 对方profile
- 双方profile
- 不提供profile
- 提供profile
- perplexity: 正确序列的似然
- next utterance classification loss
Reference
Personalizing Dialogue Agents: I have a dog, do you have pets too?