Chatbot based on Ubuntu Dialogue Corpus

Corpus Features

此ubuntu语料既有Dialog State Tracking Challenge数据集的多次序对话特性,也有类似Twitter微博服务上的人类自然对话特点.但是它比Dialog State Tracking Challenge数据集大几个数量级.另外,相对于用于机器问答和分析的同等数量级Twitter数据集,ubunntu数据是基于特定领域的(ubuntu社区关于寻求ubuntu相关技术支持的语料),可以较好地制定目标.

此ubuntu数据量大,大约有一百万个对话.这对利用神经网络来建chatbot模型很有优势,能够充分发挥神经网络非线性学习能力.另外,语料中对次序对答的特点,可以不用人工标注标签来训练神经网络模型.

语料介绍

图中上面的表个是ubuntu channel中的对话语料,下表是经过dialogue extraction algorithm处理后得到的语料格式.

上下文（context）指的是从对话开始，截止到当前的内容，回答指的是对这段内容的回应。换而言之，上下文可以是若干句对话,而回答则是对这若干句对话的回应。正样本指的是该样本的上下文和回答是匹配的，对应地，负样本指的是二者是不匹配的——回答是从语料库的某个地方随机抽取的.下图是训练数据集的部分展示：

产生数据集的脚本使用NLTK为我们做了一系列的数据预处理工作——分词（tokenized）、英文单词取词根（stemmed）、英文单词变形的归类（lemmatized）（例如单复数归类）等。此外，例如人名、地名、组织名、URL链接、系统路径等专有名词，NLTK也做了替代。这些预处理工作也不是非做不可，不过它们似乎让结果精度他)

语料处理

1.去除语料中没有任何回答的问题;
2.去除一个用户超过大于5个utterance的部分,因为这种情况不能代表真正的聊天情况;
3.只保留大于三个问答(对答)次序的对话,以建立长次序依赖的模型;
4.接收者识别方法: 将用户姓名存为一个库,如果在语句中能够匹配到库中姓名;
5.对于没有明显提到recipient姓名的对话,如果该sender没有在此过程中和他人对话,那么就会把对话归为和第一个人对话的语料中;
6.一个问题会有多人回答的情况:根据提问者和回答者分别分为多个对话,虽然有一个问题会在多个对话中出现的情况,但是这个多出的数据量相对于整个数据集来说还是很小的比例.

数据处理

Predefined parameters

# The maximum number of words to consider for the contexts
MAX_CONTEXT_LENGTH = 80
# The maximum number of words to consider for the utterances
MAX_UTTERANCE_LENGTH = 30
# Word embedding dimensionality
EMBEDDING_SIZE = 300
# LSTM Cell dimensionality
LSTM_CELL_SIZE = 256

限制上下文和回答句子的长度是为了使得模型训练得更快,并且这能够包含大部分语句信息.词向量的维数为300，因为预先训练（pre-trained）好的无论是word2vec还是GloVe都是300维的，这样设定方便我们直接使用它们.(此论文研究中使用的是预先训练好的word2vec或者glove,后期我们可以尝试使用自己的语料来训练word2vec或者glove模型,并根据语料大小设置相应的向量维度.《How to Generate a Good Word Embedding?》导读

Programms

TF-IDF

Dual encoder LSTM

context和utterance以单词为粒度,利用Stanford的Glove训练词向量.

最后编辑于：2017.12.04 19:01:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342