【笔记】搜索引擎中的Query改写Keyword技术研究

技术文章链接:https://mp.weixin.qq.com/s/aW5NaF6-SqJXpkO687XdAw
发表于微信公众号:360搜索实验室
以下是对360搜索实验室发表的这篇技术文章的阅读笔记。

背景

搜索引擎对关键词形式的query返回结果好,而对一般自然语言形式的query返回结果差。需要将一般自然语言形式的query转化成关键词形式的query,其实是从一句话中提取关键词。

关键词提取

抽取方式

  1. 分词
  2. 计算词语的重要程度,计算方式有基于tf-idf和基于TextRank的
  3. 按照词语的重要程度排序,挑选top n个词语作为关键词

基于tf-idf

tf:词频
idf:词的区分能力
tfidf:词的重要性,tfidf高,则选为关键词。按照tf*idf排序,挑选top n个词语作为关键词。

基于TextRank

借鉴PageRank
在k长度窗口中词的相邻关系来得到PageRank的链接指向关系。所以如果一个词V_i在这个k长度窗口中只出现一次,则只有一个词(w的前一个词)指向V_i,它也只指向一个词(V_i的后一个词)。但是如果V_i在这个k长度窗口出现多次,或者V_i在其他的k长度窗口也出现了,则会有多个词指向V_i,V_i也会指向多个词。
迭代公式如下:


迭代公式.png

WS(V_j)表示词V_j的重要性;d是阻尼系数,决定TextRank算法一次能影响多少;In(V_i)是指向该词V_i的集合;Out(V_j)该词V_j指向的词的集合;w_ji表示词V_j指向词V_i的链接的权重。公式的计算结果得到WS(V_i)词V_i的重要性。
TextRank不断迭代下去,每个词V_i的重要性WS(V_i)会收敛,趋于一个稳定值,即得到词V_i最终的重要性。
WS(V_i)高,则选为关键词。按照WS(V_i)排序,挑选top n个词语作为关键词。

生成方式

  1. 理解用户原始query
  2. 生成与用户原始query意思一致的关键词
    利用深度学习文本生成技术来进行关键词抽取

seq2seq结构

seq2seq结构.png

seq2seq结构包括:
(1)encoder:将可变长度的序列的信息(以<EOL>作为输入序列的结束标志)存放在一个固定长度的向量里
(2)decoder:将encoder得到的固定长度向量的信息解码成可变长度的序列(以<EOL>作为输出序列的结束标志)
nmt机器翻译模型就是采用了这种seq2seq结构。

seq2seq结构的局限性

编码和解码之间的联系只有一个固定长度的向量。encoder要将整个序列的信息都压缩到一个固定长度的向量,很有可能整个序列的信息无法都压缩到这个向量里,而且即使是LSTM做为encoder,仍然无法记住很久之前的信息,这个固定长度的向量只能保留少部分先输入的信息。

seq2seq结构的改进:attention based seq2seq

attention其实是个矩阵,表示输出时需要重点关注输入的哪些部分。
attention based seq2seq结构如下:


attention based seq2seq.png

attention矩阵计算公式为:


attention矩阵计算公式.png

e_ij评估了第j个输入h_j与第i个输出s_{i-1}的match程度;a_ij相关于是e_ij的归一化结果,其实就是e_ij的softmax值,得到0-1的值a_ij,a_ij仍然是衡量第j个输入h_j与第i个输出s_{i-1}的match程度。
attention based seq2seq运用到机器翻译任务时,attention也被称为对齐模型,比如“今天天气真好”翻译完“今天”之后, 注意力就会在“天气”上,考虑应该将“天气”翻译成什么词。相当于将当前翻译的词与新生成的词进行对齐。
attention based seq2seq广泛应用于机器翻译,文本摘要和智能问答等任务,但对于文本摘要,关键词提取等任务,其decoder部分仍然有很大的提升空间。

attention based seq2seq问题

问题一:

OOV(Out of Vocabulary)问题
decoder产生的词只能是来自 训练数据分词得到的词汇表。测试时,测试集target句子中的词有可能没有在训练数据中出现,则decoder无法生成这些词;测试集source句子中的词有可能没有在训练数据中出现,则encoder不认识这些词,无法对这些词进行编码,会直接将其认为是unknown “<unk>”,而直接输出到target预测结果中,并保持在source中的位置。

问题一的解决方法:pointer network

利用attention矩阵的softmax分布作为pointer指针,指针指向的输入中的词作为输出,实际上是平衡了“抽取”(指针直接指向重要的词)和“生成”两种方式的优点。

问题二:

decoder过度依赖其输入,也就是先前的总结词,会导致一个词的出现触发无尽的重复。

问题二的解决方法:采用coverage机制

对前期注意力覆盖的词进行惩罚,防止用过的词再被使用。

综合两种解决方法:Pointer-Generator Network

Pointer-Generator Network.png

将输入中词的概率和词表中词的概率做一个加权和


image.png

当词语不在词表中,则利用输入中的attention分值进行选取。能有效解决OOV问题。
对于重复问题,维护一个coverage向量,记录之前所有attention和


image.png

在loss里加入这一项,这样可以对之前考虑过的词进行惩罚,防止重复。

结果对比

生成方式的训练数据:qt对,query和点击的URL的title。将title作为输入,query作为输出。


结果对比.png

结论

生成方式要好于抽取方式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容