搜索引擎 --- 论长尾词

今天的标题是论长尾词,长尾词是什么?在百度百科上,长尾词解释是:非目标关键词但也可以带来搜索流量的关键词。这是一个明显的SEM的长尾词解释,简单来说,长尾词就是那些个每天搜索量不是很多,但是一直都有搜索量的词。

首先,我们给个结论,长尾词是个金矿。

长尾词有些什么特征呢:

  • 比较长,这个长和长尾词的长不是一个意思,一般的搜索词都比较精炼,比如只有一两个词语,一般不超过三个,而长尾词可能有5,6个短语组成。
  • 搜索意图一般都比较明确,就是说用户搜长尾词的话,一般搜索的意图都比较明确,比如如果用户搜索范冰冰李晨,可能用户只是听说了这两个人有联系,搜索只是想看看范冰冰和李晨到底有什么联系,但是如果搜索范冰冰李晨康熙来了,那么这个用户很可能知道他俩有一腿,并且知道他们上了康熙来了,然后想搜索出那一期的康熙来了来看看,所以意图比第一种情况明确多了。
  • 搜索次数比较少,这个很好理解,搜索范冰冰李晨的搜索肯定比范冰冰李晨康熙来了的人要多的多得多。
  • 总量特别巨大,虽然说搜索次数少,但是使用搜索的人多啊,脑洞也大啊,所以长尾词的搜索量总的来说是巨大的。

所以,今天,我们来聊聊长尾词,我们不分析大搜的长尾词优化,还是讲垂直类搜索的长尾词,垂直类的长尾词一般分成两种,一是有搜索结果的,只是被搜索的次数比较少,这种不在优化范围内,即便要优化也是对排序的优化,一种是这个长尾词没有搜索结果,这种是需要优化的,要优化到有个结果。

长尾词的处理

从搜索引擎端来看,长尾词是个金矿,我们知道一般的事物都会满足二八原则,搜索引擎也不例外,一般20%的搜索词占用了80%的流量,甚至更多,剩下80%的搜索词都属于长尾词,如果优化这一部分搜索词的体验直接影响到用户的留存率,有时候用户就是通过一两个词的搜索就会主观判断出哪个搜索引擎更好,我们看个大搜的例子。

比如我们搜索多路求交,这是一个比较专业的词语,同时也是一个不太常用的词语,属于长尾词的范围。

我们在google搜索的话,出现的是下面的搜索结果(第一个结果请忽略,是我文章写出来以后被收录的),前几个结果感觉比较靠谱吧,至少说的都是算法方面的东西,而且确实是求交集的文章。

dlqjgoogle.jpg

然后我们再看看百度的搜索结果,对于这种结果,我只能是呵呵了。

dlqjbaidu.jpg

很明显,一个正常的人,要是搜几次偏一点的东西都是出现上面的结果,那必然会觉得google更靠谱了。

好,我们来看看,这个搜索词在这两个搜索引擎端都做了什么?

  • 在google端,他分析了这个搜索词,然后把这个搜索词变成了多路/求交集,这样的搜索词,并且他认为交集是这个搜索词的重要词(中心词),排序上占优,所以这样分析完以后,即便搜索出来的很多不太相关的东西,但是排序以后出来的结果也比较靠谱了。
  • 我们再看看在百度端,百度做了啥呢?呵呵,直接切词成多路/求/交了,首先没管词序,所以出现了第一个求多路这样的词组合,第二因为搜索不到结果,所以把这个关键词去掉了继续搜,出现了第二个多路公交这样的文章,后面的结果完全没法看了(我写了三天的文章完全没有被收录【直接搜索数据检索,败者树,K路求交也找不到我的文章】,他们爬虫估计也有问题,呵呵呵呵呵呵)。

上面是在通用搜索引擎端遇到长尾词,直接影响的是用户体验,如果是在垂直搜索领域(比如说电商领域)遇到长尾词,那可能直接影响到的就是订单了,比如我们在淘宝和京东搜索喇叭 高腰 牛仔 七分 李维斯(为了避免广告嫌疑,搜索结果没有截图)。

tbcwc.jpg
jdcwc.jpg

这种词是一个搜索意图非常明确的长尾词,我们看看京东和淘宝分别做了什么(这里不做搜索结果的好坏比较,因为京东的服装本来就比淘宝的服装要少,搜索不出来很正常),看看中国第一和第二大电商为了这个长尾词能尽可能多的让用户点击搜索结果都做了啥。

  • 首先,他们都分析了这个长尾词,找到了他们认为比较关键的词,这一步两边得出来的结果就很不一样了。
  • 淘宝认为李维斯这个品牌不是重要的词,直接去掉了,淘宝认为前面这些个描述才比较重要,是用户的主要意图,他给推荐了喇叭,高腰,牛仔,七分这几个词的三三组合。
  • 京东搜索分析出来以后,觉得李维斯,牛仔才是重要词,用户主要意图在这个品牌上面而不在款式上,所以直接给出了牛仔,李维斯作为推荐词进行搜索,谁好谁坏,大家各自心里有各自的想法,也许女生觉得淘宝的好,男士觉得京东的好,这个东西没什么定论的。

再说一遍,上面这个比较不能说明两个搜索引擎的差距,在这个品类上,淘宝的商品优势更明显,所以出现无结果的情况更少,我举的这个例子只是为了说明再寻找关键词上不同的引擎会有差异。

我们看到了大搜和垂直搜索中遇到长尾词的一些个情况,前面我们说了长尾词是金矿,如果能处理好长尾词,那么京东淘宝的成单率估计也能上一个台阶。那么在搜索引擎端如何来优化长尾词呢?

用户搜索意图分析

所谓用户的搜索意图分析,就是这个用户到底想搜什么?

对于电商的搜索,用户意图一定是一个商品,只不过表述这个商品的关键词不一样而已。

比如上面说的京东和淘宝的例子中,京东认为用户想搜的是李维斯这个品牌,而淘宝认为的是用户想搜的是这些款式的牛仔,如何得到这些个关键词呢,首先这些关键词一般是一些具体的物品(比如牛仔裤,鞋子,帽子),或者一些品牌(比如李维斯),因为在电商网站,买物品和买品牌才是关键,所以将物品词作为关键词比较说得过去,而对于物品词的提取,可以通过你已有的商品进行提取,因为每个商品都是一个物品,都有一个物品词或者品牌词,整个商品过一遍就有你所有的物品品牌词了,当用户的搜索词里面出现了这个物品或者这个品牌,那么我们即使没搜索出来东西,给出这个物品或者这个品牌的商品,用户一般也会有点击。

如果是大搜的话,用户搜索意图的分析就复杂了,因为不见得是搜物品了,那个我也只懂点皮毛,就不在这里瞎扯了。

有了这个关键词的分析,基本上长尾词能干掉大部分的没有结果的情况,因为只要用户搜索的词里面有个物品或者品牌(一般肯定有),基本上都能出一个不太离谱的搜索结果。

当然,对于电商类搜索,还有一种特殊的情况,找到了搜索词中的关键词也不顶用,那就卖书的电商,比如当当,亚马逊这种,因为书名可不能体现这个商品的关键词,比如追风筝的人,你说关键词是风筝还是人?如果有人搜索放风筝的人,你怎么办?这里,就要用到下面的方法了。

后继词挖掘

后继词挖掘是基于用户行为数据的,比如上面那个放风筝的人搜索结果我们要是不满意,用户会自己修改关键词,然后找到他想找的结果,这个用户主动修改过的词就是这个词的后继词,那么我们可以把这个用户行为记录下来,当这个长尾词搜不出东西时,用他的后继词来给出一个搜索结果,这种靠用户自己的修正值进行的长尾词优化效果比较好,但是他的前提是已经有人搜索过这个词并且主动修改过关键词了。

这里说一句,我们看到的百度的相关搜索就是一个后继词的应用。

编辑距离

编辑距离来找意图也是一种方法,这里我们不展开了,以后说意图识别的时候再具体说说编辑距离,感兴趣的可以自己查查,简单说就是我们发现一个商品的标题和用户的搜索词差别比较小,小余某个设定的编辑距离,那么我们就把这个长尾词改成这个标题,上面那个搜索中,追风筝的人放风筝的人编辑距离就是1,那么我们认为这个用户其实是想找追风筝的人

垂直搜索的长尾词的优化,最终的目的是让用户在搜索长尾词的时候,即便搜索引擎有些长尾词给不出精确的结果,也能给一个相对靠谱点的结果,增加用户的点击,这个是大的话题,对于搜索引擎来说也是一个可以持续挖掘的东西,投入再多的人力和精力也都值得,不然一个搜索引擎组哪来那么多自然语言处理的人员啊。

长尾词的应用

长尾词是个金矿,这不仅是对搜索引擎来说是这样的,对使用搜索引擎的人来说也是这样的,我们来几个例子说一下。

我是商家

如果我是商家,在一个电商平台开了店,如果没有监管的话,我把我的商品名称取得千奇百怪,也叫关键词堆砌吧,那么长尾词搜索就有很大概率搜索到我的商品了,而前面也说过,搜索长尾词的用户一般是搜索意图很明确的,那么搜出来点我的概率就大了哈。

但是很可惜,这东西在很久以前可以玩玩,目前各大电商网站对商品名称都有比较严格的限制,靠堆关键词基本上很难了,呵呵。

我是广告主

这里我们以百度投放广告为例,如果我知道一堆长尾关键词而别人不知道,那么这些个关键词的百度竞价很可能很低,也许只有一块两块钱点一次,那么我就用了很低的价钱在这些词上面投了广告,并且这种长尾词用户意图明显,点击率非常高,那比花几百块钱去争抢热门词靠谱多了,在这里,如果找长尾词成了一门学问,呵呵,我们不深究了,这里黑科技太多。

好了,想想最近很热的医疗的关键词,是不是满足长尾词的全部特征?搜索次数少,意图非常明确(谁会没生病去搜索一次医疗相关的词?),搜索词的量很巨大,所以,呵呵,这种搜索词你一旦投广告,不明真相的群主哪有不点的道理?某搜索引擎的收入怎能不高?

我是平台

好了,我们再进一步,如果我是一个平台(这里假设是个电商平台,其实很多其他平台也可以这样),我这个平台上有很多第三方的店,卖各种商品,他们可以通过各种方式在我的平台上打广告,每个广告点一次5块钱,这时候,我拿一些个打广告的商品,分析出这个商品的一些长尾关键词,然后我去百度投放广告,比如一个长尾关键词百度卖1块钱,当有人在百度搜索这个长尾词的时候,第一个看到的就是我平台的这个商品,然后点进来,呵呵,我给百度1块,商家给我5块,分分钟4块到手。

我是搜索引擎

如果我是搜索引擎,我有全部搜索词和点击率,所以很容易查出长尾词来,分分钟秒了各种找长尾词的黑科技,我拿到这些个长尾词以后怎么办呢?当有人在我这投关键词广告的时候,通过相关性匹配,我给他推荐这些长尾词啊,并且告诉他这些次点击率高啊,结果客户一试,还真是点击率高,于是各个客户开始拼命竞价,我的收入开始呼呼涨啊。

所以现在,长尾词已经被搜索引擎本身挖掘完了,广告主想靠长尾词降低投放的花费已经比较困难了。呵呵。。

好了,今天简单的说了说长尾词的一些特点,长尾词挖掘是个长期的工作,对于巨量的搜索词,如果找到一个合适的规则能处理一部分长尾词,那么对搜索引擎的效果都有很好的提升,所以长尾词的优化,不管是大搜索还是垂直搜索,都是一个搜索引擎最重要的模块之一。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容