互联网上的网页是关键词的N倍
我们常见的汉字就几千个,而就是这几千个汉字组成了非常多的关键词,从而组成了非常多的页面。
搜索引擎原理分为三个步骤:
1、网页收集
2、预处理
3、查询服务
搜索引擎建立关键词与网页之间的索引关系是在第2个阶段,预处理
简单来说就是把抓取回来的网页分解成非常多的关键词,然后再根据各种处理,建立关键词与网页之间的索引关系,所以我们搜索某个关键词产生的一些网页排名其实都是搜索引擎提前一一对应好的。
这个技术叫倒排索引技术
而这个预处理的第一步就是消重:就是直接放弃索引库中已有的页面
所以做SEO优化想要网站有排名前提要有收录,想要有收录前提是页面一定要原创,这是最基本的。
原创有2个途径:
第一:自己写
第二:自己造
自己写很简单,自己造就要有一定技巧了,关于原创页面的布局我之前的文章写很多了,比如:
李亚涛:这2个网站SEO优化做的真好
李亚涛:Discuz标签聚合优化操作方法
李亚涛:实例分析SEO优化7个关键点
李亚涛:太平洋汽车网SEO排列组合策略
当然如果不会聚合,自己能发现和收集一些原创数据也是可以的,而且其实有些数据天然就是原创的内容
比如网站robots禁止搜索引擎收录的网站,比如某宝网:
之前就有很多人通过采集评论数据来做一些网站,因为评论数据是JS加密的,所以搜索引擎根本抓取不到,如果你能采集到这类信息,那组合起来就是天然的原创信息。
再比如百度自家产品百度贴吧,你会发现特别是小说吧,非常多的分页,其实非常多的数据都淹没了,并没有被百度收录,不信你找个页面翻页到第2页或第3页直接复制页面URL百度搜索试试,90%没被搜索引擎收录。
像这类信息如果能采集起来加以利用也是非常好的原创内容,原创内容搜索引擎最喜欢,因为原来的索引库里没有这样的内容,所以很容易被收录。
今天就先介绍这2个,更多的欢迎大家留言补充
我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!