搜索引擎:谷歌搜索引擎特点及独有搜索方法
- 变动较快,机动性较高
- Google 漫游器会定期抓取 Web,将大量网页列入索引。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。
- 敏感度较高,反应较快
- Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。Google收录新建网站的两个途径是:第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。如果Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提前。
- 较重视链接的文字描述
- Google会将链接的文字描述作为关键词加以索引
- 相关性和重要性并重
- Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 才将最相关最可靠的搜索结果放在首位。这也是Google收录网页的特点之一。
- 较重视网页Meta标记的描述
- 大多数时候Google显示搜索结果时会把网页的Description显示出来,并占有较重的篇幅。
- 谷歌独有的搜索方法
关键词 | 用法 |
---|---|
星号* | 常用的通配符 |
link | 搜索url的反向链接,既包括内部链接,也包括外部链接 |
Inanchor | 指令查询的结果是导入链接锚文本中包含搜索词的页面 |
related | 返回的结果是某个网站有关联的页面 |
info | 显示与链接相关的一系列搜索 |
cache | 用来搜索在谷歌服务器上的某页面的缓存 |
协同过滤的国外案例
亚马逊的推荐:从商品到商品的协同过滤
推荐算法
- 大多数推荐算法,都始于先找出一个顾客集合,他们买过和评级过的商品,与当前用户买过和评级过的商品有重叠2。算法把来自这些相似顾客的商品聚集起来,排除该用户已经购买过或评级过的商品,并向该用户推荐其余的商品。这些算法有两个最常见的版本:协同过滤和聚类模型。其他算法——包括基于搜索的方法以及我们自己的商品到商品协同过滤——都集中于寻找相似的商品,而不是相似的顾客。针对用户所购买和评级的每一件商品,算法试图找到相似的产品,然后聚集这些相似的商品,并给予推荐。
为何值得知道?
- 亚马逊作为推荐算法的先驱,具有意义和代表性,且受众面较广,较为常见。
为何符合定义?
- 与把当前用户匹配到相似顾客的做法不同,商品到商品的协同过滤,把该用户所购买和评级的商品,匹配到相似的商品,然后组合这些相似的商品进入推荐列表。